5 puan yazan GN⁺ 2024-12-26 | 1 yorum | WhatsApp'ta paylaş
  • Alibaba Qwen ekibi yeni görsel akıl yürütme modeli QvQ-72B-Preview’yi duyurdu
    • Görsel ve prompt alarak ayrıntılı bir akıl yürütme gerçekleştiriyor
    • Başlangıçta Apache 2.0 olarak işaretlenmişken şu anda Qwen lisansına dönüştürüldü
  • Önceki model QwQ ile farkları
    • QwQ, metin tabanlı akıl yürütmeye odaklandı ve "düşünce sınırını yansıtan" bir mekanizma ile tasarlandı
    • QvQ ise buna görsel girdi ekleyerek görsellerden derinlemesine analiz yapıyor

QvQ kullanım örnekleri ve testler

  • QvQ modeli, Hugging Face Spaces’te kullanılabiliyor
    • Görsel ve tek bir prompt girdiğinizde son derece uzun yanıtlar üretir; ek prompt girişi mümkün değildir
    • Görseli analiz ederken akıl yürütme sürecini adım adım açıklar
  • Test sonuçları
    • Pelikan sayımı: "Count the pelicans" promptu kullanılarak fotoğraftaki pelikan sayısı hesaplandı
      • Tam olarak 4 pelikan doğru şekilde sayıldı ve kısmen görünen bir kuş hariç tutuldu
      • Dostane, konuşma diline yakın bir üslupla akıl yürütmeyi açıkladı
    • ARC-AGI bulmacası: karmaşık bir problemi çözmeye çalıştı ancak kesin bir sonuç üretemedi
      • Hücresel otomat gibi özgün bir yaklaşım önerdi
    • Dinozor (ejderha) yüksekliği tahmini: karşılaştırılabilecek bir nesne olmadan ejderha yüksekliğini tahmin etme girişiminde bulundu
      • Yaklaşık 8-9 fit yüksekliği önererek hassas bir gözlem yeteneği gösterdi

QvQ modeli çalıştırma yöntemi

  • Barındırma ortamı

  • Yerel çalışma

    • Prince Canuma, modeli Apple MLX çerçevesi için dönüştürerek mlx-vlm paketi ile çalıştırılmasını sağladı
    • macOS M2 64GB RAM ortamında 4-bit quantization sürümü başarıyla çalıştırıldı
      • Çalıştırma komutu:
        uv run --with 'numpy<2.0' --with mlx-vlm python \  
          -m mlx_vlm.generate \  
          --model mlx-community/QVQ-72B-Preview-4bit \  
          --max-tokens 10000 \  
          --temp 0.0 \  
          --prompt "describe this" \  
          --image pelicans-on-bicycles-veo2.jpg  
        

QvQ lisans değişikliği

  • QvQ lisansı Apache 2.0’dan Qwen lisansına değiştirildi
    • Bu, başlangıçtaki bir hatanın düzeltilmesi gibi görünüyor
  • QwQ modeli hâlâ Apache 2.0 lisansını koruyor
    • İki model arasında ayrıştırılmış lisans politikası görüldü

Sonuç

  • QvQ, görsel ve metni birleştiren güçlü bir görsel akıl yürütme modeli olarak çeşitli testlerde ilginç sonuçlar üretiyor
  • Gelecekteki güncellemeler ve ek kullanım olasılıklarıyla yüksek beklenti oluşturuyor

1 yorum

 
GN⁺ 2024-12-26
Hacker News yorumu
  • M2 64 GB dizüstü bilgisayarda QVQ-72B-Preview-4bit modelini çalıştırarak görselleri nasıl analiz ettiğini anlattım.

    • uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg komutunu kullandım
    • Sonuçlar bağlantıda görünüyor.
  • Bu modelin çok eğlenceli bir yanları var.

    • Görseli yükleyip "Bu görsele bakarken düşüncelerini sesli söyle" gibi bir soru sorarsanız ilginç sonuçlar alabilirsiniz.
    • Örneğin bir sandviç fotoğrafını vererek ayrıntılı bir şekilde tarif ediyor ve tadını hayal ettiriyor.
  • Kelime bulma bulmacası sorununu test olarak kullandım ancak QvQ modeli başarısız oldu.

    • AI Studio'daki Gemini sürümü de ilk başta başarısız oldu ama birkaç denemeden sonra kelimeyi başarıyla buldu.
    • Doğrudan doğrudan çözümü istemektense, bir program oluşturarak problemi çözmek daha iyi sonuç verdi.
  • Ünlü "Tank Man" fotoğrafını girdiğinde boş yanıt döndü.

  • Görüntüyü incelerken düşünceleri sesli söyleyen yorumcu verileri için bir veri seti olan PixMo var.

    • QvQ'nin de benzer bir şekilde eğitilmiş olabileceği düşünüldü.
  • Q* modelinin açık kaynaklı olup olmadığı soruldu.

    • Yetkiye karşı bir eylem konusunda tavsiye istendiğinde güçlü bir uyum göstermeyi tavsiye etti.
  • Pelikan fotoğraflarını saydıran soru sorulduğunda yanıt stili eğlenceliydi.

    • GPT-4'ten farklı, daha gündelik bir ton veriyor.
  • QvQ-72B-Preview modelinin lisansına dair tartışma var.

    • Apache 2.0 lisansı ile Qwen lisansı arasındaki karışıklık dikkat çekti.
  • QvQ modeli ünlüler, köpekler ve The New Yorker karikatürleri gibi görselleri analiz etmede güçlü performans gösteriyor.

  • Matematik denklem görsellerini işleme yeteneği de var.