Qwen’in yeni görsel akıl yürütme modeli QvQ kullanım incelemesi

(simonwillison.net)

5 puan yazan GN⁺ 2024-12-26 | 1 yorum | WhatsApp'ta paylaş

Alibaba Qwen ekibi yeni görsel akıl yürütme modeli QvQ-72B-Preview’yi duyurdu
- Görsel ve prompt alarak ayrıntılı bir akıl yürütme gerçekleştiriyor
- Başlangıçta Apache 2.0 olarak işaretlenmişken şu anda Qwen lisansına dönüştürüldü
Önceki model QwQ ile farkları
- QwQ, metin tabanlı akıl yürütmeye odaklandı ve "düşünce sınırını yansıtan" bir mekanizma ile tasarlandı
- QvQ ise buna görsel girdi ekleyerek görsellerden derinlemesine analiz yapıyor

QvQ kullanım örnekleri ve testler

QvQ modeli, Hugging Face Spaces’te kullanılabiliyor
- Görsel ve tek bir prompt girdiğinizde son derece uzun yanıtlar üretir; ek prompt girişi mümkün değildir
- Görseli analiz ederken akıl yürütme sürecini adım adım açıklar
Test sonuçları
- Pelikan sayımı: "Count the pelicans" promptu kullanılarak fotoğraftaki pelikan sayısı hesaplandı
  - Tam olarak 4 pelikan doğru şekilde sayıldı ve kısmen görünen bir kuş hariç tutuldu
  - Dostane, konuşma diline yakın bir üslupla akıl yürütmeyi açıkladı
- ARC-AGI bulmacası: karmaşık bir problemi çözmeye çalıştı ancak kesin bir sonuç üretemedi
  - Hücresel otomat gibi özgün bir yaklaşım önerdi
- Dinozor (ejderha) yüksekliği tahmini: karşılaştırılabilecek bir nesne olmadan ejderha yüksekliğini tahmin etme girişiminde bulundu
  - Yaklaşık 8-9 fit yüksekliği önererek hassas bir gözlem yeteneği gösterdi

QvQ modeli çalıştırma yöntemi

Barındırma ortamı
- Hugging Face Spaces üzerinden GPU model ağırlıklarıyla test yapılabilir
- qwen-vl-utils Python paketi ile çalıştırılabilir

Yerel çalışma

Prince Canuma, modeli Apple MLX çerçevesi için dönüştürerek mlx-vlm paketi ile çalıştırılmasını sağladı

macOS M2 64GB RAM ortamında 4-bit quantization sürümü başarıyla çalıştırıldı

Çalıştırma komutu:

uv run --with 'numpy<2.0' --with mlx-vlm python \  
  -m mlx_vlm.generate \  
  --model mlx-community/QVQ-72B-Preview-4bit \  
  --max-tokens 10000 \  
  --temp 0.0 \  
  --prompt "describe this" \  
  --image pelicans-on-bicycles-veo2.jpg

QvQ lisans değişikliği

QvQ lisansı Apache 2.0’dan Qwen lisansına değiştirildi
- Bu, başlangıçtaki bir hatanın düzeltilmesi gibi görünüyor
QwQ modeli hâlâ Apache 2.0 lisansını koruyor
- İki model arasında ayrıştırılmış lisans politikası görüldü

Sonuç

QvQ, görsel ve metni birleştiren güçlü bir görsel akıl yürütme modeli olarak çeşitli testlerde ilginç sonuçlar üretiyor
Gelecekteki güncellemeler ve ek kullanım olasılıklarıyla yüksek beklenti oluşturuyor

1 yorum

GN⁺ 2024-12-26

Hacker News yorumu

M2 64 GB dizüstü bilgisayarda QVQ-72B-Preview-4bit modelini çalıştırarak görselleri nasıl analiz ettiğini anlattım.
- uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg komutunu kullandım
- Sonuçlar bağlantıda görünüyor.
Bu modelin çok eğlenceli bir yanları var.
- Görseli yükleyip "Bu görsele bakarken düşüncelerini sesli söyle" gibi bir soru sorarsanız ilginç sonuçlar alabilirsiniz.
- Örneğin bir sandviç fotoğrafını vererek ayrıntılı bir şekilde tarif ediyor ve tadını hayal ettiriyor.
Kelime bulma bulmacası sorununu test olarak kullandım ancak QvQ modeli başarısız oldu.
- AI Studio'daki Gemini sürümü de ilk başta başarısız oldu ama birkaç denemeden sonra kelimeyi başarıyla buldu.
- Doğrudan doğrudan çözümü istemektense, bir program oluşturarak problemi çözmek daha iyi sonuç verdi.
Ünlü "Tank Man" fotoğrafını girdiğinde boş yanıt döndü.
Görüntüyü incelerken düşünceleri sesli söyleyen yorumcu verileri için bir veri seti olan PixMo var.
- QvQ'nin de benzer bir şekilde eğitilmiş olabileceği düşünüldü.
Q* modelinin açık kaynaklı olup olmadığı soruldu.
- Yetkiye karşı bir eylem konusunda tavsiye istendiğinde güçlü bir uyum göstermeyi tavsiye etti.
Pelikan fotoğraflarını saydıran soru sorulduğunda yanıt stili eğlenceliydi.
- GPT-4'ten farklı, daha gündelik bir ton veriyor.
QvQ-72B-Preview modelinin lisansına dair tartışma var.
- Apache 2.0 lisansı ile Qwen lisansı arasındaki karışıklık dikkat çekti.
QvQ modeli ünlüler, köpekler ve The New Yorker karikatürleri gibi görselleri analiz etmede güçlü performans gösteriyor.
Matematik denklem görsellerini işleme yeteneği de var.