Qwen’in yeni görsel akıl yürütme modeli QvQ kullanım incelemesi
(simonwillison.net)- Alibaba Qwen ekibi yeni görsel akıl yürütme modeli QvQ-72B-Preview’yi duyurdu
- Görsel ve prompt alarak ayrıntılı bir akıl yürütme gerçekleştiriyor
- Başlangıçta Apache 2.0 olarak işaretlenmişken şu anda Qwen lisansına dönüştürüldü
- Önceki model QwQ ile farkları
- QwQ, metin tabanlı akıl yürütmeye odaklandı ve "düşünce sınırını yansıtan" bir mekanizma ile tasarlandı
- QvQ ise buna görsel girdi ekleyerek görsellerden derinlemesine analiz yapıyor
QvQ kullanım örnekleri ve testler
- QvQ modeli, Hugging Face Spaces’te kullanılabiliyor
- Görsel ve tek bir prompt girdiğinizde son derece uzun yanıtlar üretir; ek prompt girişi mümkün değildir
- Görseli analiz ederken akıl yürütme sürecini adım adım açıklar
- Test sonuçları
- Pelikan sayımı: "Count the pelicans" promptu kullanılarak fotoğraftaki pelikan sayısı hesaplandı
- Tam olarak 4 pelikan doğru şekilde sayıldı ve kısmen görünen bir kuş hariç tutuldu
- Dostane, konuşma diline yakın bir üslupla akıl yürütmeyi açıkladı
- ARC-AGI bulmacası: karmaşık bir problemi çözmeye çalıştı ancak kesin bir sonuç üretemedi
- Hücresel otomat gibi özgün bir yaklaşım önerdi
- Dinozor (ejderha) yüksekliği tahmini: karşılaştırılabilecek bir nesne olmadan ejderha yüksekliğini tahmin etme girişiminde bulundu
- Yaklaşık 8-9 fit yüksekliği önererek hassas bir gözlem yeteneği gösterdi
- Pelikan sayımı: "Count the pelicans" promptu kullanılarak fotoğraftaki pelikan sayısı hesaplandı
QvQ modeli çalıştırma yöntemi
-
Barındırma ortamı
- Hugging Face Spaces üzerinden GPU model ağırlıklarıyla test yapılabilir
- qwen-vl-utils Python paketi ile çalıştırılabilir
-
Yerel çalışma
- Prince Canuma, modeli Apple MLX çerçevesi için dönüştürerek mlx-vlm paketi ile çalıştırılmasını sağladı
- macOS M2 64GB RAM ortamında 4-bit quantization sürümü başarıyla çalıştırıldı
- Çalıştırma komutu:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Çalıştırma komutu:
QvQ lisans değişikliği
- QvQ lisansı Apache 2.0’dan Qwen lisansına değiştirildi
- Bu, başlangıçtaki bir hatanın düzeltilmesi gibi görünüyor
- QwQ modeli hâlâ Apache 2.0 lisansını koruyor
- İki model arasında ayrıştırılmış lisans politikası görüldü
Sonuç
- QvQ, görsel ve metni birleştiren güçlü bir görsel akıl yürütme modeli olarak çeşitli testlerde ilginç sonuçlar üretiyor
- Gelecekteki güncellemeler ve ek kullanım olasılıklarıyla yüksek beklenti oluşturuyor
1 yorum
Hacker News yorumu
M2 64 GB dizüstü bilgisayarda QVQ-72B-Preview-4bit modelini çalıştırarak görselleri nasıl analiz ettiğini anlattım.
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgkomutunu kullandımBu modelin çok eğlenceli bir yanları var.
Kelime bulma bulmacası sorununu test olarak kullandım ancak QvQ modeli başarısız oldu.
Ünlü "Tank Man" fotoğrafını girdiğinde boş yanıt döndü.
Görüntüyü incelerken düşünceleri sesli söyleyen yorumcu verileri için bir veri seti olan PixMo var.
Q* modelinin açık kaynaklı olup olmadığı soruldu.
Pelikan fotoğraflarını saydıran soru sorulduğunda yanıt stili eğlenceliydi.
QvQ-72B-Preview modelinin lisansına dair tartışma var.
QvQ modeli ünlüler, köpekler ve The New Yorker karikatürleri gibi görselleri analiz etmede güçlü performans gösteriyor.
Matematik denklem görsellerini işleme yeteneği de var.