Qwen2.5-VL-32B - Daha Akıllı ve Daha Hafif Bir Model

(qwenlm.github.io)

5 puan yazan GN⁺ 2025-03-25 | 1 yorum | WhatsApp'ta paylaş

Ocak ayında piyasaya sürülen Qwen2.5-VL serisini temel alarak, modeli pekiştirmeli öğrenme ile optimize eden ve 32B parametre ölçeğinde yeni bir VL modeli olan Qwen2.5-VL-32B-Instruct'u Apache 2.0 lisansı altında açık kaynak olarak yayımladı
Önceki modellerle karşılaştırıldığında, bu 32B VL modelinin özellikleri:
- İnsan tercihleriyle daha uyumlu yanıtlar: Çıktı stili ayarlanarak daha ayrıntılı ve daha iyi düzenlenmiş cevaplar sunuluyor.
- Matematiksel akıl yürütme: Karmaşık matematik problemlerini çözmedeki doğruluk önemli ölçüde artırıldı.
- Ayrıntılı görsel anlama ve akıl yürütme: Görüntü ayrıştırma, içerik tanıma ve görsel mantıksal akıl yürütme gibi görevlerde doğruluk ve ayrıntılı analiz güçlendirildi.

Performans

Aynı sınıftaki güncel modellerle yapılan kapsamlı benchmark'larda Qwen2.5-VL-32B-Instruct, Mistral-Small-3.1-24B ve Gemma-3-27B-IT gibi referans modelleri geride bırakırken, daha büyük olan Qwen2-VL-72B-Instruct modelini de aşan sonuçlar gösteriyor.
Özellikle MMMU, MMMU-Pro, MathVista gibi karmaşık ve çok aşamalı akıl yürütme gerektiren multimodal görevlerde belirgin avantaj sağlıyor.
MM-MT-Bench'te ise öznel kullanıcı deneyimi değerlendirmelerine vurgu yaparak, Qwen2-VL-72B-Instruct'a kıyasla belirgin farkla daha iyi performans sergiliyor.
Yalnızca görsel yeteneklerde değil, aynı ölçekte saf metin yeteneklerinde de en üst düzey performans elde ediyor.

1 yorum

GN⁺ 2025-03-25

Hacker News görüşleri

Açık kaynaklı Çin modellerinin duyurulduğu büyük bir gün. DeepSeek-v3-0324 bugün MIT lisansıyla güncellenerek yayımlandı (önceden özel DeepSeek lisansı vardı)
Birkaç ay önce Llama Vision 3.2 kullanmıştım ve hız ile çıktı kalitesi açısından çok hayal kırıklığı yaratmıştı. Hugging Face'te alternatif ararken Qwen'i keşfettim. Doğruluk ve hız farkı muazzamdı. Bir görseli analiz edip yanıt vermesini istediğimde, 4090 ile yarım saniye içinde çoğunlukla doğru yanıt alıyorum. Daha da etkileyici olan, görselden varlık adlarını çıkarırken ad kesilmiş olsa bile tam adını verebilmesi (ör. arka planda silik şekilde "Coca-C" görünüyorsa "Coca-Cola" döndürüyor). Çok bilinmeyen varlıkları ya da yalnızca belirli bölgelerde bilinen varlıkları da iyi işliyor. Qwen'i kullanmaya başladıktan sonra bir daha Llama'ya ya da başka bir vision modeline dönmedim
32B model şu anda en sevdiğim model boyutlarından biri. Çok güçlü ama tek bir GPU'da ya da makul özellikli bir Mac dizüstünde (32GB ve üstü) çalıştırılabilecek kadar da küçük
Bu model artık MLX'te farklı boyutlarla kullanılabiliyor
- uv kullanarak, kütüphane kurmaya gerek kalmadan çalıştırılıyor
- Yaklaşık 18GB'lık modeli indirip çok etkileyici sonuçlar aldım
Aptalca bir soru olabilir ama OpenAI, Claude vb. tüm açık kaynak modeller düşünüldüğünde nasıl bu kadar yüksek değerlemelere ulaşabiliyor, merak ediyorum. Yok olacaklarını ya da küçüleceklerini söylemiyorum ama neden bu kadar değerliler, bunu merak ediyorum
Açık ağırlıklı modeller o kadar hızlı çıkıyor ki takip etmek zor. Her model için şu anda "güncel" olanı tutan bir liste yöneten biri var mı, merak ediyorum
Bir modeli multimodal yapmanın metin yeteneklerini nasıl etkilediğini bilen var mı, merak ediyorum. Yazı, saf metinde de iyi performans gösterdiğini iddia ediyor ama gerçekte ne kadar etkisi olduğuna dair bir analiz var mı, merak ediyorum. Bazıları modelin metinde daha iyi olacağını savunuyor ama veri olmadan buna inanmak zor geliyor
Ne büyüklükte bir ekran kartı gerektiğini daha iyi anlamak isterim. Hugging Face bağlantısına göre bfloat16, yani en az 64GB gerekir gibi görünüyor. -7B benim 16GB AMD kartımda çalışır mı?
Qwen, Alibaba Cloud tarafından geliştiriliyor (blog yazısının hiçbir yerinde bundan bahsedilmiyor)
Bugün Qwen, yarın Google'ın yeni SOTA modeli, gelecek hafta da R2 gelecek. Henüz sınıra ulaşmış değiliz

Qwen2.5-VL-32B - Daha Akıllı ve Daha Hafif Bir Model

Performans

İlgili okumalar

1 yorum

Hacker News görüşleri