- Ocak ayında piyasaya sürülen Qwen2.5-VL serisini temel alarak, modeli pekiştirmeli öğrenme ile optimize eden ve 32B parametre ölçeğinde yeni bir VL modeli olan Qwen2.5-VL-32B-Instruct'u Apache 2.0 lisansı altında açık kaynak olarak yayımladı
- Önceki modellerle karşılaştırıldığında, bu 32B VL modelinin özellikleri:
- İnsan tercihleriyle daha uyumlu yanıtlar: Çıktı stili ayarlanarak daha ayrıntılı ve daha iyi düzenlenmiş cevaplar sunuluyor.
- Matematiksel akıl yürütme: Karmaşık matematik problemlerini çözmedeki doğruluk önemli ölçüde artırıldı.
- Ayrıntılı görsel anlama ve akıl yürütme: Görüntü ayrıştırma, içerik tanıma ve görsel mantıksal akıl yürütme gibi görevlerde doğruluk ve ayrıntılı analiz güçlendirildi.
Performans
- Aynı sınıftaki güncel modellerle yapılan kapsamlı benchmark'larda Qwen2.5-VL-32B-Instruct, Mistral-Small-3.1-24B ve Gemma-3-27B-IT gibi referans modelleri geride bırakırken, daha büyük olan Qwen2-VL-72B-Instruct modelini de aşan sonuçlar gösteriyor.
- Özellikle MMMU, MMMU-Pro, MathVista gibi karmaşık ve çok aşamalı akıl yürütme gerektiren multimodal görevlerde belirgin avantaj sağlıyor.
- MM-MT-Bench'te ise öznel kullanıcı deneyimi değerlendirmelerine vurgu yaparak, Qwen2-VL-72B-Instruct'a kıyasla belirgin farkla daha iyi performans sergiliyor.
- Yalnızca görsel yeteneklerde değil, aynı ölçekte saf metin yeteneklerinde de en üst düzey performans elde ediyor.
1 yorum
Hacker News görüşleri
uvkullanarak, kütüphane kurmaya gerek kalmadan çalıştırılıyor