- QwQ-32B modeli, 32 milyar parametreye sahip bir model olup DeepSeek-R1’e benzer performans gösteriyor
- Bu model, büyük dil modellerinin zekasını güçlendirmek için pekiştirmeli öğrenmeden (RL) yararlanıyor
- Hugging Face ve ModelScope üzerinde Apache 2.0 lisansıyla yayımlandı ve Qwen Chat üzerinden erişilebiliyor
Performans
- QwQ-32B, matematiksel akıl yürütme, kodlama yeteneği ve genel problem çözme becerilerini değerlendiren çeşitli benchmark’larda test edildi.
- Performansı, DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini ve orijinal DeepSeek-R1 ile karşılaştırılarak değerlendirildi
- QwQ-32B, LiveBench ve BFCL’de en yüksek performansı kaydederken, IFEval ve AIME24’te de DeepSeek-R1-671B ile benzer seviyede
- LiveCodeBench’te DeepSeek-R1-671B’nin biraz gerisinde kalsa da hâlâ diğer modellerden daha iyi
- Genel olarak, DeepSeek-R1-671B ile benzer veya daha iyi performans gösterirken çok daha az parametreyle (32,5 milyar vs 671 milyar) rekabetçiliğini kanıtlıyor
- Yani temel nokta, QwQ-32B’nin pekiştirmeli öğrenmeyle optimize edilmiş bir model olarak çok daha küçük ölçekte olmasına rağmen en üst düzey performans elde etmesi
Pekiştirmeli öğrenme
- Erken aşamada matematik ve kodlama görevleri için pekiştirmeli öğrenme (RL) ölçekleme yaklaşımı benimsendi
- Geleneksel ödül modeli yerine, nihai çözümün doğruluğunu garanti etmek için doğruluk doğrulayıcıları ve kod yürütme sunucusu kullanıldı
- Genel yetenekler için ek bir RL aşaması bulunuyor; bu da insan tercihleri ve ajan performansı gibi genel kabiliyetlerdeki performansı artırıyor
Gelecek çalışmalar
- Qwen, akıl yürütme yeteneklerini geliştirmek için pekiştirmeli öğrenmeyi (RL) genişletmenin erken aşamasında
- Güçlendirilmiş temel modeller ile ölçeklendirilmiş hesaplama kaynaklarını birleştirerek yapay genel zekaya (AGI) ulaşmaya daha da yaklaşacak
- Ajanlar ile RL’nin entegrasyonu üzerinden uzun vadeli akıl yürütmeyi mümkün kılarak daha büyük bir zekanın ortaya çıkmasını araştırıyor
1 yorum
Hacker News görüşleri
Uzun bağlam uzunluğuna (130k token) dikkat etmek gerekiyor. Yeterli bağlam olmadan uzun CoT üretmek anlamsız.
Matematik eğitimi ve kodlama, genel akıl yürütme yeteneğini geliştiriyor.
DeepSeek'ten 20 kat daha küçük. Hangi donanımda çalıştırılabileceğini merak ediyorum.
Çin'in stratejisi, açık kaynak yazılım ve robotikten gelir elde etmek.
Qwen2.5-plus'ı test etmek için bir bağlantı verilmiş.
2024 Kasım'da "preview" olarak yayımlandı.
DeepSeek-R1'in hemen altında konumlanıyor.
Kişisel deneyimde tersten okuyup soruları yanıtlama testi yapılmış.
Hemen işledi ve olumlu bir deneyimdi.