QwQ-32B: Pekiştirmeli öğrenmeyle daha az parametreyle DeepSeek-R1’e benzer performans

(qwenlm.github.io)

3 puan yazan GN⁺ 2025-03-06 | 1 yorum | WhatsApp'ta paylaş

QwQ-32B modeli, 32 milyar parametreye sahip bir model olup DeepSeek-R1’e benzer performans gösteriyor
Bu model, büyük dil modellerinin zekasını güçlendirmek için pekiştirmeli öğrenmeden (RL) yararlanıyor
Hugging Face ve ModelScope üzerinde Apache 2.0 lisansıyla yayımlandı ve Qwen Chat üzerinden erişilebiliyor

Performans

QwQ-32B, matematiksel akıl yürütme, kodlama yeteneği ve genel problem çözme becerilerini değerlendiren çeşitli benchmark’larda test edildi.
Performansı, DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini ve orijinal DeepSeek-R1 ile karşılaştırılarak değerlendirildi
- QwQ-32B, LiveBench ve BFCL’de en yüksek performansı kaydederken, IFEval ve AIME24’te de DeepSeek-R1-671B ile benzer seviyede
- LiveCodeBench’te DeepSeek-R1-671B’nin biraz gerisinde kalsa da hâlâ diğer modellerden daha iyi
- Genel olarak, DeepSeek-R1-671B ile benzer veya daha iyi performans gösterirken çok daha az parametreyle (32,5 milyar vs 671 milyar) rekabetçiliğini kanıtlıyor
- Yani temel nokta, QwQ-32B’nin pekiştirmeli öğrenmeyle optimize edilmiş bir model olarak çok daha küçük ölçekte olmasına rağmen en üst düzey performans elde etmesi

Pekiştirmeli öğrenme

Erken aşamada matematik ve kodlama görevleri için pekiştirmeli öğrenme (RL) ölçekleme yaklaşımı benimsendi
Geleneksel ödül modeli yerine, nihai çözümün doğruluğunu garanti etmek için doğruluk doğrulayıcıları ve kod yürütme sunucusu kullanıldı
Genel yetenekler için ek bir RL aşaması bulunuyor; bu da insan tercihleri ve ajan performansı gibi genel kabiliyetlerdeki performansı artırıyor

Gelecek çalışmalar

Qwen, akıl yürütme yeteneklerini geliştirmek için pekiştirmeli öğrenmeyi (RL) genişletmenin erken aşamasında
Güçlendirilmiş temel modeller ile ölçeklendirilmiş hesaplama kaynaklarını birleştirerek yapay genel zekaya (AGI) ulaşmaya daha da yaklaşacak
Ajanlar ile RL’nin entegrasyonu üzerinden uzun vadeli akıl yürütmeyi mümkün kılarak daha büyük bir zekanın ortaya çıkmasını araştırıyor

1 yorum

GN⁺ 2025-03-06

Hacker News görüşleri

Uzun bağlam uzunluğuna (130k token) dikkat etmek gerekiyor. Yeterli bağlam olmadan uzun CoT üretmek anlamsız.
- İlk prompt çok uzun olduğu için görevi unutuyor.
- Kullanıcı belirli bir görev vermemiş.
- İlk talimat, bir AI ajanı gibi davranması yönünde.
- Kullanıcı bir problem verip adım adım akıl yürütmesini istiyor gibi görünüyor.
Matematik eğitimi ve kodlama, genel akıl yürütme yeteneğini geliştiriyor.
DeepSeek'ten 20 kat daha küçük. Hangi donanımda çalıştırılabileceğini merak ediyorum.
- 512GB M3 Ultra gerekmiyor gibi görünüyor.
- DeepSeek ile başa baş ama 20 kat daha küçük.
Çin'in stratejisi, açık kaynak yazılım ve robotikten gelir elde etmek.
- ABD'nin gücünü nasıl koruyacağını merak ediyorum.
- Hindistan bu rekabete katılamıyor.
Qwen2.5-plus'ı test etmek için bir bağlantı verilmiş.
2024 Kasım'da "preview" olarak yayımlandı.
- Sık sık "bekle" ifadesini kullanıyor.
- Çok sayıda akıl yürütme token'ı ürettikten sonra konudan kopma sorunu yaşanıyor.
DeepSeek-R1'in hemen altında konumlanıyor.
- 32B için oldukça etkileyici.
- Düşünme token'ları bazen nihai yanıttan 10 kat daha büyük olabiliyor.
- Hafta sonu function calling ile test etmeyi planlıyorum.
Kişisel deneyimde tersten okuyup soruları yanıtlama testi yapılmış.
- "ip fo eulav si tahw" tersten okununca "what is value of pi" oluyor.
- π'nin değeri yaklaşık 3.14159'dur.
- π irrasyonel bir sayıdır; sonsuza kadar gider ve tekrar etmez.
Hemen işledi ve olumlu bir deneyimdi.

QwQ-32B: Pekiştirmeli öğrenmeyle daha az parametreyle DeepSeek-R1’e benzer performans

Performans

Pekiştirmeli öğrenme

Gelecek çalışmalar

İlgili okumalar

1 yorum

Hacker News görüşleri