3 puan yazan GN⁺ 2025-03-06 | 1 yorum | WhatsApp'ta paylaş
  • QwQ-32B modeli, 32 milyar parametreye sahip bir model olup DeepSeek-R1’e benzer performans gösteriyor
  • Bu model, büyük dil modellerinin zekasını güçlendirmek için pekiştirmeli öğrenmeden (RL) yararlanıyor
  • Hugging Face ve ModelScope üzerinde Apache 2.0 lisansıyla yayımlandı ve Qwen Chat üzerinden erişilebiliyor

Performans

  • QwQ-32B, matematiksel akıl yürütme, kodlama yeteneği ve genel problem çözme becerilerini değerlendiren çeşitli benchmark’larda test edildi.
  • Performansı, DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini ve orijinal DeepSeek-R1 ile karşılaştırılarak değerlendirildi
    • QwQ-32B, LiveBench ve BFCL’de en yüksek performansı kaydederken, IFEval ve AIME24’te de DeepSeek-R1-671B ile benzer seviyede
    • LiveCodeBench’te DeepSeek-R1-671B’nin biraz gerisinde kalsa da hâlâ diğer modellerden daha iyi
    • Genel olarak, DeepSeek-R1-671B ile benzer veya daha iyi performans gösterirken çok daha az parametreyle (32,5 milyar vs 671 milyar) rekabetçiliğini kanıtlıyor
    • Yani temel nokta, QwQ-32B’nin pekiştirmeli öğrenmeyle optimize edilmiş bir model olarak çok daha küçük ölçekte olmasına rağmen en üst düzey performans elde etmesi

Pekiştirmeli öğrenme

  • Erken aşamada matematik ve kodlama görevleri için pekiştirmeli öğrenme (RL) ölçekleme yaklaşımı benimsendi
  • Geleneksel ödül modeli yerine, nihai çözümün doğruluğunu garanti etmek için doğruluk doğrulayıcıları ve kod yürütme sunucusu kullanıldı
  • Genel yetenekler için ek bir RL aşaması bulunuyor; bu da insan tercihleri ve ajan performansı gibi genel kabiliyetlerdeki performansı artırıyor

Gelecek çalışmalar

  • Qwen, akıl yürütme yeteneklerini geliştirmek için pekiştirmeli öğrenmeyi (RL) genişletmenin erken aşamasında
  • Güçlendirilmiş temel modeller ile ölçeklendirilmiş hesaplama kaynaklarını birleştirerek yapay genel zekaya (AGI) ulaşmaya daha da yaklaşacak
  • Ajanlar ile RL’nin entegrasyonu üzerinden uzun vadeli akıl yürütmeyi mümkün kılarak daha büyük bir zekanın ortaya çıkmasını araştırıyor

1 yorum

 
GN⁺ 2025-03-06
Hacker News görüşleri
  • Uzun bağlam uzunluğuna (130k token) dikkat etmek gerekiyor. Yeterli bağlam olmadan uzun CoT üretmek anlamsız.

    • İlk prompt çok uzun olduğu için görevi unutuyor.
    • Kullanıcı belirli bir görev vermemiş.
    • İlk talimat, bir AI ajanı gibi davranması yönünde.
    • Kullanıcı bir problem verip adım adım akıl yürütmesini istiyor gibi görünüyor.
  • Matematik eğitimi ve kodlama, genel akıl yürütme yeteneğini geliştiriyor.

  • DeepSeek'ten 20 kat daha küçük. Hangi donanımda çalıştırılabileceğini merak ediyorum.

    • 512GB M3 Ultra gerekmiyor gibi görünüyor.
    • DeepSeek ile başa baş ama 20 kat daha küçük.
  • Çin'in stratejisi, açık kaynak yazılım ve robotikten gelir elde etmek.

    • ABD'nin gücünü nasıl koruyacağını merak ediyorum.
    • Hindistan bu rekabete katılamıyor.
  • Qwen2.5-plus'ı test etmek için bir bağlantı verilmiş.

  • 2024 Kasım'da "preview" olarak yayımlandı.

    • Sık sık "bekle" ifadesini kullanıyor.
    • Çok sayıda akıl yürütme token'ı ürettikten sonra konudan kopma sorunu yaşanıyor.
  • DeepSeek-R1'in hemen altında konumlanıyor.

    • 32B için oldukça etkileyici.
    • Düşünme token'ları bazen nihai yanıttan 10 kat daha büyük olabiliyor.
    • Hafta sonu function calling ile test etmeyi planlıyorum.
  • Kişisel deneyimde tersten okuyup soruları yanıtlama testi yapılmış.

    • "ip fo eulav si tahw" tersten okununca "what is value of pi" oluyor.
    • π'nin değeri yaklaşık 3.14159'dur.
    • π irrasyonel bir sayıdır; sonsuza kadar gider ve tekrar etmez.
  • Hemen işledi ve olumlu bir deneyimdi.