1 puan yazan GN⁺ 2025-01-29 | 1 yorum | WhatsApp'ta paylaş
  • Qwen2.5-Max, 20 trilyondan (20T) fazla token ile ön eğitimden geçirilmiş büyük ölçekli bir Mixture-of-Experts (MoE) modelidir
  • Sonraki eğitim süreci, Supervised Fine-Tuning (SFT) ve insan geri bildiriminden yararlanan pekiştirmeli öğrenme (RLHF) ile yürütüldü
  • DeepSeek V3, GPT-4o, Claude-3.5-Sonnet ve Llama-3.1-405B gibi modellerle karşılaştırılan kıyaslamaların çoğunda üstün performans göstererek öne çıkıyor
    • Arena-Hard, LiveBench, LiveCodeBench ve GPQA-Diamond gibi testlerde DeepSeek V3'ü geride bırakıyor; MMLU-Pro'da da rekabetçi sonuçlar sergiliyor.

Başlıca kıyaslama sonuçları

  • Arena-Hard: İnsan tercihine yakın değerlendirme
    Qwen2.5-Max, 89.4 puanla en yüksek performansı gösterdi. DeepSeek V3'ten (85.5), GPT-4o'dan (85.2) ve Claude-3.5-Sonnet'ten (77.9) daha iyi. Llama-3.1-405B ise 69.3 puanla görece daha düşük performans sergiledi.
  • MMLU-Pro: Üniversite düzeyinde bilgi değerlendirmesi
    Qwen2.5-Max, 76.1 puanla DeepSeek V3'e (75.9) neredeyse eşdeğer performans gösterdi. GPT-4o (78.0) biraz daha yüksek olsa da Qwen2.5-Max, Claude-3.5-Sonnet'ten (77.0) ve Llama-3.1-405B'den (73.3) daha iyi.
  • GPQA-Diamond: Genel soru yanıtlama yeteneği değerlendirmesi
    Qwen2.5-Max, 60.1 puanla DeepSeek V3'ün (59.1) az farkla önünde yer alırken, GPT-4o (53.6) ve Claude-3.5-Sonnet'ten (51.1) daha yüksek; Llama-3.1-405B'nin (65.0) ise biraz gerisinde kaldı.
  • LiveCodeBench: Kodlama yeteneği değerlendirmesi
    Qwen2.5-Max, 38.7 puan alarak DeepSeek V3'ten (37.6) biraz daha yüksek sonuç verdi. GPT-4o (35.1), Claude-3.5-Sonnet (30.2) ve Llama-3.1-405B (38.9) ile benzer seviyede.
  • LiveBench: Genel model performansı değerlendirmesi
    Qwen2.5-Max, 62.2 puanla en yüksek skoru elde etti. DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) ve Llama-3.1-405B'den (53.2) daha üstün performans gösterdi.

Gelecek yönelimleri

  • Veri ve model ölçeğinin büyümesi, model zekâsındaki ilerlemeyi gösteriyor ve büyük dil modellerinin düşünme ile akıl yürütme yeteneklerini geliştirmeye yönelik araştırmalar sürdürülüyor
  • Pekiştirmeli öğrenmenin yenilikçi uygulamaları sayesinde insan zekâsını aşan modeller geliştirme ve yeni bilgi ile anlayış alanlarını keşfetme olasılığı doğuyor