- Qwen2.5-Max, 20 trilyondan (20T) fazla token ile ön eğitimden geçirilmiş büyük ölçekli bir Mixture-of-Experts (MoE) modelidir
- Sonraki eğitim süreci, Supervised Fine-Tuning (SFT) ve insan geri bildiriminden yararlanan pekiştirmeli öğrenme (RLHF) ile yürütüldü
- DeepSeek V3, GPT-4o, Claude-3.5-Sonnet ve Llama-3.1-405B gibi modellerle karşılaştırılan kıyaslamaların çoğunda üstün performans göstererek öne çıkıyor
- Arena-Hard, LiveBench, LiveCodeBench ve GPQA-Diamond gibi testlerde DeepSeek V3'ü geride bırakıyor; MMLU-Pro'da da rekabetçi sonuçlar sergiliyor.
Başlıca kıyaslama sonuçları
- Arena-Hard: İnsan tercihine yakın değerlendirme
Qwen2.5-Max, 89.4 puanla en yüksek performansı gösterdi. DeepSeek V3'ten (85.5), GPT-4o'dan (85.2) ve Claude-3.5-Sonnet'ten (77.9) daha iyi. Llama-3.1-405B ise 69.3 puanla görece daha düşük performans sergiledi.
- MMLU-Pro: Üniversite düzeyinde bilgi değerlendirmesi
Qwen2.5-Max, 76.1 puanla DeepSeek V3'e (75.9) neredeyse eşdeğer performans gösterdi. GPT-4o (78.0) biraz daha yüksek olsa da Qwen2.5-Max, Claude-3.5-Sonnet'ten (77.0) ve Llama-3.1-405B'den (73.3) daha iyi.
- GPQA-Diamond: Genel soru yanıtlama yeteneği değerlendirmesi
Qwen2.5-Max, 60.1 puanla DeepSeek V3'ün (59.1) az farkla önünde yer alırken, GPT-4o (53.6) ve Claude-3.5-Sonnet'ten (51.1) daha yüksek; Llama-3.1-405B'nin (65.0) ise biraz gerisinde kaldı.
- LiveCodeBench: Kodlama yeteneği değerlendirmesi
Qwen2.5-Max, 38.7 puan alarak DeepSeek V3'ten (37.6) biraz daha yüksek sonuç verdi. GPT-4o (35.1), Claude-3.5-Sonnet (30.2) ve Llama-3.1-405B (38.9) ile benzer seviyede.
- LiveBench: Genel model performansı değerlendirmesi
Qwen2.5-Max, 62.2 puanla en yüksek skoru elde etti. DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) ve Llama-3.1-405B'den (53.2) daha üstün performans gösterdi.
Gelecek yönelimleri
- Veri ve model ölçeğinin büyümesi, model zekâsındaki ilerlemeyi gösteriyor ve büyük dil modellerinin düşünme ile akıl yürütme yeteneklerini geliştirmeye yönelik araştırmalar sürdürülüyor
- Pekiştirmeli öğrenmenin yenilikçi uygulamaları sayesinde insan zekâsını aşan modeller geliştirme ve yeni bilgi ile anlayış alanlarını keşfetme olasılığı doğuyor
1 yorum
2023-08-03 Alibaba, açık kaynaklı yapay zeka modeli QWEN’i duyurdu
2024-04-25 Qwen1.5-110B : Alibaba’nın açık kaynaklı LLM serisi Qwen1.5’in ilk 100B+ modeli
2024-06-07 Alibaba, Qwen 2 modelini duyurdu
2024-09-19 Qwen2.5 - çeşitli foundation model’ler duyuruldu
2024-11-28 QwQ - Alibaba’nın ChatGPT o1’e benzer akıl yürütme LLM’i
2024-12-24 Qwen’in yeni görsel akıl yürütme modeli QvQ kullanım izlenimi
2025-01-27 Qwen2.5-1M - 1 milyon token’a kadar destekleyen Qwen’i kendi başına dağıtmak
DeepSeek ortalığı kasıp kavururken, Qwen de her gün bir tane olacak şekilde inanılmaz sonuçları peş peşe yayımlıyor.
Çinli şirketler gerçekten ürkütücü.