Qwen2.5-Max: Büyük Ölçekli MoE Modelinin Zekâsını Keşfetmek

(qwenlm.github.io)

1 puan yazan GN⁺ 2025-01-29 | 2 yorum | WhatsApp'ta paylaş

Qwen2.5-Max, 20 trilyondan fazla token ile önceden eğitilmiş büyük ölçekli bir MoE modeli olup, SFT ve RLHF sonrasında Alibaba Cloud API ve Qwen Chat üzerinden kullanıma sunuldu
Değerlendirmeler MMLU-Pro, LiveCodeBench, LiveBench ve Arena-Hard'ı kapsıyor; instruct model ise sohbet ve kodlama gibi gerçek aşağı akış kullanımları odağında karşılaştırılıyor
Qwen2.5-Max, Arena-Hard, LiveBench, LiveCodeBench ve GPQA-Diamond'da DeepSeek V3'ü geride bıraktı; MMLU-Pro gibi diğer ölçümlerde de rekabetçi sonuçlar verdi
base model karşılaştırmasında GPT-4o ve Claude-3.5-Sonnet'e doğrudan erişilemediği için DeepSeek V3, Llama-3.1-405B ve Qwen2.5-72B karşılaştırma hedefi oldu
API model adı qwen-max-2025-01-25; OpenAI API uyumlu olduğu için mevcut OpenAI istemci tabanlı çağrı akışı kullanılabiliyor

Model ölçeği ve benchmark sonuçları

Qwen2.5-Max, veri boyutu ve model boyutunun büyümesinin model zekâsını artırabileceği varsayımıyla geliştirilen büyük ölçekli bir MoE modelidir
Model, 20 trilyondan fazla token ile önceden eğitildi; ardından seçilmiş Supervised Fine-Tuning (SFT) ve Reinforcement Learning from Human Feedback (RLHF) ile sonradan eğitildi
Performans değerlendirmesinde başlıca bilgi, kodlama ve genel yetenek benchmark'ları birlikte kullanıldı
- MMLU-Pro: üniversite düzeyi sorularla bilgi değerlendirmesi
- LiveCodeBench: kodlama yeteneği değerlendirmesi
- LiveBench: genel yeteneklerin kapsamlı değerlendirmesi
- Arena-Hard: insan tercihine daha yakın değerlendirme
instruct model karşılaştırmasında Qwen2.5-Max, DeepSeek V3, GPT-4o ve Claude-3.5-Sonnet birlikte yer alıyor
- Qwen2.5-Max, Arena-Hard, LiveBench, LiveCodeBench ve GPQA-Diamond'da DeepSeek V3'ü geçti
- MMLU-Pro dahil diğer değerlendirmelerde de rekabetçi sonuçlar gösterdi
base model karşılaştırmasında GPT-4o ve Claude-3.5-Sonnet gibi kapalı modeller erişilebilir olmadığından, değerlendirme açık ağırlıklı modeller merkezinde yapıldı
- Karşılaştırma hedefleri: DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B
- Qwen2.5-Max base modeli, benchmark'ların çoğunda anlamlı üstünlük gösterdi
Gelecek sürümler, sonradan eğitim tekniklerini geliştirerek daha yüksek performansı hedefliyor

API kullanımı ve sonraki görevler

Qwen2.5-Max, Qwen Chat üzerinden kullanılabiliyor; doğrudan sohbet edebilir veya artifacts, search gibi özellikleri kullanabilirsiniz
API, Alibaba Cloud üzerinden sunuluyor
- Model adı qwen-max-2025-01-25
- Alibaba Cloud hesabı açıp Model Studio hizmetini etkinleştirdikten sonra konsolda API anahtarı oluşturabilirsiniz
Qwen API, OpenAI API uyumlu yapıda olduğundan OpenAI istemcisiyle çağrılabiliyor

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Gelecekteki çalışmalar, ölçeklendirilmiş pekiştirmeli öğrenme uygulayarak büyük dil modellerinin düşünme ve akıl yürütme yeteneklerini artırmaya odaklanıyor
Qwen2.5 ile ilgili atıf bilgisi, Qwen2.5 technical report arXiv preprint arXiv:2412.15115 olarak veriliyor

2 yorum

GN⁺ 2025-01-29

Hacker News yorumları

DeepSeek V3’ün kısa süre önce yayımlanmasıyla ölçekleme sürecindeki temel ayrıntıların ne kadar yararlı olduğu gösterildi deniyor ama iş kendi eğitim bilgilerine gelince bunları açıklamıyorlar
Kapalı API ise ve ek bilgi de yoksa “o1’e neredeyse yaklaştı” sözü pek ilgimi çekmiyor
- “o1’e neredeyse yaklaştı” da değil. Karşılaştırma hedefi yalnızca daha eski 4o
  Qwen2.5-Max’in güncel akıl yürütme modellerinden (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking) daha düşük puan alacağını varsaymak makul
  Akıl yürütme için pekiştirmeli öğrenme uygulanırsa çok güçlü bir model olma ihtimali var; ancak başarılı tariflerin tamamı kapalı olduğu için zaman alabilir. Bu arada diğer modellerin akıl yürütme zincirlerine dayanarak denetimli ince ayar (SFT) yapılabilir, ama DeepSeek-R1 teknik raporunda bunun da pekiştirmeli öğrenme kadar iyi olmadığı söylenmişti
HN ana sayfasında üç DeepSeek maddesi var sanmıştım, meğer dördüncüsüymüş. Çünkü bu, Qwen ekibinin DeepSeek-V3’ten daha iyi olduğu söylenen gizli bir Qwen sürümüne sahip olduğunu anlatan bir yazıydı
HN ana sayfasının %20’sinin aynı konu olduğu zamanı hatırlamıyorum. Elbette NVIDIA gibi dün olduğu şekilde 569 milyar dolar piyasa değeri kaybeden bir şirket de pek akla gelen bir emsal değil
- 4 ÷ 30’un %20 olmadığını kaçırmışım. Aslında %13’e daha yakın. Aptalca bir hataydı
HuggingFace demosu: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Kaynak: https://x.com/Alibaba_Qwen/status/1884263157574820053
Bir Çinli şirketin bunu Çin Yeni Yılı arifesinde duyurması epey şaşırtıcı. DeepSeek duyurusu kesinlikle fitili ateşlemiş gibi
Şu anda Çinli teknoloji şirketlerinde bir şeylerin dönüyor olması bile şaşırtıcı
- DeepSeek mühendisleri, gerekli kapasitenin çok gerisinde kaldıkları için muhtemelen umutsuzca arıza müdahalesi yapıyordur. Rakipler ya şimdiden aceleyle çıkış yaptı ya da hazırlamakta oldukları şeyi sessizce yayımlamaya karar vermiş gibi. Herkesin çok yoğun çalıştığı bir hava var
- Gemini’nin Chatbot Arena liderlik tablosunda birinci sıraya çıkmasının ardından OpenAI’nin ertesi gün model yayımladığı zamana benziyor
Bu, Qwen’in yeni en yüksek performanslı modeli gibi görünüyor ve şu anda yalnızca API’ye özel. DeepSeek v3’ten daha iyi olduğunu söylüyorlar
- https://chat.qwenlm.ai/ üzerinde model seçici aracılığıyla kullanılabiliyor
Kendi NYT Connections benchmark’ımı çalıştırdım; 18,6 puan aldı ve Qwen 2.5 72B’nin 14,8 puanından yukarıda. Diğer benchmark’ları da daha sonra çalıştırmayı planlıyorum
https://github.com/lechmazur/nyt-connections/
Bulutta Uzmanlar Karışımı (MoE) biraz muğlak geliyor. Ancak masaüstü sınıfı donanımlarda gerçekten parlayabilir
Bellek giderek hızlanıyor; çok yakında nispeten büyük modellerde bile MoE acı verecek kadar yavaş olmayabilir
Ağırlıklar yoksa kanıt da yok
- OpenAI yeni bir model çıkardığında da aynı şeyi söyleyecek misin?
Bu bir akıl yürütme modeli değil. Benchmark’larda DeepSeek V3’ü geçtiyse, akıl yürütme modeli sürümü o1 Pro’yu da geçebilir gibi geliyor

xguru 2025-01-29

2023-08-03 Alibaba, açık kaynaklı yapay zeka modeli QWEN’i duyurdu
2024-04-25 Qwen1.5-110B : Alibaba’nın açık kaynaklı LLM serisi Qwen1.5’in ilk 100B+ modeli
2024-06-07 Alibaba, Qwen 2 modelini duyurdu
2024-09-19 Qwen2.5 - çeşitli foundation model’ler duyuruldu
2024-11-28 QwQ - Alibaba’nın ChatGPT o1’e benzer akıl yürütme LLM’i
2024-12-24 Qwen’in yeni görsel akıl yürütme modeli QvQ kullanım izlenimi
2025-01-27 Qwen2.5-1M - 1 milyon token’a kadar destekleyen Qwen’i kendi başına dağıtmak

DeepSeek ortalığı kasıp kavururken, Qwen de her gün bir tane olacak şekilde inanılmaz sonuçları peş peşe yayımlıyor.
Çinli şirketler gerçekten ürkütücü.