- Büyük ölçekli pekiştirmeli öğrenme ve parametre genişletmesi sayesinde olgusal bilgi, karmaşık akıl yürütme, insan tercihleriyle hizalama gibi birçok alanda performansı artırılmış en yeni akıl yürütme odaklı model
- 19 benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro gibi modellerle benzer veya bazı alanlarda onları aşan sonuçlar kaydetti
- Uyarlanabilir araç kullanımı özelliği sayesinde konuşma sırasında otomatik olarak arama, bellek ve kod yorumlayıcıyı çağırarak halüsinasyonları azaltma ve gerçek zamanlı bilgiye erişim sağlıyor
- Test-time scaling stratejisiyle akıl yürütme sırasında yinelenen hesaplamaları azaltıyor, öz değerlendirme temelli deneyim biriktirme mekanizması ile verimliliği artırıyor
- Qwen Chat ve API üzerinden hemen kullanılabiliyor; OpenAI ve Anthropic API'leriyle uyumlu olduğu için geliştiriciler mevcut iş akışlarına kolayca entegre edebiliyor
Qwen3-Max-Thinking'e genel bakış
- Qwen3-Max-Thinking, Qwen serisinin en yeni amiral gemisi akıl yürütme modeli; pekiştirmeli öğrenme ve büyük ölçekli hesaplama kaynakları kullanılarak performansı ölçeklendirildi
- Olgusal bilgi, karmaşık akıl yürütme, yönerge takibi, insan tercihleriyle hizalama, ajan yetenekleri gibi birçok boyutta iyileştirme içeriyor
- 19 standart benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro ile benzer düzeyde performans elde etti
- İki temel yenilikle güçlendirildi
- Uyarlanabilir araç kullanımı (adaptive tool-use): Gerektiğinde arama ve kod yorumlayıcıyı otomatik çağırıyor
- Gelişmiş test-time scaling: Akıl yürütme sırasında ek hesaplamayı verimli kullanarak Gemini 3 Pro'yu aşan performans sağlıyor
Benchmark performans özeti
- Bilgi (knowledge) alanında MMLU-Pro 85.7, C-Eval 93.7 gibi skorlarla üst seviye modellere yakın sonuçlar aldı
- STEM alanında GPQA 87.4, HLE 30.2 ile bazı modellerin gerisinde kalsa da dengeli performansını korudu
- Akıl yürütme (reasoning) benchmark'larında HMMT Nov 25 94.7, LiveCodeBench v6 85.9 gibi yüksek değerler kaydetti
- Yönerge takibi ve hizalama (instruction following & alignment) kategorisinde Arena-Hard v2 90.2 ile en üst düzeyde yer aldı
- Araç kullanımı (tool use) ve ajanik arama (agentic search) tarafında da rakip modellere kıyasla bazı üstün sonuçlar gösterdi
Uyarlanabilir araç kullanımı özelliği
- Kullanıcının aracı doğrudan seçmesine gerek kalmadan model Search, Memory, Code Interpreter araçlarını otomatik kullanabiliyor
- Search ve Memory, halüsinasyonları azaltıyor; gerçek zamanlı bilgi erişimi ve kişiselleştirilmiş yanıtlar sunuyor
- Code Interpreter, kod çalıştırma ve hesaplamaya dayalı akıl yürütmeyle karmaşık problemlerin çözümünü destekliyor
- Bu yetenekler, kural tabanlı ve model tabanlı geri bildirim birleştirilerek yapılan ek eğitim süreciyle güçlendirildi
- Sonuç olarak doğal ve güçlü bir etkileşimli deneyim sunuyor
Test-time scaling stratejisi
- Akıl yürütme sırasında ek hesaplamayı dağıtarak performansı artıran bir yöntem; basit paralel örneklemeye göre daha verimli
- Önerilen yöntem, deneyim biriktirme temelli çok turlu öz değerlendirmeli (self-reflective multi-round) yaklaşımı kullanıyor
- “take-experience” mekanizmasıyla önceki turlardaki temel içgörüleri çıkarıyor
- Daha önce ulaşılan sonuçları tekrar etmeyip çözülmemiş belirsizliklere odaklanıyor
- Aynı token tüketimiyle daha yüksek bağlam verimliliği elde ediyor
- GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 seviyesine yükseldi
Geliştirme ve API entegrasyonu
- Qwen Chat üzerinden hemen kullanılabiliyor; model adı
qwen3-max-2026-01-23
- Alibaba Cloud Model Studio üzerinden API anahtarı oluşturularak kullanılabiliyor
- OpenAI API ile tamamen uyumlu ve Python örnek kodu sağlanıyor
enable_thinking seçeneğiyle akıl yürütme modu etkinleştirilebiliyor
- Anthropic API protokolü ile de uyumlu; Claude Code ortamında da aynı şekilde çalışıyor
- Ortam değişkenleri ayarlandıktan sonra
claude komutuyla çalıştırılabiliyor
1 yorum
Hacker News görüşleri
Ünlü bir fotoğraf hakkında bir soru sorulmuştu, ancak sistem bunu 'uygunsuz içerik' olarak algılayıp hata döndürdü. Kullanıcı, bu görselin neden uluslararası düzeyde önemli olduğunu merak ediyordu
Son dönemde modellerin token kullanımı merak konusu. 'Muhakeme yeteneğinin artması' ya da 'araç kullanımının çoğalması', modelin kendisindeki bir iyileşmeden çok, daha fazla token kullanarak modeli daha iyi yönlendirme yöntemi gibi görünüyor. Yani yapı "az harcayıp daha çok alma" değil, "daha çok harcayıp daha çok alma"
Arama özelliği kapalıyken Opus 4.5'ten daha düşük performans gösterip açıkken neden daha iyi olduğu merak edildi. Acaba Çin internetindeki içerik kalitesi daha mı iyi diye düşünüldü
Qwen modellerinin fiyatlandırması merak edildi. Qwen Max ile aynı ücretlendirme olup olmadığı ve neden Çin içindeki fiyatların çok daha ucuz olduğu soruldu
Alibaba Cloud model sayfası
İlgili haber
HN'de Opus 4.5 uzun süredir fiilen standart model olarak görülüyor ve Çinli modellerin 8 aydan fazla geride olduğu düşünülüyordu. Bu modelin arayı kapatıp kapatmayacağı merak edildi
Buna karşılık Gemini 3 Pro/Flash hâlâ bir kademe aşağıda görülüyor, ancak geçen yıla kıyasla çok daha hızlı ve ucuz. Sonuçta benchmark'lar yalnızca referanstır; gerçek algılanan kalite öznel kalır
Geçen sonbaharda CLI ajanı trae üzerinden Qwen3-coder'ı bir Rust projesinde kullanan biri, kod üretimi ve refaktör yeteneğinin Gemini 2.5 Pro veya Claude Opus 3.5'ten daha iyi olduğunu söyledi.
Linux paylaşımlı bellek IPC çağrıları ekleme ve x86_64 SIMD optimizasyonu gibi işleri de başarıyla yapmış. Ancak token cache ve büyük context window kullandığı için aylık maliyet birkaç yüz doları bulmuş
Hugging Face bağlantısı görünmeyince, Qwen'in artık açık modeller yayımlayıp yayımlamadığı soruldu
Open Router'da kullanılıp kullanılamayacağını soranlar da vardı. Gemini 3 Flash ile karşılaştırma bekleniyor
Mafia Arena
lmarena.ai, safe.ai panosu,
Clock Draw Test, EQBench, OCR Arena
LLM benchmark'ları biraz geliştirici mülakatları gibi. Karmaşık dağıtık algoritma problemlerini iyi çözüyorlar ama gerçek işte tek bir buton eklerken Tailwind class yeniden kullanımını unutmak gibi bir kopukluk yaşanıyor
Model boyutunu soranlar da oldu
resmi blog