Qwen3-Max-Thinking modeli tanıtıldı

(qwen.ai)

7 puan yazan GN⁺ 2026-01-27 | 1 yorum | WhatsApp'ta paylaş

Büyük ölçekli pekiştirmeli öğrenme ve parametre genişletmesi sayesinde olgusal bilgi, karmaşık akıl yürütme, insan tercihleriyle hizalama gibi birçok alanda performansı artırılmış en yeni akıl yürütme odaklı model
19 benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro gibi modellerle benzer veya bazı alanlarda onları aşan sonuçlar kaydetti
Uyarlanabilir araç kullanımı özelliği sayesinde konuşma sırasında otomatik olarak arama, bellek ve kod yorumlayıcıyı çağırarak halüsinasyonları azaltma ve gerçek zamanlı bilgiye erişim sağlıyor
Test-time scaling stratejisiyle akıl yürütme sırasında yinelenen hesaplamaları azaltıyor, öz değerlendirme temelli deneyim biriktirme mekanizması ile verimliliği artırıyor
Qwen Chat ve API üzerinden hemen kullanılabiliyor; OpenAI ve Anthropic API'leriyle uyumlu olduğu için geliştiriciler mevcut iş akışlarına kolayca entegre edebiliyor

Qwen3-Max-Thinking'e genel bakış

Qwen3-Max-Thinking, Qwen serisinin en yeni amiral gemisi akıl yürütme modeli; pekiştirmeli öğrenme ve büyük ölçekli hesaplama kaynakları kullanılarak performansı ölçeklendirildi
- Olgusal bilgi, karmaşık akıl yürütme, yönerge takibi, insan tercihleriyle hizalama, ajan yetenekleri gibi birçok boyutta iyileştirme içeriyor
- 19 standart benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro ile benzer düzeyde performans elde etti
İki temel yenilikle güçlendirildi
- Uyarlanabilir araç kullanımı (adaptive tool-use): Gerektiğinde arama ve kod yorumlayıcıyı otomatik çağırıyor
- Gelişmiş test-time scaling: Akıl yürütme sırasında ek hesaplamayı verimli kullanarak Gemini 3 Pro'yu aşan performans sağlıyor

Benchmark performans özeti

Bilgi (knowledge) alanında MMLU-Pro 85.7, C-Eval 93.7 gibi skorlarla üst seviye modellere yakın sonuçlar aldı
STEM alanında GPQA 87.4, HLE 30.2 ile bazı modellerin gerisinde kalsa da dengeli performansını korudu
Akıl yürütme (reasoning) benchmark'larında HMMT Nov 25 94.7, LiveCodeBench v6 85.9 gibi yüksek değerler kaydetti
Yönerge takibi ve hizalama (instruction following & alignment) kategorisinde Arena-Hard v2 90.2 ile en üst düzeyde yer aldı
Araç kullanımı (tool use) ve ajanik arama (agentic search) tarafında da rakip modellere kıyasla bazı üstün sonuçlar gösterdi

Uyarlanabilir araç kullanımı özelliği

Kullanıcının aracı doğrudan seçmesine gerek kalmadan model Search, Memory, Code Interpreter araçlarını otomatik kullanabiliyor
- Search ve Memory, halüsinasyonları azaltıyor; gerçek zamanlı bilgi erişimi ve kişiselleştirilmiş yanıtlar sunuyor
- Code Interpreter, kod çalıştırma ve hesaplamaya dayalı akıl yürütmeyle karmaşık problemlerin çözümünü destekliyor
Bu yetenekler, kural tabanlı ve model tabanlı geri bildirim birleştirilerek yapılan ek eğitim süreciyle güçlendirildi
Sonuç olarak doğal ve güçlü bir etkileşimli deneyim sunuyor

Test-time scaling stratejisi

Akıl yürütme sırasında ek hesaplamayı dağıtarak performansı artıran bir yöntem; basit paralel örneklemeye göre daha verimli
Önerilen yöntem, deneyim biriktirme temelli çok turlu öz değerlendirmeli (self-reflective multi-round) yaklaşımı kullanıyor
- “take-experience” mekanizmasıyla önceki turlardaki temel içgörüleri çıkarıyor
- Daha önce ulaşılan sonuçları tekrar etmeyip çözülmemiş belirsizliklere odaklanıyor
Aynı token tüketimiyle daha yüksek bağlam verimliliği elde ediyor
- GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 seviyesine yükseldi

Geliştirme ve API entegrasyonu

Qwen Chat üzerinden hemen kullanılabiliyor; model adı qwen3-max-2026-01-23
Alibaba Cloud Model Studio üzerinden API anahtarı oluşturularak kullanılabiliyor
OpenAI API ile tamamen uyumlu ve Python örnek kodu sağlanıyor
- enable_thinking seçeneğiyle akıl yürütme modu etkinleştirilebiliyor
Anthropic API protokolü ile de uyumlu; Claude Code ortamında da aynı şekilde çalışıyor
- Ortam değişkenleri ayarlandıktan sonra claude komutuyla çalıştırılabiliyor

1 yorum

GN⁺ 2026-01-27

Hacker News görüşleri

Ünlü bir fotoğraf hakkında bir soru sorulmuştu, ancak sistem bunu 'uygunsuz içerik' olarak algılayıp hata döndürdü. Kullanıcı, bu görselin neden uluslararası düzeyde önemli olduğunu merak ediyordu
- Bu, ayrı bir güvenlik mekanizmasından kaynaklanıyor gibi görünüyor. Nitekim Qwen'in önceki modelleri Çin dışında hizmet verildiğinde Tiananmen'le ilgili konuları da serbestçe ele alıyordu. Örneğin Qwen3 235B A22B Instruct 2507, 'Tank Man' fotoğrafının tarihsel bağlamını ve Çin içindeki sansür durumunu ayrıntılı biçimde açıklıyordu. Hatta böyle bir sansürün sembolik anlamı daha da güçlendirdiği yönünde yorumlar da vardı
- Çinli bir şirketse yasal olarak sansüre uyması gerektiğinden bu şaşırtıcı değil. Asıl merak edilen, bu tür kısıtların kodlama işleri gibi politik olmayan alanları nasıl etkileyeceği. Aslında ABD'li Anthropic de yasa dışı eylemleri engellemek için 'alignment' türü kısıtlamalar uyguluyor
- ABD'deki LLM'ler de benzer sansür sorunları yaşıyor. Sadece sansürün hedefi farklı
- Araştırmacılar arasında LLM'lerde arka kapı (backdoor) ekleme olasılığını inceleyen biri olup olmadığı merak edildi. Bazı makalelere göre yalnızca az sayıda kötü niyetli örnekle bile model, belirli 'tetikleyici' ifadelere tepki verecek şekilde eğitilebiliyor. Hatta tokenizer dosyasını manipüle ederek API maliyetlerini artırma veya güvenlik filtrelerini zayıflatma gibi yan etkiler bile oluşturulabiliyor. Bu konunun artık ciddi biçimde tartışılması gerektiği düşünülüyor
- Bu tür konular tartışmayı sık sık raydan çıkardığı için, artık konuşmayı Çinli yapay zeka modellerinin teknik yönlerine çevirelim diyenler de oldu
Son dönemde modellerin token kullanımı merak konusu. 'Muhakeme yeteneğinin artması' ya da 'araç kullanımının çoğalması', modelin kendisindeki bir iyileşmeden çok, daha fazla token kullanarak modeli daha iyi yönlendirme yöntemi gibi görünüyor. Yani yapı "az harcayıp daha çok alma" değil, "daha çok harcayıp daha çok alma"
- Bunun AGI (yapay genel zeka) açısından gerçekçi sınırları gösterdiği düşünülüyor. Hesaplama kaynağı gereksinimi çok yüksekse, teknik bir atılım olsa bile gerçek dünya bir süre büyük ölçüde değişmeyebilir. Sonuçta muhakeme için gereken hesaplama kaynakları darboğaz olabilir
- Gemini'ye aramaya kıyasla güç tüketimi sorulmuş ve şaşırtıcı biçimde yapay zeka aramasının geleneksel aramadan daha verimli olduğu yanıtı alınmış. Ayrıca Perplexity üzerinden önerilen arXiv makaleleri arasında Sara Hooker'ın On the Slow Death of Scaling yazısı özellikle dikkat çekmiş. Bu makale, küçük modellerin büyük modelleri geçtiği örnekler gösteriyor ve gelecekteki ilerlemenin hesaplama gücünden çok algoritmik yeniliğe bağlı olduğunu savunuyor
- Model ilerlemesini değerlendirmek için yeni metriklere ihtiyaç olduğu hissediliyor. Yalnızca benchmark puanları değil, GPU kullanımı, hız ve maliyet de birlikte değerlendirilmelidir
- Bu verimlilik-performans dengesini açıklamak için Pareto frontier kavramının uygun olduğu görüşü paylaşıldı
- Bazı modeller, token israfı yüksek muhakeme süreçleri gösterdiği için pratikte verimsiz bulunuyor
Arama özelliği kapalıyken Opus 4.5'ten daha düşük performans gösterip açıkken neden daha iyi olduğu merak edildi. Acaba Çin internetindeki içerik kalitesi daha mı iyi diye düşünüldü
- Bu biraz fazla ileri bir çıkarım. Büyük olasılıkla mesele, arama performansı ve entegrasyon kalitesinin daha iyi olması. Model çok dilli destek sunduğundan dünya genelindeki web sitelerini iyi işliyor
- Kagi Assistant kullanan biri, aramayı yalnızca akademik kaynaklarla sınırlayabildiği için memnun olduğunu söyledi. Yine de bir gün akademik makalelerin bile yapay zeka üretimi içeriklerle kirlenmesinden endişe ediyor. Buna rağmen sonunda bir çözüm bulunacağına inanıyor
- Bir başkası da şakayla karışık, "Belki de Reddit yoktur ondandır?" dedi
Qwen modellerinin fiyatlandırması merak edildi. Qwen Max ile aynı ücretlendirme olup olmadığı ve neden Çin içindeki fiyatların çok daha ucuz olduğu soruldu
Alibaba Cloud model sayfası
- Çin içinde yapay zeka fiyat savaşı çok sert geçiyor ve devlet hesaplama kuponları ile sübvansiyonlar aracılığıyla altyapı maliyetlerini düşürüyor
  İlgili haber
- Bunun büyük ihtimalle yerli geliştiricileri desteklemeye yönelik bir sübvansiyon olduğu düşünüldü
- Daha düşük enerji maliyetleri de etkenlerden biri olabilir
- Bölgeye ve arama koşullarına göre değişen gözetim temelli fiyatlandırma (surveillance pricing) kavramı tanıtıldı ve ilgili bir video bağlantısı paylaşıldı
HN'de Opus 4.5 uzun süredir fiilen standart model olarak görülüyor ve Çinli modellerin 8 aydan fazla geride olduğu düşünülüyordu. Bu modelin arayı kapatıp kapatmayacağı merak edildi
- Yayınlanan benchmark'lara göre hâlâ yaklaşık 6 ay geride olduğu düşünülüyor
- Kişisel görüş olarak GPT-5.2'nin daha iyi ve daha ucuz olduğu söyleniyor. HN'deki Claude Code yanlılığının, abonelerin kendi tercihlerini rasyonalize etmesinden kaynaklanabileceği de öne sürülüyor. Yine de Opus 4.5 hızlı ve kaliteli olduğu için gerçek kullanımda oldukça başarılı.
  Buna karşılık Gemini 3 Pro/Flash hâlâ bir kademe aşağıda görülüyor, ancak geçen yıla kıyasla çok daha hızlı ve ucuz. Sonuçta benchmark'lar yalnızca referanstır; gerçek algılanan kalite öznel kalır
Geçen sonbaharda CLI ajanı trae üzerinden Qwen3-coder'ı bir Rust projesinde kullanan biri, kod üretimi ve refaktör yeteneğinin Gemini 2.5 Pro veya Claude Opus 3.5'ten daha iyi olduğunu söyledi.
Linux paylaşımlı bellek IPC çağrıları ekleme ve x86_64 SIMD optimizasyonu gibi işleri de başarıyla yapmış. Ancak token cache ve büyük context window kullandığı için aylık maliyet birkaç yüz doları bulmuş
Hugging Face bağlantısı görünmeyince, Qwen'in artık açık modeller yayımlayıp yayımlamadığı soruldu
- Max sürümü zaten baştan beri kapalı bir modeldi
- Her model açık ağırlıklarla dağıtılmıyor ve bu modelin de henüz open-weight olmadığı anlaşılıyor
Open Router'da kullanılıp kullanılamayacağını soranlar da vardı. Gemini 3 Flash ile karşılaştırma bekleniyor
Mafia Arena
- Henüz eklenmemiş ama yakında listelenecek gibi görünüyor
- Model karşılaştırması için çeşitli benchmark siteleri paylaşıldı:
  lmarena.ai, safe.ai panosu,
  Clock Draw Test, EQBench, OCR Arena
LLM benchmark'ları biraz geliştirici mülakatları gibi. Karmaşık dağıtık algoritma problemlerini iyi çözüyorlar ama gerçek işte tek bir buton eklerken Tailwind class yeniden kullanımını unutmak gibi bir kopukluk yaşanıyor
Model boyutunu soranlar da oldu
- Qwen2.5, 18 trilyon token ile eğitilmişti; Qwen3 ise 36 trilyon token ile neredeyse iki kat büyüklüğe ulaşmış durumda. 119 dil ve lehçeyi kapsıyor
  resmi blog

Qwen3-Max-Thinking modeli tanıtıldı

Qwen3-Max-Thinking'e genel bakış

Benchmark performans özeti

Uyarlanabilir araç kullanımı özelliği

Test-time scaling stratejisi

Geliştirme ve API entegrasyonu

İlgili okumalar

1 yorum

Hacker News görüşleri