7 puan yazan GN⁺ 2026-01-27 | 1 yorum | WhatsApp'ta paylaş
  • Büyük ölçekli pekiştirmeli öğrenme ve parametre genişletmesi sayesinde olgusal bilgi, karmaşık akıl yürütme, insan tercihleriyle hizalama gibi birçok alanda performansı artırılmış en yeni akıl yürütme odaklı model
  • 19 benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro gibi modellerle benzer veya bazı alanlarda onları aşan sonuçlar kaydetti
  • Uyarlanabilir araç kullanımı özelliği sayesinde konuşma sırasında otomatik olarak arama, bellek ve kod yorumlayıcıyı çağırarak halüsinasyonları azaltma ve gerçek zamanlı bilgiye erişim sağlıyor
  • Test-time scaling stratejisiyle akıl yürütme sırasında yinelenen hesaplamaları azaltıyor, öz değerlendirme temelli deneyim biriktirme mekanizması ile verimliliği artırıyor
  • Qwen Chat ve API üzerinden hemen kullanılabiliyor; OpenAI ve Anthropic API'leriyle uyumlu olduğu için geliştiriciler mevcut iş akışlarına kolayca entegre edebiliyor

Qwen3-Max-Thinking'e genel bakış

  • Qwen3-Max-Thinking, Qwen serisinin en yeni amiral gemisi akıl yürütme modeli; pekiştirmeli öğrenme ve büyük ölçekli hesaplama kaynakları kullanılarak performansı ölçeklendirildi
    • Olgusal bilgi, karmaşık akıl yürütme, yönerge takibi, insan tercihleriyle hizalama, ajan yetenekleri gibi birçok boyutta iyileştirme içeriyor
    • 19 standart benchmark'ta GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro ile benzer düzeyde performans elde etti
  • İki temel yenilikle güçlendirildi
    • Uyarlanabilir araç kullanımı (adaptive tool-use): Gerektiğinde arama ve kod yorumlayıcıyı otomatik çağırıyor
    • Gelişmiş test-time scaling: Akıl yürütme sırasında ek hesaplamayı verimli kullanarak Gemini 3 Pro'yu aşan performans sağlıyor

Benchmark performans özeti

  • Bilgi (knowledge) alanında MMLU-Pro 85.7, C-Eval 93.7 gibi skorlarla üst seviye modellere yakın sonuçlar aldı
  • STEM alanında GPQA 87.4, HLE 30.2 ile bazı modellerin gerisinde kalsa da dengeli performansını korudu
  • Akıl yürütme (reasoning) benchmark'larında HMMT Nov 25 94.7, LiveCodeBench v6 85.9 gibi yüksek değerler kaydetti
  • Yönerge takibi ve hizalama (instruction following & alignment) kategorisinde Arena-Hard v2 90.2 ile en üst düzeyde yer aldı
  • Araç kullanımı (tool use) ve ajanik arama (agentic search) tarafında da rakip modellere kıyasla bazı üstün sonuçlar gösterdi

Uyarlanabilir araç kullanımı özelliği

  • Kullanıcının aracı doğrudan seçmesine gerek kalmadan model Search, Memory, Code Interpreter araçlarını otomatik kullanabiliyor
    • Search ve Memory, halüsinasyonları azaltıyor; gerçek zamanlı bilgi erişimi ve kişiselleştirilmiş yanıtlar sunuyor
    • Code Interpreter, kod çalıştırma ve hesaplamaya dayalı akıl yürütmeyle karmaşık problemlerin çözümünü destekliyor
  • Bu yetenekler, kural tabanlı ve model tabanlı geri bildirim birleştirilerek yapılan ek eğitim süreciyle güçlendirildi
  • Sonuç olarak doğal ve güçlü bir etkileşimli deneyim sunuyor

Test-time scaling stratejisi

  • Akıl yürütme sırasında ek hesaplamayı dağıtarak performansı artıran bir yöntem; basit paralel örneklemeye göre daha verimli
  • Önerilen yöntem, deneyim biriktirme temelli çok turlu öz değerlendirmeli (self-reflective multi-round) yaklaşımı kullanıyor
    • “take-experience” mekanizmasıyla önceki turlardaki temel içgörüleri çıkarıyor
    • Daha önce ulaşılan sonuçları tekrar etmeyip çözülmemiş belirsizliklere odaklanıyor
  • Aynı token tüketimiyle daha yüksek bağlam verimliliği elde ediyor
    • GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3 seviyesine yükseldi

Geliştirme ve API entegrasyonu

  • Qwen Chat üzerinden hemen kullanılabiliyor; model adı qwen3-max-2026-01-23
  • Alibaba Cloud Model Studio üzerinden API anahtarı oluşturularak kullanılabiliyor
  • OpenAI API ile tamamen uyumlu ve Python örnek kodu sağlanıyor
    • enable_thinking seçeneğiyle akıl yürütme modu etkinleştirilebiliyor
  • Anthropic API protokolü ile de uyumlu; Claude Code ortamında da aynı şekilde çalışıyor
    • Ortam değişkenleri ayarlandıktan sonra claude komutuyla çalıştırılabiliyor

1 yorum

 
GN⁺ 2026-01-27
Hacker News görüşleri
  • Ünlü bir fotoğraf hakkında bir soru sorulmuştu, ancak sistem bunu 'uygunsuz içerik' olarak algılayıp hata döndürdü. Kullanıcı, bu görselin neden uluslararası düzeyde önemli olduğunu merak ediyordu

    • Bu, ayrı bir güvenlik mekanizmasından kaynaklanıyor gibi görünüyor. Nitekim Qwen'in önceki modelleri Çin dışında hizmet verildiğinde Tiananmen'le ilgili konuları da serbestçe ele alıyordu. Örneğin Qwen3 235B A22B Instruct 2507, 'Tank Man' fotoğrafının tarihsel bağlamını ve Çin içindeki sansür durumunu ayrıntılı biçimde açıklıyordu. Hatta böyle bir sansürün sembolik anlamı daha da güçlendirdiği yönünde yorumlar da vardı
    • Çinli bir şirketse yasal olarak sansüre uyması gerektiğinden bu şaşırtıcı değil. Asıl merak edilen, bu tür kısıtların kodlama işleri gibi politik olmayan alanları nasıl etkileyeceği. Aslında ABD'li Anthropic de yasa dışı eylemleri engellemek için 'alignment' türü kısıtlamalar uyguluyor
    • ABD'deki LLM'ler de benzer sansür sorunları yaşıyor. Sadece sansürün hedefi farklı
    • Araştırmacılar arasında LLM'lerde arka kapı (backdoor) ekleme olasılığını inceleyen biri olup olmadığı merak edildi. Bazı makalelere göre yalnızca az sayıda kötü niyetli örnekle bile model, belirli 'tetikleyici' ifadelere tepki verecek şekilde eğitilebiliyor. Hatta tokenizer dosyasını manipüle ederek API maliyetlerini artırma veya güvenlik filtrelerini zayıflatma gibi yan etkiler bile oluşturulabiliyor. Bu konunun artık ciddi biçimde tartışılması gerektiği düşünülüyor
    • Bu tür konular tartışmayı sık sık raydan çıkardığı için, artık konuşmayı Çinli yapay zeka modellerinin teknik yönlerine çevirelim diyenler de oldu
  • Son dönemde modellerin token kullanımı merak konusu. 'Muhakeme yeteneğinin artması' ya da 'araç kullanımının çoğalması', modelin kendisindeki bir iyileşmeden çok, daha fazla token kullanarak modeli daha iyi yönlendirme yöntemi gibi görünüyor. Yani yapı "az harcayıp daha çok alma" değil, "daha çok harcayıp daha çok alma"

    • Bunun AGI (yapay genel zeka) açısından gerçekçi sınırları gösterdiği düşünülüyor. Hesaplama kaynağı gereksinimi çok yüksekse, teknik bir atılım olsa bile gerçek dünya bir süre büyük ölçüde değişmeyebilir. Sonuçta muhakeme için gereken hesaplama kaynakları darboğaz olabilir
    • Gemini'ye aramaya kıyasla güç tüketimi sorulmuş ve şaşırtıcı biçimde yapay zeka aramasının geleneksel aramadan daha verimli olduğu yanıtı alınmış. Ayrıca Perplexity üzerinden önerilen arXiv makaleleri arasında Sara Hooker'ın On the Slow Death of Scaling yazısı özellikle dikkat çekmiş. Bu makale, küçük modellerin büyük modelleri geçtiği örnekler gösteriyor ve gelecekteki ilerlemenin hesaplama gücünden çok algoritmik yeniliğe bağlı olduğunu savunuyor
    • Model ilerlemesini değerlendirmek için yeni metriklere ihtiyaç olduğu hissediliyor. Yalnızca benchmark puanları değil, GPU kullanımı, hız ve maliyet de birlikte değerlendirilmelidir
    • Bu verimlilik-performans dengesini açıklamak için Pareto frontier kavramının uygun olduğu görüşü paylaşıldı
    • Bazı modeller, token israfı yüksek muhakeme süreçleri gösterdiği için pratikte verimsiz bulunuyor
  • Arama özelliği kapalıyken Opus 4.5'ten daha düşük performans gösterip açıkken neden daha iyi olduğu merak edildi. Acaba Çin internetindeki içerik kalitesi daha mı iyi diye düşünüldü

    • Bu biraz fazla ileri bir çıkarım. Büyük olasılıkla mesele, arama performansı ve entegrasyon kalitesinin daha iyi olması. Model çok dilli destek sunduğundan dünya genelindeki web sitelerini iyi işliyor
    • Kagi Assistant kullanan biri, aramayı yalnızca akademik kaynaklarla sınırlayabildiği için memnun olduğunu söyledi. Yine de bir gün akademik makalelerin bile yapay zeka üretimi içeriklerle kirlenmesinden endişe ediyor. Buna rağmen sonunda bir çözüm bulunacağına inanıyor
    • Bir başkası da şakayla karışık, "Belki de Reddit yoktur ondandır?" dedi
  • Qwen modellerinin fiyatlandırması merak edildi. Qwen Max ile aynı ücretlendirme olup olmadığı ve neden Çin içindeki fiyatların çok daha ucuz olduğu soruldu
    Alibaba Cloud model sayfası

    • Çin içinde yapay zeka fiyat savaşı çok sert geçiyor ve devlet hesaplama kuponları ile sübvansiyonlar aracılığıyla altyapı maliyetlerini düşürüyor
      İlgili haber
    • Bunun büyük ihtimalle yerli geliştiricileri desteklemeye yönelik bir sübvansiyon olduğu düşünüldü
    • Daha düşük enerji maliyetleri de etkenlerden biri olabilir
    • Bölgeye ve arama koşullarına göre değişen gözetim temelli fiyatlandırma (surveillance pricing) kavramı tanıtıldı ve ilgili bir video bağlantısı paylaşıldı
  • HN'de Opus 4.5 uzun süredir fiilen standart model olarak görülüyor ve Çinli modellerin 8 aydan fazla geride olduğu düşünülüyordu. Bu modelin arayı kapatıp kapatmayacağı merak edildi

    • Yayınlanan benchmark'lara göre hâlâ yaklaşık 6 ay geride olduğu düşünülüyor
    • Kişisel görüş olarak GPT-5.2'nin daha iyi ve daha ucuz olduğu söyleniyor. HN'deki Claude Code yanlılığının, abonelerin kendi tercihlerini rasyonalize etmesinden kaynaklanabileceği de öne sürülüyor. Yine de Opus 4.5 hızlı ve kaliteli olduğu için gerçek kullanımda oldukça başarılı.
      Buna karşılık Gemini 3 Pro/Flash hâlâ bir kademe aşağıda görülüyor, ancak geçen yıla kıyasla çok daha hızlı ve ucuz. Sonuçta benchmark'lar yalnızca referanstır; gerçek algılanan kalite öznel kalır
  • Geçen sonbaharda CLI ajanı trae üzerinden Qwen3-coder'ı bir Rust projesinde kullanan biri, kod üretimi ve refaktör yeteneğinin Gemini 2.5 Pro veya Claude Opus 3.5'ten daha iyi olduğunu söyledi.
    Linux paylaşımlı bellek IPC çağrıları ekleme ve x86_64 SIMD optimizasyonu gibi işleri de başarıyla yapmış. Ancak token cache ve büyük context window kullandığı için aylık maliyet birkaç yüz doları bulmuş

  • Hugging Face bağlantısı görünmeyince, Qwen'in artık açık modeller yayımlayıp yayımlamadığı soruldu

    • Max sürümü zaten baştan beri kapalı bir modeldi
    • Her model açık ağırlıklarla dağıtılmıyor ve bu modelin de henüz open-weight olmadığı anlaşılıyor
  • Open Router'da kullanılıp kullanılamayacağını soranlar da vardı. Gemini 3 Flash ile karşılaştırma bekleniyor
    Mafia Arena

  • LLM benchmark'ları biraz geliştirici mülakatları gibi. Karmaşık dağıtık algoritma problemlerini iyi çözüyorlar ama gerçek işte tek bir buton eklerken Tailwind class yeniden kullanımını unutmak gibi bir kopukluk yaşanıyor

  • Model boyutunu soranlar da oldu

    • Qwen2.5, 18 trilyon token ile eğitilmişti; Qwen3 ise 36 trilyon token ile neredeyse iki kat büyüklüğe ulaşmış durumda. 119 dil ve lehçeyi kapsıyor
      resmi blog