- Qwen3.6-Plus'un devamı olarak, önceki sürüme kıyasla ajan tabanlı kodlama ile daha güçlü dünya bilgisi ve komut izleme performansı sunuyor
- 6 ana kodlama benchmark'ında en yüksek puanı alarak kodlama ajanı performansında büyük iyileşme sağlandığını gösterdi
- preserve_thinking özelliğini destekleyerek ajan tabanlı görevlerde önceki turun düşünme sürecini mesaj içinde koruma yöntemini kullanıyor
- Dünya bilgisi benchmark'larında SuperGPQA +2.3, QwenChineseBench +5.3 gibi iyileşmeler görülürken, komut izleme alanında ToolcallFormatIFBench +2.8 kaydedildi
- Qwen Studio'da etkileşimli test yapılabiliyor ve Alibaba Cloud Model Studio API üzerinden
qwen3.6-max-previewadıyla çağrılacak
Başlıca iyileştirmeler
- Qwen3.6-Plus'a kıyasla ajan tabanlı kodlama yetenekleri büyük ölçüde geliştirildi: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Dünya bilgisi (world knowledge) güçlendirildi: SuperGPQA +2.3, QwenChineseBench +5.3
- Komut izleme (instruction following) geliştirildi: ToolcallFormatIFBench +2.8
- 6 ana kodlama benchmark'ında en yüksek puan elde edildi: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Model özellikleri ve yaklaşımı
- Alibaba Cloud Model Studio üzerinden sunulan barındırılan özel model
- Gerçek dünya ajanı (real-world agent) ve bilgi güvenilirliği (knowledge reliability) performansı iyileştirildi
- Qwen Studio'da etkileşimli olarak anında test edilebiliyor
- API model adı
qwen3.6-max-preview; Alibaba Cloud Model Studio API'de yakında kullanılabilecek
API kullanımı ve özellikler
- OpenAI uyumlu chat completions ve responses API'leri ile Anthropic uyumlu arayüzler gibi endüstri standardı protokoller destekleniyor
preserve_thinkingözelliği sayesinde önceki turun akıl yürütme süreci (reasoning content) korunabiliyor ve ajan tabanlı görevler için öneriliyorenable_thinking: Trueayarı etkinleştirildiğinde akıl yürütme içeriği ile yanıt streaming olarak ayrı ayrı alınabiliyor- Bölgeye göre API Base URL'leri sunuluyor: Pekin, Singapur, ABD (Virginia)
Geliştirme durumu
- Şu anda preview release aşamasında ve yinelemeli iyileştirmeler sürüyor; sonraki sürümlerde ek geliştirmeler planlanıyor
1 yorum
Hacker News yorumları
İnsanların sadece SOTA karşılaştırmalarına takılıp kalması bana biraz komik geliyor. Ben glm 5.1'in Opus'un yapamadığı işleri başardığını gördüm ve kodu da daha iyi yazdığı anlar yaşadım. qwen max'i henüz kullanmadım ama yerelde çalışan 122b modelin belgeleri daha iyi okuyup daha doğru işlediğini de gördüm. Sonuçta benchmark'lar işin sadece bir kısmı ve pratikte her modelin farklı güçlü yanları var; bu yüzden çekiçle anahtarı basit bir üstünlük sıralamasıyla kıyaslar gibi konuşmamak gerektiğini düşünüyorum
Şirkette birkaç aydır Claude Code'u düzenli kullanıyorum ve kısa süre önce küçük bir kişisel web sitesi projesinde de gayet iyi iş gördü. Geçen hafta sonu ilk kez self-hosting de denedim. CC ya da Codex'i benzer şekilde yeterince kullanıp ardından belli ölçüde tatmin edici bir self-hosting düzeni bulan biri var mı merak ediyorum. Ben 32GB DDR5, AMD 7800X3D, RTX 4090, Windows ve WSL ortamında ollama, docker desktop model runner, pi-coding-agent, opencode ile Gemma 4, Qwen, GLM-5.1 kombinasyonlarını çeşitli şekillerde denedim. Boştaki temel RAM kullanımı zaten yüksek olduğu için Gemma4-31B gibi iyi modelleri çalıştıramadım. Sadece Windows ortamında dosya yolu işlemleri sık sık karıştı; WSL'de pi ya da opencode çalıştırıp modeli docker desktop ile ayağa kaldırma yöntemi ise bir ölçüde başarılı oldu. Yine de hissedilen gerçek performans CC'ye kıyasla fazla yavaştı ve araç olgunluğu açısından da CC harness çok daha iyi geldi. Ayarlara o kadar çok zaman harcadım ki gerçek kullanım sürem uzun olmadı ama yine de eğlenceli bir deneydi
Bu alanın önce ücretsiz sürümler dağıtıp adını duyurduktan sonra sonra her şeyi proprietary hale getirme yönünde ilerliyor gibi görünmesi beni endişelendiriyor. Yine de open weights çıkmaya devam etsin isterim. Hiç kimsenin open weights yayımlamadığı bir gün gelirse gerçekten buruk olur. Öyle bir dünyada sıradan insanların kendi compute kaynaklarına sahip olması daha da zorlaşacak gibi geliyor
Bugün Kimi K2.6 da çıktığı için ikisini kıyaslamak oldukça doğal geliyor. Sadece fiyatlara baksanız bile Qwen girişte 1.3 dolar, çıkışta 7.8 dolar iken Kimi girişte 0.95 dolar, çıkışta 4 dolar; bu da Qwen'i daha pahalı gösteriyor. Duyuru yazılarında ortak olan benchmark sayısı da sadece iki tane ve hem SWE-Bench Pro hem de Terminal-Bench 2.0'da Kimi, Qwen'den biraz daha yüksek puan aldı. Elbette her modelin güçlü yanları farklı ve benchmark her şey değil ama rakamlara göre bakınca Kimi daha cazip görünüyor
Bu duyurudaki ironi bence adının kendisinde. Max-Preview proprietary ve sadece bulutta sunuluyor. Bana göre gerçekten önemli olan Qwen, insanların kendi donanımlarında çalıştırdığı open weights serisi. Ben iki A4000 ile 32B ve 72B'yi yerelde çalıştırıyorum. hosted Max ile arasında hâlâ fark var ama her sürümle bu farkın biraz daha kapandığını görmek mümkün. Bu yüzden asıl ilginç soru Max'in Opus ile nasıl karşılaştırıldığı değil, open-weight katmanının çoğu iş yükünde cloud katmanını ne zaman anlamsız hale getireceği
Herkes SOTA peşinde koşarken ben MiniMax M2.5 ile birden fazla paralel oturum çalıştırıp ayda 10 dolara neredeyse hiç limite takılmadan bütün kodlama işlerimi hallediyorum
Qwen'in context caching belgelerine de baktım ve Opus, Codex, Qwen'i birlikte test ettim; Qwen'in birçok kodlama işinde güçlü olduğu doğru. Ama benim en çok önemsediğim şey uzun oturumlarda nasıl davrandığı. Qwen büyük bir context window vurgusu yapıyor ama gerçek uzun bağlam verimliliği büyük ölçüde context caching yaklaşımına bağlı gibi görünüyor. Resmî belgelerde hem implicit hem explicit caching sunduğu yazıyor ancak TTL birkaç dakika gibi kısa ve prefix tabanlı eşleşme ile minimum token koşulu gibi kısıtlar var. Bu kısıtlar yüzünden bağlamın sürekli büyüdüğü kodlama ajanı tarzı iş akışlarında cache yeniden kullanımı beklendiği kadar iyi olmayabilir. Bu yüzden token başına fiyat düşük görünse bile uzun oturumlarda cache hit rate düşüyor, yeniden hesaplama artıyor ve hissedilen maliyet daha yüksek olabiliyor. Yine de güvenlik odaklı işlerde kişisel olarak Qwen'in Opus'tan daha iyi yaptığı durumlar oldu. Benim deneyimimde Qwen, tek tek metot ya da fonksiyon gibi kısa görevlerde Opus'tan çok daha iyi ama genel kodlama deneyimi açısından Claude gibi otonom bir end-to-end kodlama asistanından çok fonksiyon düzeyinde bir üreticiye benziyor
Qwen tarafının Opus 4.5 ile karşılaştırma yapmasını görünce bunu iyi niyetle yorumlamak biraz zor geliyor. Opus 4.7'nin çok yeni olduğu için dışarıda kalmasını anlarım ama Opus 4.6 çıkalı da epey oldu
Son zamanlarda Çinli sağlayıcılarda bir örüntü görüyorum gibi geliyor. Birincisi, modelleri closed source tutmaya doğru gidiyorlar; ikincisi de fiyatları epey artırıyorlar. Bazı durumlarda artış neredeyse yüzde 100'e varıyor
İlginç olan şu ki, yerelde çalıştırılabilen Qwen model ailesinin tamamını biliyor olabilirsiniz ama bulut tarafındaki modeller hakkında hiçbir şey bilmiyor da olabilirsiniz. Ben 3.5 ailesini ve sanırım bir tane 3.6 modelini biliyordum; Plus adını ise ilk kez şimdi duydum