Qwen3.6-Max-Preview: Ajan tabanlı kodlama ve dünya bilgisini güçlendiren yeni nesil model

(qwen.ai)

2 puan yazan GN⁺ 10 일 전 | 1 yorum | WhatsApp'ta paylaş

Qwen3.6-Plus'un devamı olarak, önceki sürüme kıyasla ajan tabanlı kodlama ile daha güçlü dünya bilgisi ve komut izleme performansı sunuyor
6 ana kodlama benchmark'ında en yüksek puanı alarak kodlama ajanı performansında büyük iyileşme sağlandığını gösterdi
preserve_thinking özelliğini destekleyerek ajan tabanlı görevlerde önceki turun düşünme sürecini mesaj içinde koruma yöntemini kullanıyor
Dünya bilgisi benchmark'larında SuperGPQA +2.3, QwenChineseBench +5.3 gibi iyileşmeler görülürken, komut izleme alanında ToolcallFormatIFBench +2.8 kaydedildi
Qwen Studio'da etkileşimli test yapılabiliyor ve Alibaba Cloud Model Studio API üzerinden qwen3.6-max-preview adıyla çağrılacak

Başlıca iyileştirmeler

Qwen3.6-Plus'a kıyasla ajan tabanlı kodlama yetenekleri büyük ölçüde geliştirildi: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
Dünya bilgisi (world knowledge) güçlendirildi: SuperGPQA +2.3, QwenChineseBench +5.3
Komut izleme (instruction following) geliştirildi: ToolcallFormatIFBench +2.8
6 ana kodlama benchmark'ında en yüksek puan elde edildi: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode

Model özellikleri ve yaklaşımı

Alibaba Cloud Model Studio üzerinden sunulan barındırılan özel model
Gerçek dünya ajanı (real-world agent) ve bilgi güvenilirliği (knowledge reliability) performansı iyileştirildi
Qwen Studio'da etkileşimli olarak anında test edilebiliyor
API model adı qwen3.6-max-preview; Alibaba Cloud Model Studio API'de yakında kullanılabilecek

API kullanımı ve özellikler

OpenAI uyumlu chat completions ve responses API'leri ile Anthropic uyumlu arayüzler gibi endüstri standardı protokoller destekleniyor
preserve_thinking özelliği sayesinde önceki turun akıl yürütme süreci (reasoning content) korunabiliyor ve ajan tabanlı görevler için öneriliyor
enable_thinking: True ayarı etkinleştirildiğinde akıl yürütme içeriği ile yanıt streaming olarak ayrı ayrı alınabiliyor
Bölgeye göre API Base URL'leri sunuluyor: Pekin, Singapur, ABD (Virginia)

Geliştirme durumu

Şu anda preview release aşamasında ve yinelemeli iyileştirmeler sürüyor; sonraki sürümlerde ek geliştirmeler planlanıyor

1 yorum

GN⁺ 10 일 전

Hacker News yorumları

İnsanların sadece SOTA karşılaştırmalarına takılıp kalması bana biraz komik geliyor. Ben glm 5.1'in Opus'un yapamadığı işleri başardığını gördüm ve kodu da daha iyi yazdığı anlar yaşadım. qwen max'i henüz kullanmadım ama yerelde çalışan 122b modelin belgeleri daha iyi okuyup daha doğru işlediğini de gördüm. Sonuçta benchmark'lar işin sadece bir kısmı ve pratikte her modelin farklı güçlü yanları var; bu yüzden çekiçle anahtarı basit bir üstünlük sıralamasıyla kıyaslar gibi konuşmamak gerektiğini düşünüyorum
- Kişisel projelerimde Ollama Cloud'un pi.dev hizmetinde GLM-5.1 kullanıyorum ve epey memnunum. İş yerinde ise pi.dev'i Claude Sonnet ve Opus 4.6 ile birlikte kullanıyoruz. Claude Code da iyi ama son güncellemelerden sonra çok sık compact yapmak gerekmesi rahatsız ediciydi. pi.dev kullanırken MCP tool calling olmasa da API entegrasyonu iyi çalıştığı için eksikliğini hissetmedim. Hatta web sitesi üretiminde GLM-5.1'in Claude Opus'tan daha iyi olduğunu hissettim ve şu anda yaptığım full-stack geliştirme platformunda da çok iyi iş çıkarıyor
- GLM 5.1, Çin modellerinin gerçekten yetiştiğini ilk hissettiren model oldu. Bu yüzden Claude Max aboneliğimi de iptal ettim ve açıkçası hiç özlemedim. İnsanların bu kadar farklı görüşler bildirmesi, artık mutlak SOTA üstünlüğünden çok alan ve kullanım kalıbı farklarının önemli olduğu bir aşamaya geldiğimizi düşündürüyor
- Claude ve ChatGPT kullanmayı sürdürmemin neredeyse tek nedeni tool calling. skills gibi faydalı özellikler de var tabii. qwen ve deepseek'i de denedim ama bazen doğru düzgün belge çıktısı bile üretemediler. Herkes bu araçlarla belge ya da Excel işlerini nasıl hallediyor merak ediyorum; mümkünse ben de geçmek isterim
- Birkaç ay önce Qwen3-Coder, Claude Opus veya Google Gemini'den çok daha iyi Rust kodu üretiyordu. Özellikle Rust'ın x86-64 vektör uzantılarını da kullanan kod üretmesi etkileyiciydi. Ben bunu Zed editor ya da trae CLI gibi harness'ler üzerinden çağırarak kullandım ve gerçekten çok şaşırdım
- Modellerin benchmark puanları genel olarak benzer ve aralarındaki fark da küçük; böyle bir durumda başka ölçütlerle seçim yapmak daha mantıklı geliyor. Benim açımdan JetBrains eklentisi düzgün olduğu sürece hangi sağlayıcı olduğu çok önemli değil, hemen geçebilirim
Şirkette birkaç aydır Claude Code'u düzenli kullanıyorum ve kısa süre önce küçük bir kişisel web sitesi projesinde de gayet iyi iş gördü. Geçen hafta sonu ilk kez self-hosting de denedim. CC ya da Codex'i benzer şekilde yeterince kullanıp ardından belli ölçüde tatmin edici bir self-hosting düzeni bulan biri var mı merak ediyorum. Ben 32GB DDR5, AMD 7800X3D, RTX 4090, Windows ve WSL ortamında ollama, docker desktop model runner, pi-coding-agent, opencode ile Gemma 4, Qwen, GLM-5.1 kombinasyonlarını çeşitli şekillerde denedim. Boştaki temel RAM kullanımı zaten yüksek olduğu için Gemma4-31B gibi iyi modelleri çalıştıramadım. Sadece Windows ortamında dosya yolu işlemleri sık sık karıştı; WSL'de pi ya da opencode çalıştırıp modeli docker desktop ile ayağa kaldırma yöntemi ise bir ölçüde başarılı oldu. Yine de hissedilen gerçek performans CC'ye kıyasla fazla yavaştı ve araç olgunluğu açısından da CC harness çok daha iyi geldi. Ayarlara o kadar çok zaman harcadım ki gerçek kullanım sürem uzun olmadı ama yine de eğlenceli bir deneydi
- MoE modellerini deneyip çıkarımı CPU'ya offload etmeyi düşünebilirsiniz. Gemma 4 26b-a4b veya qwen3.6 35b-a3b buna örnek. 32GB RAM, başka uygulamalar da açıksa biraz sıkışık olabilir ama sistem RAM'i yeterliyse oldukça iyi çalışıyor. Bazı katmanları GPU'ya koymak da mümkün fakat MoE modelleri ile llama.cpp birleşiminde bununla ilgili sorunlar vardı. Buna karşılık KV cache'i GPU'da tutunca hız gayet iyi oluyor ve context window da makul seviyede kalabiliyor. Ben yerelde çok etkileyici sonuçlar gördüm. Ayrıca WSL2 içinde llama.cpp'yi doğrudan clone edip, Claude Code gibi frontier modellere kurulumu ve ayarı yaptırmanızı da güçlü şekilde tavsiye ederim. llama.cpp üstüne kurulmuş uygulamalar tüm seçenek ve flag'leri göstermiyor; tek bir flag yanlış verilse bile context cache devre dışı kalabiliyor ve performans ciddi biçimde bozulabiliyor. Kaynaktan doğrudan build ederseniz bir sorun çıktığında gerçek koda hemen bakabilirsiniz. O makinede Gemma 4 ile en az 20~40tok/s civarı alınmalı, yani günlük kullanım için yeterli olur; qwen3.6 ise etkin parametresi 3b olduğu için daha da hızlı olabilir
- Şu an yaşadığınız sorun muhtemelen VRAM yetersizliği yüzünden modelin tamamını tek seferde yükleyememenizden kaynaklanıyor. llmfit'e de bir göz atabilirsiniz
Bu alanın önce ücretsiz sürümler dağıtıp adını duyurduktan sonra sonra her şeyi proprietary hale getirme yönünde ilerliyor gibi görünmesi beni endişelendiriyor. Yine de open weights çıkmaya devam etsin isterim. Hiç kimsenin open weights yayımlamadığı bir gün gelirse gerçekten buruk olur. Öyle bir dünyada sıradan insanların kendi compute kaynaklarına sahip olması daha da zorlaşacak gibi geliyor
- Bu bana biraz aşırı genelleme gibi geliyor. ABD merkezli modellerin çoğu zaten baştan kapalıydı; buna karşılık ABD dışındaki modeller, özellikle Çin modelleri, başından beri daha açık oldu. Hatta Çin tarafında ilk başta proprietary olup sonra açığa dönen örnekler de vardı ve büyük Qwen modellerinden bazılarında da bunu gördük
- Bana göre bu ulusal strateji düzeyinde bir hamle gibi görünüyor. Sürekli rekabetçi ücretsiz modeller yayımlayarak Batılı şirketlerin proprietary modeller etrafında kurmaya çalıştığı moat'ı zayıflatma akışı var gibi. Çin lehine olan anlatı sürdüğü sürece tamamen proprietary yapıya dönme ihtimallerini düşük görüyorum
- Çip üreticileri açısından da bizim yerel modeller çalıştırabildiğimiz bir ortamın sürmesi muhtemelen kazançlıdır
- Evet. Çin laboratuvarları için açık kaynak bir tür ticari strateji gibi duruyor. Model ve çıkarım hizmetlerini tanıtmak için ellerinde başka etkili pazarlama araçları pek olmadığı için bu yolu seçiyorlar. Şu yazı da ilgili olabilir
- Bana kalırsa yapı baştan beri buna benziyordu. Sonuçta bu da bir tür SaaS ve fark sadece bugün frontier laboratuvarların en alt abonelik katmanlarının neredeyse ücretsiz deneme gibi görünmesi olabilir
Bugün Kimi K2.6 da çıktığı için ikisini kıyaslamak oldukça doğal geliyor. Sadece fiyatlara baksanız bile Qwen girişte 1.3 dolar, çıkışta 7.8 dolar iken Kimi girişte 0.95 dolar, çıkışta 4 dolar; bu da Qwen'i daha pahalı gösteriyor. Duyuru yazılarında ortak olan benchmark sayısı da sadece iki tane ve hem SWE-Bench Pro hem de Terminal-Bench 2.0'da Kimi, Qwen'den biraz daha yüksek puan aldı. Elbette her modelin güçlü yanları farklı ve benchmark her şey değil ama rakamlara göre bakınca Kimi daha cazip görünüyor
- Çin modellerinin fiyatları arttıkça çekiciliklerinin biraz azaldığını hissediyorum. Ayrıca Gemma-4 çıktıktan sonra Pareto frontier'da kalan model sayısı da çok fazla değil gibi. Benim kişisel deneyimim de buna benzer ve arena leaderboard istatistiklerine de bakılabilir
Bu duyurudaki ironi bence adının kendisinde. Max-Preview proprietary ve sadece bulutta sunuluyor. Bana göre gerçekten önemli olan Qwen, insanların kendi donanımlarında çalıştırdığı open weights serisi. Ben iki A4000 ile 32B ve 72B'yi yerelde çalıştırıyorum. hosted Max ile arasında hâlâ fark var ama her sürümle bu farkın biraz daha kapandığını görmek mümkün. Bu yüzden asıl ilginç soru Max'in Opus ile nasıl karşılaştırıldığı değil, open-weight katmanının çoğu iş yükünde cloud katmanını ne zaman anlamsız hale getireceği
Herkes SOTA peşinde koşarken ben MiniMax M2.5 ile birden fazla paralel oturum çalıştırıp ayda 10 dolara neredeyse hiç limite takılmadan bütün kodlama işlerimi hallediyorum
- Ciddi iş yapıyorsanız ayda 10 dolarla 100 dolar arasındaki farkın çoğu profesyonel geliştirici için çok büyük bir düşünme konusu olmadığını düşünüyorum. Öğrenciler veya düşük gelirli ülkelerdeki kullanıcılar gibi istisnalar olabilir ama yüksek maaşlı geliştiricilerin araç maliyetini aşırı kısmaya çalışması bana hep tuhaf geliyor. Bugünün SOTA modelleri bile tek seferlik işlerin ötesinde tamamen güvenilir değilken, daha düşük performanslı bir modeli sürekli gözetleyip ayda 10~100 dolar tasarruf etmek bana hiç çekici gelmiyor. self-hosted modellerle hafif ve çöpe atılabilir işlerde eğlenceli deneyler yapıyorum ama gerçekten önemli işlerde kendi zamanımı harcamak istemiyorum
- O aylık 10 doları nereye ödediğinizi merak ettim. OpenRouter mı?
- Bunu pratikte nasıl kullandığınızı merak ediyorum. opencode mu kullanıyorsunuz, yoksa başka bir frontend mi var?
Qwen'in context caching belgelerine de baktım ve Opus, Codex, Qwen'i birlikte test ettim; Qwen'in birçok kodlama işinde güçlü olduğu doğru. Ama benim en çok önemsediğim şey uzun oturumlarda nasıl davrandığı. Qwen büyük bir context window vurgusu yapıyor ama gerçek uzun bağlam verimliliği büyük ölçüde context caching yaklaşımına bağlı gibi görünüyor. Resmî belgelerde hem implicit hem explicit caching sunduğu yazıyor ancak TTL birkaç dakika gibi kısa ve prefix tabanlı eşleşme ile minimum token koşulu gibi kısıtlar var. Bu kısıtlar yüzünden bağlamın sürekli büyüdüğü kodlama ajanı tarzı iş akışlarında cache yeniden kullanımı beklendiği kadar iyi olmayabilir. Bu yüzden token başına fiyat düşük görünse bile uzun oturumlarda cache hit rate düşüyor, yeniden hesaplama artıyor ve hissedilen maliyet daha yüksek olabiliyor. Yine de güvenlik odaklı işlerde kişisel olarak Qwen'in Opus'tan daha iyi yaptığı durumlar oldu. Benim deneyimimde Qwen, tek tek metot ya da fonksiyon gibi kısa görevlerde Opus'tan çok daha iyi ama genel kodlama deneyimi açısından Claude gibi otonom bir end-to-end kodlama asistanından çok fonksiyon düzeyinde bir üreticiye benziyor
- Yine de uzun oturumları kısa tutup yeniden başlatmak best practice sayılır diye düşünüyorum. Anthropic'in Claude Code Best Practices sayfasında da "daha iyi bir prompt ile temiz ve yeni bir oturum, üzerinde sürekli değişiklik yapılmış uzun bir oturumdan neredeyse her zaman daha iyidir" deniyor
- Benim son baktığım durumda context caching, maliyet ve gecikmeyi düşürüyordu ama gerçekte hangi token'ların üretileceğini değiştirmiyordu
Qwen tarafının Opus 4.5 ile karşılaştırma yapmasını görünce bunu iyi niyetle yorumlamak biraz zor geliyor. Opus 4.7'nin çok yeni olduğu için dışarıda kalmasını anlarım ama Opus 4.6 çıkalı da epey oldu
- Benim için Opus 4.5, modelin çeşitli problemler üzerinde yeterince iyi hissettirdiği ilk noktaydı. Ondan önce geliştirme işlerinde AI kullanınca halüsinasyonlar yüzünden hep daha fazla zaman kayboluyor ve bu üretken bir tercih olmuyordu. Ama eğer ilerleme Opus 4.5'te dursa bile, bugün bile zaten çok büyük miktarda gerçek işi hızla yapabilecek durumdaydık diye düşünüyorum. Yazılım geliştirmenin artık yeniden tamamen elle kodlamaya dönmeyeceği çok açık. Dolayısıyla Opus 4.5 seviyesinde ya da biraz üstünde bir kaliteyi onda bir maliyetle sunuyorsa bu birçok kişi için fazlasıyla çekici olabilir. Elbette Batı'daki geliştiriciler için Opus 4.7'ye ayda 100 doların üzerinde vermek de değerli; çünkü alt seviye modellerin boşa harcattığı zaman çok daha pahalıya geliyor. Ben de bir süre daha daha az zaman kaybettiren, daha az prompt düzeltmesiyle daha iyi sonuç veren modellere prim ödemeyi sürdüreceğim. Aynı zamanda değişim hızı gerçekten şaşırtıcı ve bugün açık modellerin bile iki yıl önceki frontier modellerle rekabet edecek düzeye geldiğini hissediyorum. Qwen 3.6 MoE 35B A3B veya büyük Gemma 4 modelleri; güçlü bir Macbook, Strix Halo ya da güncel 24GB veya 32GB GPU gibi sıradan sayılabilecek donanımlarda çalışabiliyor ve bunlar da AI öncesi dönemin geliştirici dizüstülerinden çok daha pahalı değil. Kod yazıyor, yazı da oldukça iyi yazıyor, araç da kullanıyor ve bağlam uzunluğu pratikte yeterli. Hâlâ Opus 4.5 düzeyinde değil ama oldukça etkileyici. Ben de güvenlik ve kod incelemesinde şimdiden birkaç modeli karıştırarak kullanıyorum ve çoğu yazılım geliştirme işinde hâlâ Claude Code ile Opus'un en iyi kombinasyon olduğunu düşünüyorum ama Qwen'i de memnuniyetle denerim. Küçük modelleri bile sınıfına göre çok iyi olduğu için büyük modelden de beklentim yüksek
- Eğer para hiç mesele değilse sonunda yalnızca Codex 5.4 veya Opus 4.7 gibi en yüksek performansa bakarsınız diye düşünüyorum. Ama birçok kişi için maliyet/kalite dengesi çok büyük bir değişken. Claude aboneleri arasında bile maliyet ve kullanım sınırları yüzünden Opus 4.7'yi her zaman kullanamayıp Sonnet veya daha eski Opus sürümlerine dönen çok kişi var. Bu yüzden değer karşılığı kalite eğrisi açısından bakınca bu tür karşılaştırmaların gayet anlamlı olduğunu düşünüyorum
- Son birkaç ayda Opus 4.6 performansı o kadar tutarsızdı ki boş yere token harcamak istemedim
- Sonnet 4.6 çıktığında varsayılan modelimi Opus'tan Sonnet'e çevirdim. Benim hissiyatıma göre Sonnet 4.6, Opus 4.5 seviyesine oldukça yakındı. 4.6 ve 4.7 daha iyi ama çoğu işte sıçrama çok büyük değil; bu yüzden maliyet düşürmek artık gayet makul bir seçenek oldu. Daha ucuz modeller o seviyeye ulaşırsa bu daha da önemli olur ve GLM 5.1 de buna epey yakın görünüyor; ben de bu yüzden çok kullanıyorum. Bu açıdan bakınca Opus 4.5 ile kıyaslamak da makul
- Karşılaştırmayı en benzer rakipler arasında yapmak gerektiğini düşünüyorum. Ayrıca benchmark'ları sağlayıcının kendisi yayımlıyorsa doğal olarak kendi modelinin iyi olduğu çerçeveleri seçip kötü göründüklerini dışarıda bırakabilir. Bu yüzden sonunda güvenilecek şeyin bağımsız benchmark'lar olduğunu düşünüyorum
Son zamanlarda Çinli sağlayıcılarda bir örüntü görüyorum gibi geliyor. Birincisi, modelleri closed source tutmaya doğru gidiyorlar; ikincisi de fiyatları epey artırıyorlar. Bazı durumlarda artış neredeyse yüzde 100'e varıyor
- Bunu sanki Çin şirketlerine özgü bir şeymiş gibi söylemek biraz tuhaf geliyor. Diğer ülkelerdeki şirketler de pek farklı davranmıyor
- Qwen max zaten baştan beri cloud only idi ve 1T'den büyük bir model olduğu için maliyetinin pahalı olması da normal
- Fiyatı ciddi biçimde artırmanın ABD şirketlerinden ne farkı var diye sormak isterim
- Bunun GLM 5.1, DeepSeek V3.2 veya az önce çıkan Kimi K2.6 gibi modellere de uygulanıp uygulanmadığını sormak isterim. O örneklere pek uymuyor gibi duruyor
- O yöntemi ABD şirketleri de çok sevmiyor mu zaten?
İlginç olan şu ki, yerelde çalıştırılabilen Qwen model ailesinin tamamını biliyor olabilirsiniz ama bulut tarafındaki modeller hakkında hiçbir şey bilmiyor da olabilirsiniz. Ben 3.5 ailesini ve sanırım bir tane 3.6 modelini biliyordum; Plus adını ise ilk kez şimdi duydum
- Hatırladığım kadarıyla Plus serisi, Qwen chat yayımlandığından beri vardı. En azından geçen yılın başlarında Plus modelini bizzat kullandığımı hatırlıyorum

Qwen3.6-Max-Preview: Ajan tabanlı kodlama ve dünya bilgisini güçlendiren yeni nesil model

Başlıca iyileştirmeler

Model özellikleri ve yaklaşımı

API kullanımı ve özellikler

Geliştirme durumu

İlgili okumalar

1 yorum

Hacker News yorumları