- Qwen3-Coder-Next, kod yazma ajanları ve yerel geliştirme ortamları için tasarlanmış açık ağırlıklı bir dil modeli olup hibrit attention ve MoE yapısını temel alır
- Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitildiği için, düşük çıkarım maliyetinde bile güçlü kodlama ve ajan yeteneklerine sahiptir
- Basit parametre ölçeklendirmesi yerine ajan eğitim sinyallerinin ölçeklendirilmesine odaklanır; doğrulanabilir kodlama görevleri ve çalıştırılabilir ortamları kullanarak doğrudan geri bildirim öğrenir
- SWE-Bench Verified üzerinde %70'in üzerine çıkar ve SWE-Bench Pro ile çok dilli ortamlarda da büyük modellerle rekabet edebilen performans gösterir
- Küçük bir model olmasına rağmen verimlilik ve performans arasında Pareto dengesi kurarak, maliyet açısından verimli ajan dağıtımı için önemli bir anlam taşır
Qwen3-Coder-Next'e genel bakış
- Qwen3-Coder-Next, Qwen3-Next-80B-A3B-Base tabanlı açık ağırlıklı bir dil modelidir
- Hibrit attention ve Mixture of Experts(MoE) mimarisini benimser
- Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitilmiştir
- Hedefi, kodlama ajanlarında ve yerel geliştirme ortamlarında verimli kullanım sağlamaktır
- Düşük çıkarım maliyetinde bile güçlü akıl yürütme yeteneği ve kodlama performansı sunar
Ajan eğitiminin ölçeklendirilme yaklaşımı
- Model, parametre sayısını ölçeklendirmekten çok ajan eğitim sinyallerini ölçeklendirmeye odaklanır
- Doğrulanabilir kodlama görevlerini çalıştırılabilir ortamlarla birleştirerek, ortam geri bildiriminden doğrudan öğrenir
- Başlıca eğitim aşamaları
- Kod ve ajan odaklı verilerle sürekli ön eğitim
- Yüksek kaliteli ajan iz verilerini kullanan gözetimli ince ayar
- yazılım mühendisliği, QA, web/UX gibi alanlara özel uzmanlaşmış eğitim
- Birden fazla uzman modeli tek bir dağıtıma uygun modele damıtma
- Bu yaklaşım, uzun vadeli akıl yürütme, araç kullanımı ve çalıştırma hatalarından toparlanma yeteneklerini güçlendirir
Kodlama ajanı benchmark performansı
- SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider gibi çeşitli benchmark'larda değerlendirildi
- SWE-Bench Verified üzerinde %70'in üzerine çıktı
- SWE-Bench Pro ve çok dilli ortamlarda da rekabet gücünü korudu
- Az sayıdaki aktif parametreye rağmen, daha büyük açık kaynak modellerle eşdeğer ya da daha iyi performans gösterdi
- Çok turlu ajan görevlerinde, ajan tur sayısı arttıkça uzun vadeli akıl yürütme yeteneğinin güçlendiği görüldü
Verimlilik ve performans dengesi
- Qwen3-Coder-Next (3B active), 10~20 kat daha büyük modellerle benzer SWE-Bench-Pro performansı elde etti
- Tam attention tabanlı özel mülkiyetli modeller mutlak performansta önde olsa da, Qwen3-Coder-Next maliyet/verimlilik oranında daha iyi bir Pareto sınırında konumlanıyor
- Bu da modelin maliyet açısından verimli ajan dağıtımı için uygun olduğunu gösteriyor
Demo ve uygulama örnekleri
- Küçük ve hızlı bir coder modeli olarak çeşitli uygulama ortamlarına entegre edilebilir
- OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline gibi ortamlarda gösterildi
- coder.qwen.ai üzerinden web tabanlı olarak kullanılabilir
Özet ve gelecek planları
- Qwen3-Coder-Next, kodlama ajanı benchmark'larında üstün hız ve akıl yürütme yeteneğini kanıtladı
- Büyük açık kaynak modellerle kıyaslandığında da rekabetçi performans gösteriyor, ancak hâlâ geliştirme alanı bulunuyor
- Gelecekte araç kullanma yeteneği, karmaşık problem çözme ve karar verme becerileri güçlendirilecek
- Ayrıca daha fazla görevi destekleme ve kullanıcı geri bildirimine dayalı hızlı güncellemeler planlanıyor
1 yorum
Hacker News yorumları
Bu GGUF modelinin boyutu 48.4GB ve yüksek donanımlı dizüstülerde bile çalışabiliyor
Şimdiye kadar 64GB’lık MacBook Pro’mda Codex CLI ya da Claude Code seviyesinde bir kodlama ajanını gerçekten çalıştırabilen yerel bir model görmedim
Belki bu kez farklıdır diye düşünüyorum. Unsloth rehberine bakınca umut verici görünüyor
Sadece aynı makinede llama.cpp ile bağlı diye buna yerel demek yetersiz kalıyor. Benim kastettiğim yerel, LAN modeli; yani inference’ı doğrudan benim kontrol ettiğim donanımda ‘bedavaya’ çalıştırabilecek seviyede olması
Örneğin 5090 + Threadripper + 256GB RAM kurulumu yaklaşık 10 bin dolar, MLX rotası ise yaklaşık 6 bin dolar
Modelin iç yapısı ve kuantizasyon yöntemi gerçek bellek kullanımını ciddi biçimde etkilediği için, sadece parametre sayısına bakarak kıyas yapmak giderek anlamını yitiriyor
Bu yüzden standart donanım temelinde tool calling, kod üretimi, belge işleme gibi gerçek işleri benchmark eden bir sisteme ihtiyaç olduğunu düşünüyorum
Eski bir Razer Blade dizüstü olmasına rağmen 64k context seviyesine kadar oldukça stabil çalışıyor
Küçük projeler, bug düzeltmeleri ve UI iyileştirmeleri gibi işler için fazlasıyla kullanılabilir
Ama “usable” eşiğinin kişiden kişiye değiştiğini düşünüyorum. Hangi işleri denediğinize göre değerlendirme de değişecektir
120b modelinden iyi çalışma logları toplanıp 20b sürümüyle fine-tuning yapılırsa oldukça faydalı olabilir
reasoning_effort artırılınca oldukça iyi sonuçlar veriyor ama 64GB bellek sınırı nedeniyle 20b iyileştirmesi daha gerçekçi görünüyor
ollama run glm-4.7-flash) yapılandırıp 32GB M2Pro Mac mini’de çalıştırdımEski bir git projesinde kod temizleme, dokümantasyon ve test ekleme gibi işler için gayet yeterliydi
Benim standartlarım düşük olabilir ama yerel kodlama asistanı olarak oldukça tatmin edici
Güçlü GPU ve bellek üretimi artar, model optimizasyonları da ilerlerse orta seviye donanımda bile yeterince iyi performans alınabilir
Yerel dağıtım için Dynamic Unsloth GGUF sürümünü Hugging Face’e yükledim,
ayrıca Claude Code / Codex’i yerelde kullanmak için bir rehber de hazırladım
Radeon RX 7900 XTX tabanlı ortamda llama.cpp sunucusunu çalıştırdım ve ctx-size 32768 ayarıyla stabil biçimde işledi
Neden Qwen3’ün varsayılan GGUF’u yerine Unsloth sürümünün tercih edilmesi gerektiği soruldu
Homebrew ile llama.cpp kurup Unsloth kuantize modelini yerelde çalıştırdım
CLI arayüzü ile OpenAI uyumlu API sunucusunu aynı anda ayağa kaldırabildim ve yaklaşık 28GB RAM kullandı
Eğer bu model gerçekten iddia edildiği gibiyse, 3B aktif parametreyle Sonnet 4.5 düzeyinde kodlama performansı vermesi inanılmaz olur
Basit problemlerde bile hatalar yaptı ve bazen thinking loop’a girdi
Bu ilk uygulama hatalarından kaynaklanıyor olabilir ama şu an için performans iddiası abartılı görünüyor
Qwen3 Coder 30B modelini Mac M4 Max (36GB) üzerinde yerelde çalıştırdım
Yavaştı ama çalıştı ve oldukça iyi sonuçlar verdi
Demo videosunu ve kurulum blog yazısını paylaşıyorum
6GB VRAM’li bir dizüstünde 17 tok/s gördüm ve en fazla 100k context mümkün oldu
Etkileyici ama hız düşük olduğu için sonunda yine bulut inference kullanmaya devam edeceğim
[docker-compose yapılandırma örneği] paylaşıldı
DGX Spark + vLLM 0.15.1 ortamında FP8 modeli benchmark ettim
Tekil istekte yaklaşık 43 tok/s, paralel isteklerde ise en fazla 62 tok/s seviyesine ulaştı
llama.cpp’nin 4-bit kuantize sürümü yaklaşık 30~35 tok/s veriyor ve 200k context ile bile sadece 50GB RAM kullanıyor
3B aktif parametreyle GLM 4.7’den biraz daha düşük performans gösteriyor ama verimliliği etkileyici
Hızlı ama basit bir kodlama ajanını bir orchestrator ile birlikte kullanırsanız toplam hız daha da yüksek olabilir diye düşünüyorum
Kod tarama, kütüphane arama ve SourceGraph gezintisi gibi tekrar eden işleri otomatikleştiriyor
Mastra’nın Workspace özelliği sayesinde daha güçlü ajan tabanlı geliştirme mümkün hale geldi
lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 modelini Strix Halo’da denedim,
32 tok/s gördüm ve 128k context’e kadar çıkabildi. MiniMax M2.1 Q6’dan biraz zayıf ama yine de etkileyici
FP8 sürümü 110GB kullanıp yalnızca 16k context verebildi
Rust kod üretiminde denedim ve oldukça yetenekliydi. Hızı biraz daha artsa gerçekten kullanılabilir olabilir
Yakında API sağlayıcılarının bu modeli ucuza servis etmeye başlayacağını düşünüyorum
Yerel modeller için güvenilir bir sıralama kaynağı neresi diye merak ediyorum
Benchmark’lar fazla manipüle edilmiş gibi geliyor; bu yüzden kişisel incelemeler daha anlamlı diye düşünüyorum
Kod, ses, görsel, özetleme, müzik gibi alan bazında en iyi modelleri derleyen bir yer olup olmadığını bilmek istiyorum