Qwen3-Coder-Next modeli tanıtıldı

(qwen.ai)

6 puan yazan GN⁺ 2026-02-04 | 1 yorum | WhatsApp'ta paylaş

Qwen3-Coder-Next, kod yazma ajanları ve yerel geliştirme ortamları için tasarlanmış açık ağırlıklı bir dil modeli olup hibrit attention ve MoE yapısını temel alır
Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitildiği için, düşük çıkarım maliyetinde bile güçlü kodlama ve ajan yeteneklerine sahiptir
Basit parametre ölçeklendirmesi yerine ajan eğitim sinyallerinin ölçeklendirilmesine odaklanır; doğrulanabilir kodlama görevleri ve çalıştırılabilir ortamları kullanarak doğrudan geri bildirim öğrenir
SWE-Bench Verified üzerinde %70'in üzerine çıkar ve SWE-Bench Pro ile çok dilli ortamlarda da büyük modellerle rekabet edebilen performans gösterir
Küçük bir model olmasına rağmen verimlilik ve performans arasında Pareto dengesi kurarak, maliyet açısından verimli ajan dağıtımı için önemli bir anlam taşır

Qwen3-Coder-Next'e genel bakış

Qwen3-Coder-Next, Qwen3-Next-80B-A3B-Base tabanlı açık ağırlıklı bir dil modelidir
- Hibrit attention ve Mixture of Experts(MoE) mimarisini benimser
- Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitilmiştir
Hedefi, kodlama ajanlarında ve yerel geliştirme ortamlarında verimli kullanım sağlamaktır
- Düşük çıkarım maliyetinde bile güçlü akıl yürütme yeteneği ve kodlama performansı sunar

Ajan eğitiminin ölçeklendirilme yaklaşımı

Model, parametre sayısını ölçeklendirmekten çok ajan eğitim sinyallerini ölçeklendirmeye odaklanır
- Doğrulanabilir kodlama görevlerini çalıştırılabilir ortamlarla birleştirerek, ortam geri bildiriminden doğrudan öğrenir
Başlıca eğitim aşamaları
- Kod ve ajan odaklı verilerle sürekli ön eğitim
- Yüksek kaliteli ajan iz verilerini kullanan gözetimli ince ayar
- yazılım mühendisliği, QA, web/UX gibi alanlara özel uzmanlaşmış eğitim
- Birden fazla uzman modeli tek bir dağıtıma uygun modele damıtma
Bu yaklaşım, uzun vadeli akıl yürütme, araç kullanımı ve çalıştırma hatalarından toparlanma yeteneklerini güçlendirir

Kodlama ajanı benchmark performansı

SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider gibi çeşitli benchmark'larda değerlendirildi
- SWE-Bench Verified üzerinde %70'in üzerine çıktı
- SWE-Bench Pro ve çok dilli ortamlarda da rekabet gücünü korudu
- Az sayıdaki aktif parametreye rağmen, daha büyük açık kaynak modellerle eşdeğer ya da daha iyi performans gösterdi
Çok turlu ajan görevlerinde, ajan tur sayısı arttıkça uzun vadeli akıl yürütme yeteneğinin güçlendiği görüldü

Verimlilik ve performans dengesi

Qwen3-Coder-Next (3B active), 10~20 kat daha büyük modellerle benzer SWE-Bench-Pro performansı elde etti
Tam attention tabanlı özel mülkiyetli modeller mutlak performansta önde olsa da, Qwen3-Coder-Next maliyet/verimlilik oranında daha iyi bir Pareto sınırında konumlanıyor
Bu da modelin maliyet açısından verimli ajan dağıtımı için uygun olduğunu gösteriyor

Demo ve uygulama örnekleri

Küçük ve hızlı bir coder modeli olarak çeşitli uygulama ortamlarına entegre edilebilir
- OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline gibi ortamlarda gösterildi
- coder.qwen.ai üzerinden web tabanlı olarak kullanılabilir

Özet ve gelecek planları

Qwen3-Coder-Next, kodlama ajanı benchmark'larında üstün hız ve akıl yürütme yeteneğini kanıtladı
Büyük açık kaynak modellerle kıyaslandığında da rekabetçi performans gösteriyor, ancak hâlâ geliştirme alanı bulunuyor
Gelecekte araç kullanma yeteneği, karmaşık problem çözme ve karar verme becerileri güçlendirilecek
- Ayrıca daha fazla görevi destekleme ve kullanıcı geri bildirimine dayalı hızlı güncellemeler planlanıyor

1 yorum

GN⁺ 2026-02-04

Hacker News yorumları

Bu GGUF modelinin boyutu 48.4GB ve yüksek donanımlı dizüstülerde bile çalışabiliyor
Şimdiye kadar 64GB’lık MacBook Pro’mda Codex CLI ya da Claude Code seviyesinde bir kodlama ajanını gerçekten çalıştırabilen yerel bir model görmedim
Belki bu kez farklıdır diye düşünüyorum. Unsloth rehberine bakınca umut verici görünüyor
- “Yerel model” ifadesi yerine “kendi bilgisayarımda çalışan model” gibi yeni bir terime ihtiyaç olduğunu düşünüyorum
  Sadece aynı makinede llama.cpp ile bağlı diye buna yerel demek yetersiz kalıyor. Benim kastettiğim yerel, LAN modeli; yani inference’ı doğrudan benim kontrol ettiğim donanımda ‘bedavaya’ çalıştırabilecek seviyede olması
  Örneğin 5090 + Threadripper + 256GB RAM kurulumu yaklaşık 10 bin dolar, MLX rotası ise yaklaşık 6 bin dolar
  Modelin iç yapısı ve kuantizasyon yöntemi gerçek bellek kullanımını ciddi biçimde etkilediği için, sadece parametre sayısına bakarak kıyas yapmak giderek anlamını yitiriyor
  Bu yüzden standart donanım temelinde tool calling, kod üretimi, belge işleme gibi gerçek işleri benchmark eden bir sisteme ihtiyaç olduğunu düşünüyorum
- Ben Qwen3-Coder-30B-A3B-Instruct gguf modelini 13GB RAM’li bir VM ve 6GB RTX 2060 GPU’da çalıştırıyorum
  Eski bir Razer Blade dizüstü olmasına rağmen 64k context seviyesine kadar oldukça stabil çalışıyor
  Küçük projeler, bug düzeltmeleri ve UI iyileştirmeleri gibi işler için fazlasıyla kullanılabilir
  Ama “usable” eşiğinin kişiden kişiye değiştiğini düşünüyorum. Hangi işleri denediğinize göre değerlendirme de değişecektir
- GPT-OSS-120b (MXFP4) modelini Codex ile birlikte denedim; yaklaşık 66GB VRAM kullanıyor
  120b modelinden iyi çalışma logları toplanıp 20b sürümüyle fine-tuning yapılırsa oldukça faydalı olabilir
  reasoning_effort artırılınca oldukça iyi sonuçlar veriyor ama 64GB bellek sınırı nedeniyle 20b iyileştirmesi daha gerçekçi görünüyor
- Claude Code’u yerel bir modelle (ollama run glm-4.7-flash) yapılandırıp 32GB M2Pro Mac mini’de çalıştırdım
  Eski bir git projesinde kod temizleme, dokümantasyon ve test ekleme gibi işler için gayet yeterliydi
  Benim standartlarım düşük olabilir ama yerel kodlama asistanı olarak oldukça tatmin edici
- Yaklaşık 5 yıl sonra çoğu modelin yerelde çalıştırılabilir hale geleceğini düşünüyorum
  Güçlü GPU ve bellek üretimi artar, model optimizasyonları da ilerlerse orta seviye donanımda bile yeterince iyi performans alınabilir
Yerel dağıtım için Dynamic Unsloth GGUF sürümünü Hugging Face’e yükledim,
ayrıca Claude Code / Codex’i yerelde kullanmak için bir rehber de hazırladım
- Kendi sistemimde yaklaşık 39 tok/s hızında, GPU kullanımında ise %60 civarında çalışıyor
  Radeon RX 7900 XTX tabanlı ortamda llama.cpp sunucusunu çalıştırdım ve ctx-size 32768 ayarıyla stabil biçimde işledi
- Framework Desktop’ta modelimi kullananlardan geri bildirim aldım
  Neden Qwen3’ün varsayılan GGUF’u yerine Unsloth sürümünün tercih edilmesi gerektiği soruldu
- IQuest-Coder’ın da aynı şekilde dağıtılmasını isteyen bir talep vardı
- UD sürümüyle normal sürüm arasındaki fark soruldu
- “Bunu bu kadar hızlı nasıl yapabildin?” şeklinde şaşkınlık içeren tepkiler de vardı
Homebrew ile llama.cpp kurup Unsloth kuantize modelini yerelde çalıştırdım
CLI arayüzü ile OpenAI uyumlu API sunucusunu aynı anda ayağa kaldırabildim ve yaklaşık 28GB RAM kullandı
- Birisi token hızının (token/s) ne kadar olduğunu sordu
- Başka biri de genel izlenimin nasıl olduğunu merak etti
Eğer bu model gerçekten iddia edildiği gibiyse, 3B aktif parametreyle Sonnet 4.5 düzeyinde kodlama performansı vermesi inanılmaz olur
- Q2 ve Q4 kuantizasyon sürümlerini test ettim; yerelde çalışması etkileyici ama Sonnet 4.5 seviyesinde değil
  Basit problemlerde bile hatalar yaptı ve bazen thinking loop’a girdi
  Bu ilk uygulama hatalarından kaynaklanıyor olabilir ama şu an için performans iddiası abartılı görünüyor
- Bana göre hissiyat olarak Haiku seviyesine daha yakın
- “Bir şey gerçek olamayacak kadar iyi görünüyorsa, büyük ihtimalle gerçek değildir” sözü aklıma geliyor
Qwen3 Coder 30B modelini Mac M4 Max (36GB) üzerinde yerelde çalıştırdım
Yavaştı ama çalıştı ve oldukça iyi sonuçlar verdi
Demo videosunu ve kurulum blog yazısını paylaşıyorum
6GB VRAM’li bir dizüstünde 17 tok/s gördüm ve en fazla 100k context mümkün oldu
Etkileyici ama hız düşük olduğu için sonunda yine bulut inference kullanmaya devam edeceğim
[docker-compose yapılandırma örneği] paylaşıldı
DGX Spark + vLLM 0.15.1 ortamında FP8 modeli benchmark ettim
Tekil istekte yaklaşık 43 tok/s, paralel isteklerde ise en fazla 62 tok/s seviyesine ulaştı
- FP8 modeli vLLM’de çalıştırdım ama çalışma sırasında BF16’ya dequantize edilip bellek swap’ine yol açtı
  llama.cpp’nin 4-bit kuantize sürümü yaklaşık 30~35 tok/s veriyor ve 200k context ile bile sadece 50GB RAM kullanıyor
3B aktif parametreyle GLM 4.7’den biraz daha düşük performans gösteriyor ama verimliliği etkileyici
Hızlı ama basit bir kodlama ajanını bir orchestrator ile birlikte kullanırsanız toplam hız daha da yüksek olabilir diye düşünüyorum
- Ben Claude’un sub-agent özelliğini kullanarak Mastra tabanlı TypeScript ajanlarını CLI üzerinden çalıştırıyorum
  Kod tarama, kütüphane arama ve SourceGraph gezintisi gibi tekrar eden işleri otomatikleştiriyor
  Mastra’nın Workspace özelliği sayesinde daha güçlü ajan tabanlı geliştirme mümkün hale geldi
- Sonuçta bunların daha yaygın kullanılmasının asıl yolu muhtemelen büyük yapay zeka şirketleri fiyat artırdığında açılacak
lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 modelini Strix Halo’da denedim,
32 tok/s gördüm ve 128k context’e kadar çıkabildi. MiniMax M2.1 Q6’dan biraz zayıf ama yine de etkileyici
- Strix Halo’nun nasıl olduğu soruldu. Kuantizasyonsuz yerel çıkarım yapabilen bir makine isteyenler de vardı
- NVIDIA Spark’ta benzer sayılar aldım ve Q4_K_XL sürümünü test ediyorum
  FP8 sürümü 110GB kullanıp yalnızca 16k context verebildi
  Rust kod üretiminde denedim ve oldukça yetenekliydi. Hızı biraz daha artsa gerçekten kullanılabilir olabilir
  Yakında API sağlayıcılarının bu modeli ucuza servis etmeye başlayacağını düşünüyorum
Yerel modeller için güvenilir bir sıralama kaynağı neresi diye merak ediyorum
Benchmark’lar fazla manipüle edilmiş gibi geliyor; bu yüzden kişisel incelemeler daha anlamlı diye düşünüyorum
Kod, ses, görsel, özetleme, müzik gibi alan bazında en iyi modelleri derleyen bir yer olup olmadığını bilmek istiyorum

Qwen3-Coder-Next modeli tanıtıldı

Qwen3-Coder-Next'e genel bakış

Ajan eğitiminin ölçeklendirilme yaklaşımı

Kodlama ajanı benchmark performansı

Verimlilik ve performans dengesi

Demo ve uygulama örnekleri

Özet ve gelecek planları

İlgili okumalar

1 yorum

Hacker News yorumları