6 puan yazan GN⁺ 2026-02-04 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3-Coder-Next, kod yazma ajanları ve yerel geliştirme ortamları için tasarlanmış açık ağırlıklı bir dil modeli olup hibrit attention ve MoE yapısını temel alır
  • Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitildiği için, düşük çıkarım maliyetinde bile güçlü kodlama ve ajan yeteneklerine sahiptir
  • Basit parametre ölçeklendirmesi yerine ajan eğitim sinyallerinin ölçeklendirilmesine odaklanır; doğrulanabilir kodlama görevleri ve çalıştırılabilir ortamları kullanarak doğrudan geri bildirim öğrenir
  • SWE-Bench Verified üzerinde %70'in üzerine çıkar ve SWE-Bench Pro ile çok dilli ortamlarda da büyük modellerle rekabet edebilen performans gösterir
  • Küçük bir model olmasına rağmen verimlilik ve performans arasında Pareto dengesi kurarak, maliyet açısından verimli ajan dağıtımı için önemli bir anlam taşır

Qwen3-Coder-Next'e genel bakış

  • Qwen3-Coder-Next, Qwen3-Next-80B-A3B-Base tabanlı açık ağırlıklı bir dil modelidir
    • Hibrit attention ve Mixture of Experts(MoE) mimarisini benimser
    • Büyük ölçekli yürütülebilir görev sentezi, ortam etkileşimi ve pekiştirmeli öğrenme ile eğitilmiştir
  • Hedefi, kodlama ajanlarında ve yerel geliştirme ortamlarında verimli kullanım sağlamaktır
    • Düşük çıkarım maliyetinde bile güçlü akıl yürütme yeteneği ve kodlama performansı sunar

Ajan eğitiminin ölçeklendirilme yaklaşımı

  • Model, parametre sayısını ölçeklendirmekten çok ajan eğitim sinyallerini ölçeklendirmeye odaklanır
    • Doğrulanabilir kodlama görevlerini çalıştırılabilir ortamlarla birleştirerek, ortam geri bildiriminden doğrudan öğrenir
  • Başlıca eğitim aşamaları
    • Kod ve ajan odaklı verilerle sürekli ön eğitim
    • Yüksek kaliteli ajan iz verilerini kullanan gözetimli ince ayar
    • yazılım mühendisliği, QA, web/UX gibi alanlara özel uzmanlaşmış eğitim
    • Birden fazla uzman modeli tek bir dağıtıma uygun modele damıtma
  • Bu yaklaşım, uzun vadeli akıl yürütme, araç kullanımı ve çalıştırma hatalarından toparlanma yeteneklerini güçlendirir

Kodlama ajanı benchmark performansı

  • SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider gibi çeşitli benchmark'larda değerlendirildi
    • SWE-Bench Verified üzerinde %70'in üzerine çıktı
    • SWE-Bench Pro ve çok dilli ortamlarda da rekabet gücünü korudu
    • Az sayıdaki aktif parametreye rağmen, daha büyük açık kaynak modellerle eşdeğer ya da daha iyi performans gösterdi
  • Çok turlu ajan görevlerinde, ajan tur sayısı arttıkça uzun vadeli akıl yürütme yeteneğinin güçlendiği görüldü

Verimlilik ve performans dengesi

  • Qwen3-Coder-Next (3B active), 10~20 kat daha büyük modellerle benzer SWE-Bench-Pro performansı elde etti
  • Tam attention tabanlı özel mülkiyetli modeller mutlak performansta önde olsa da, Qwen3-Coder-Next maliyet/verimlilik oranında daha iyi bir Pareto sınırında konumlanıyor
  • Bu da modelin maliyet açısından verimli ajan dağıtımı için uygun olduğunu gösteriyor

Demo ve uygulama örnekleri

  • Küçük ve hızlı bir coder modeli olarak çeşitli uygulama ortamlarına entegre edilebilir
    • OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline gibi ortamlarda gösterildi
    • coder.qwen.ai üzerinden web tabanlı olarak kullanılabilir

Özet ve gelecek planları

  • Qwen3-Coder-Next, kodlama ajanı benchmark'larında üstün hız ve akıl yürütme yeteneğini kanıtladı
  • Büyük açık kaynak modellerle kıyaslandığında da rekabetçi performans gösteriyor, ancak hâlâ geliştirme alanı bulunuyor
  • Gelecekte araç kullanma yeteneği, karmaşık problem çözme ve karar verme becerileri güçlendirilecek
    • Ayrıca daha fazla görevi destekleme ve kullanıcı geri bildirimine dayalı hızlı güncellemeler planlanıyor

1 yorum

 
GN⁺ 2026-02-04
Hacker News yorumları
  • Bu GGUF modelinin boyutu 48.4GB ve yüksek donanımlı dizüstülerde bile çalışabiliyor
    Şimdiye kadar 64GB’lık MacBook Pro’mda Codex CLI ya da Claude Code seviyesinde bir kodlama ajanını gerçekten çalıştırabilen yerel bir model görmedim
    Belki bu kez farklıdır diye düşünüyorum. Unsloth rehberine bakınca umut verici görünüyor

    • “Yerel model” ifadesi yerine “kendi bilgisayarımda çalışan model” gibi yeni bir terime ihtiyaç olduğunu düşünüyorum
      Sadece aynı makinede llama.cpp ile bağlı diye buna yerel demek yetersiz kalıyor. Benim kastettiğim yerel, LAN modeli; yani inference’ı doğrudan benim kontrol ettiğim donanımda ‘bedavaya’ çalıştırabilecek seviyede olması
      Örneğin 5090 + Threadripper + 256GB RAM kurulumu yaklaşık 10 bin dolar, MLX rotası ise yaklaşık 6 bin dolar
      Modelin iç yapısı ve kuantizasyon yöntemi gerçek bellek kullanımını ciddi biçimde etkilediği için, sadece parametre sayısına bakarak kıyas yapmak giderek anlamını yitiriyor
      Bu yüzden standart donanım temelinde tool calling, kod üretimi, belge işleme gibi gerçek işleri benchmark eden bir sisteme ihtiyaç olduğunu düşünüyorum
    • Ben Qwen3-Coder-30B-A3B-Instruct gguf modelini 13GB RAM’li bir VM ve 6GB RTX 2060 GPU’da çalıştırıyorum
      Eski bir Razer Blade dizüstü olmasına rağmen 64k context seviyesine kadar oldukça stabil çalışıyor
      Küçük projeler, bug düzeltmeleri ve UI iyileştirmeleri gibi işler için fazlasıyla kullanılabilir
      Ama “usable” eşiğinin kişiden kişiye değiştiğini düşünüyorum. Hangi işleri denediğinize göre değerlendirme de değişecektir
    • GPT-OSS-120b (MXFP4) modelini Codex ile birlikte denedim; yaklaşık 66GB VRAM kullanıyor
      120b modelinden iyi çalışma logları toplanıp 20b sürümüyle fine-tuning yapılırsa oldukça faydalı olabilir
      reasoning_effort artırılınca oldukça iyi sonuçlar veriyor ama 64GB bellek sınırı nedeniyle 20b iyileştirmesi daha gerçekçi görünüyor
    • Claude Code’u yerel bir modelle (ollama run glm-4.7-flash) yapılandırıp 32GB M2Pro Mac mini’de çalıştırdım
      Eski bir git projesinde kod temizleme, dokümantasyon ve test ekleme gibi işler için gayet yeterliydi
      Benim standartlarım düşük olabilir ama yerel kodlama asistanı olarak oldukça tatmin edici
    • Yaklaşık 5 yıl sonra çoğu modelin yerelde çalıştırılabilir hale geleceğini düşünüyorum
      Güçlü GPU ve bellek üretimi artar, model optimizasyonları da ilerlerse orta seviye donanımda bile yeterince iyi performans alınabilir
  • Yerel dağıtım için Dynamic Unsloth GGUF sürümünü Hugging Face’e yükledim,
    ayrıca Claude Code / Codex’i yerelde kullanmak için bir rehber de hazırladım

    • Kendi sistemimde yaklaşık 39 tok/s hızında, GPU kullanımında ise %60 civarında çalışıyor
      Radeon RX 7900 XTX tabanlı ortamda llama.cpp sunucusunu çalıştırdım ve ctx-size 32768 ayarıyla stabil biçimde işledi
    • Framework Desktop’ta modelimi kullananlardan geri bildirim aldım
      Neden Qwen3’ün varsayılan GGUF’u yerine Unsloth sürümünün tercih edilmesi gerektiği soruldu
    • IQuest-Coder’ın da aynı şekilde dağıtılmasını isteyen bir talep vardı
    • UD sürümüyle normal sürüm arasındaki fark soruldu
    • “Bunu bu kadar hızlı nasıl yapabildin?” şeklinde şaşkınlık içeren tepkiler de vardı
  • Homebrew ile llama.cpp kurup Unsloth kuantize modelini yerelde çalıştırdım
    CLI arayüzü ile OpenAI uyumlu API sunucusunu aynı anda ayağa kaldırabildim ve yaklaşık 28GB RAM kullandı

    • Birisi token hızının (token/s) ne kadar olduğunu sordu
    • Başka biri de genel izlenimin nasıl olduğunu merak etti
  • Eğer bu model gerçekten iddia edildiği gibiyse, 3B aktif parametreyle Sonnet 4.5 düzeyinde kodlama performansı vermesi inanılmaz olur

    • Q2 ve Q4 kuantizasyon sürümlerini test ettim; yerelde çalışması etkileyici ama Sonnet 4.5 seviyesinde değil
      Basit problemlerde bile hatalar yaptı ve bazen thinking loop’a girdi
      Bu ilk uygulama hatalarından kaynaklanıyor olabilir ama şu an için performans iddiası abartılı görünüyor
    • Bana göre hissiyat olarak Haiku seviyesine daha yakın
    • “Bir şey gerçek olamayacak kadar iyi görünüyorsa, büyük ihtimalle gerçek değildir” sözü aklıma geliyor
  • Qwen3 Coder 30B modelini Mac M4 Max (36GB) üzerinde yerelde çalıştırdım
    Yavaştı ama çalıştı ve oldukça iyi sonuçlar verdi
    Demo videosunu ve kurulum blog yazısını paylaşıyorum

  • 6GB VRAM’li bir dizüstünde 17 tok/s gördüm ve en fazla 100k context mümkün oldu
    Etkileyici ama hız düşük olduğu için sonunda yine bulut inference kullanmaya devam edeceğim
    [docker-compose yapılandırma örneği] paylaşıldı

  • DGX Spark + vLLM 0.15.1 ortamında FP8 modeli benchmark ettim
    Tekil istekte yaklaşık 43 tok/s, paralel isteklerde ise en fazla 62 tok/s seviyesine ulaştı

    • FP8 modeli vLLM’de çalıştırdım ama çalışma sırasında BF16’ya dequantize edilip bellek swap’ine yol açtı
      llama.cpp’nin 4-bit kuantize sürümü yaklaşık 30~35 tok/s veriyor ve 200k context ile bile sadece 50GB RAM kullanıyor
  • 3B aktif parametreyle GLM 4.7’den biraz daha düşük performans gösteriyor ama verimliliği etkileyici
    Hızlı ama basit bir kodlama ajanını bir orchestrator ile birlikte kullanırsanız toplam hız daha da yüksek olabilir diye düşünüyorum

    • Ben Claude’un sub-agent özelliğini kullanarak Mastra tabanlı TypeScript ajanlarını CLI üzerinden çalıştırıyorum
      Kod tarama, kütüphane arama ve SourceGraph gezintisi gibi tekrar eden işleri otomatikleştiriyor
      Mastra’nın Workspace özelliği sayesinde daha güçlü ajan tabanlı geliştirme mümkün hale geldi
    • Sonuçta bunların daha yaygın kullanılmasının asıl yolu muhtemelen büyük yapay zeka şirketleri fiyat artırdığında açılacak
  • lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 modelini Strix Halo’da denedim,
    32 tok/s gördüm ve 128k context’e kadar çıkabildi. MiniMax M2.1 Q6’dan biraz zayıf ama yine de etkileyici

    • Strix Halo’nun nasıl olduğu soruldu. Kuantizasyonsuz yerel çıkarım yapabilen bir makine isteyenler de vardı
    • NVIDIA Spark’ta benzer sayılar aldım ve Q4_K_XL sürümünü test ediyorum
      FP8 sürümü 110GB kullanıp yalnızca 16k context verebildi
      Rust kod üretiminde denedim ve oldukça yetenekliydi. Hızı biraz daha artsa gerçekten kullanılabilir olabilir
      Yakında API sağlayıcılarının bu modeli ucuza servis etmeye başlayacağını düşünüyorum
  • Yerel modeller için güvenilir bir sıralama kaynağı neresi diye merak ediyorum
    Benchmark’lar fazla manipüle edilmiş gibi geliyor; bu yüzden kişisel incelemeler daha anlamlı diye düşünüyorum
    Kod, ses, görsel, özetleme, müzik gibi alan bazında en iyi modelleri derleyen bir yer olup olmadığını bilmek istiyorum