Qwen3.6-35B-A3B: Agentic Coding Gücü, Artık Herkese Açık

(qwen.ai)

25 puan yazan ragingwind 13 일 전 | 2 yorum | WhatsApp'ta paylaş

Alibaba Qwen ekibinin 2026 Nisan ayında açık kaynak olarak yayımladığı büyük dil modelidir. MoE (Mixture-of-Experts) mimarisini kullanır. MoE, modelin içinde birden fazla "uzman ağ" bulundurup her girişte bunların yalnızca bir kısmını seçerek etkinleştiren bir yaklaşımdır. Toplam parametre sayısı 35 milyar olsa da gerçek çıkarım sırasında yalnızca 3 milyar parametre kullanılır; yani toplam kapasitenin yaklaşık %8,6’sıyla çalışır. Yalnızca metni değil, görüntü ve videoyu da anlayabilen çok modlu bir modeldir; düşünme sürecini gösteren Thinking modu ile doğrudan yanıt veren Non-thinking modunu birlikte destekler.

Temel noktalar

Önceki sürüm Qwen3.5-35B-A3B’ye kıyasla agentic coding performansı büyük ölçüde artırıldı; yani yapay zekanın dosyaları kendi başına gezmesi, terminal çalıştırması, hataları teşhis edip düzeltmesi gibi otonom kodlama yetenekleri belirgin biçimde gelişti
SWE-bench Verified’de (gerçek yazılım hatası düzeltme değerlendirmesi) 73,4, Terminal-Bench 2.0’da 51,5 puan alarak, parametre sayısı çok daha yüksek olan Dense modellerden (tüm parametreleri kullanan geleneksel yapı) Qwen3.5-27B’yi birçok başlıkta geride bırakıyor
Matematik yarışması (AIME 2026) 92,7 ve canlı kodlama (LiveCodeBench v6) 80,4 puanla 27B Dense modelle başa baş seviyede
Çok modlu alanda MMMU 81,7 ve RealWorldQA 85,3 puanla Claude Sonnet 4.5’i (ücretli ticari model) geride bırakıyor; özellikle görüntü içindeki nesne konumunu algılama (RefCOCO 92.0) gibi mekânsal zekâ görevlerinde güçlü
OpenClaw, Claude Code, Qwen Code gibi üçüncü taraf kodlama araçlarıyla anında entegre olabilir ve Anthropic API protokolüyle de uyumludur

Avantajlar

3B etkin parametreyle 27~31B Dense modellere yakın performans sunduğu için GPU belleği ve güç tüketimi daha düşüktür; küçük ölçekli ortamlarda da çalıştırılabilir
Agentic coding benchmark’larının genelinde kendi sınıfının en güçlü modelleri arasında
Metin, görüntü, video ve belgeleri tek bir modelle işleyebilir
Tamamen açık kaynak olduğu için herkes indirip ek eğitim yapabilir ve özelleştirebilir

Dezavantajlar

Genel amaçlı ajan görevlerinde (VITA-Bench 35,6 puan) önceki 27B Dense modelin (41,8 puan) gerisinde kalıyor; bu alanda hâlâ gelişim alanı var
En yüksek zorluktaki akademik akıl yürütme testlerinde (HLE 21,4 puan) de büyük Dense modellerin (24,3 puan) gerisinde
Bilgi benchmark’ı olan MMLU-Pro’da küçük bir dezavantajı var
API hâlâ "coming soon" durumunda olduğu için hemen büyük ölçekli servislere uygulamak zor

Fark yaratan noktalar

Benzer MoE yapısına sahip Google Gemma4-26B-A4B’yi neredeyse tüm benchmark’larda açık farkla geride bırakıyor
Ajan görevlerinde önceki konuşma turlarındaki düşünce içeriğini koruyan preserve_thinking özelliği sayesinde uzun vadeli bağlamı sürdürmede avantaj sağlıyor
Anthropic API protokolüyle de uyumlu olduğu için Claude Code ekosistemine doğrudan girebiliyor

Etkileri

3B etkin parametreyle 27B modele yaklaşan sonuçlar, MoE mimarisinin yapay zeka verimliliğinde yeni standart hâline geldiğini gösteriyor
Açık kaynak bir modelin Claude Sonnet 4.5 gibi ücretli modelleri birçok başlıkta geçmesi, şirketlerin pahalı API’ler yerine kendi barındırdıkları çözümlere yönelme motivasyonunu artırıyor
Benchmark bileşiminde agentic coding ağırlığının çok yüksek olması, sektörün yapay zekanın otonom yazılım geliştirme kabiliyetini en önemli değerlendirme ölçütü olarak gördüğüne işaret ediyor

2 yorum

jeeeyul 11 일 전

Araştırma laboratuvarımızın deney sonuçlarına göre bunun, Qwen ekibi olmayan bir Qwen ekibinin piyasadaki tedirginliği yönetmek için yalnızca benchmark’lara uyacak şekilde aceleyle piyasaya sürdüğü bir model olduğu görülüyor. Araç takıntısı çok güçlü. Bunu 3.5’e kıyasla bir gerileme olarak görüyoruz.

woung717 12 일 전

Q3.5 sürümünü Mac’te çalıştırıp deniyorum; önceki nesillere kıyasla zekâdaki artış gerçekten etkileyici. Hatta Oss 120b’ye kadar yetişmiş olması her şeyi anlatıyor.