25 puan yazan ragingwind 13 일 전 | 2 yorum | WhatsApp'ta paylaş

Alibaba Qwen ekibinin 2026 Nisan ayında açık kaynak olarak yayımladığı büyük dil modelidir. MoE (Mixture-of-Experts) mimarisini kullanır. MoE, modelin içinde birden fazla "uzman ağ" bulundurup her girişte bunların yalnızca bir kısmını seçerek etkinleştiren bir yaklaşımdır. Toplam parametre sayısı 35 milyar olsa da gerçek çıkarım sırasında yalnızca 3 milyar parametre kullanılır; yani toplam kapasitenin yaklaşık %8,6’sıyla çalışır. Yalnızca metni değil, görüntü ve videoyu da anlayabilen çok modlu bir modeldir; düşünme sürecini gösteren Thinking modu ile doğrudan yanıt veren Non-thinking modunu birlikte destekler.

Temel noktalar

  • Önceki sürüm Qwen3.5-35B-A3B’ye kıyasla agentic coding performansı büyük ölçüde artırıldı; yani yapay zekanın dosyaları kendi başına gezmesi, terminal çalıştırması, hataları teşhis edip düzeltmesi gibi otonom kodlama yetenekleri belirgin biçimde gelişti
  • SWE-bench Verified’de (gerçek yazılım hatası düzeltme değerlendirmesi) 73,4, Terminal-Bench 2.0’da 51,5 puan alarak, parametre sayısı çok daha yüksek olan Dense modellerden (tüm parametreleri kullanan geleneksel yapı) Qwen3.5-27B’yi birçok başlıkta geride bırakıyor
  • Matematik yarışması (AIME 2026) 92,7 ve canlı kodlama (LiveCodeBench v6) 80,4 puanla 27B Dense modelle başa baş seviyede
  • Çok modlu alanda MMMU 81,7 ve RealWorldQA 85,3 puanla Claude Sonnet 4.5’i (ücretli ticari model) geride bırakıyor; özellikle görüntü içindeki nesne konumunu algılama (RefCOCO 92.0) gibi mekânsal zekâ görevlerinde güçlü
  • OpenClaw, Claude Code, Qwen Code gibi üçüncü taraf kodlama araçlarıyla anında entegre olabilir ve Anthropic API protokolüyle de uyumludur

Avantajlar

  • 3B etkin parametreyle 27~31B Dense modellere yakın performans sunduğu için GPU belleği ve güç tüketimi daha düşüktür; küçük ölçekli ortamlarda da çalıştırılabilir
  • Agentic coding benchmark’larının genelinde kendi sınıfının en güçlü modelleri arasında
  • Metin, görüntü, video ve belgeleri tek bir modelle işleyebilir
  • Tamamen açık kaynak olduğu için herkes indirip ek eğitim yapabilir ve özelleştirebilir

Dezavantajlar

  • Genel amaçlı ajan görevlerinde (VITA-Bench 35,6 puan) önceki 27B Dense modelin (41,8 puan) gerisinde kalıyor; bu alanda hâlâ gelişim alanı var
  • En yüksek zorluktaki akademik akıl yürütme testlerinde (HLE 21,4 puan) de büyük Dense modellerin (24,3 puan) gerisinde
  • Bilgi benchmark’ı olan MMLU-Pro’da küçük bir dezavantajı var
  • API hâlâ "coming soon" durumunda olduğu için hemen büyük ölçekli servislere uygulamak zor

Fark yaratan noktalar

  • Benzer MoE yapısına sahip Google Gemma4-26B-A4B’yi neredeyse tüm benchmark’larda açık farkla geride bırakıyor
  • Ajan görevlerinde önceki konuşma turlarındaki düşünce içeriğini koruyan preserve_thinking özelliği sayesinde uzun vadeli bağlamı sürdürmede avantaj sağlıyor
  • Anthropic API protokolüyle de uyumlu olduğu için Claude Code ekosistemine doğrudan girebiliyor

Etkileri

  • 3B etkin parametreyle 27B modele yaklaşan sonuçlar, MoE mimarisinin yapay zeka verimliliğinde yeni standart hâline geldiğini gösteriyor
  • Açık kaynak bir modelin Claude Sonnet 4.5 gibi ücretli modelleri birçok başlıkta geçmesi, şirketlerin pahalı API’ler yerine kendi barındırdıkları çözümlere yönelme motivasyonunu artırıyor
  • Benchmark bileşiminde agentic coding ağırlığının çok yüksek olması, sektörün yapay zekanın otonom yazılım geliştirme kabiliyetini en önemli değerlendirme ölçütü olarak gördüğüne işaret ediyor

2 yorum

 
jeeeyul 11 일 전

Araştırma laboratuvarımızın deney sonuçlarına göre bunun, Qwen ekibi olmayan bir Qwen ekibinin piyasadaki tedirginliği yönetmek için yalnızca benchmark’lara uyacak şekilde aceleyle piyasaya sürdüğü bir model olduğu görülüyor. Araç takıntısı çok güçlü. Bunu 3.5’e kıyasla bir gerileme olarak görüyoruz.

 
woung717 12 일 전

Q3.5 sürümünü Mac’te çalıştırıp deniyorum; önceki nesillere kıyasla zekâdaki artış gerçekten etkileyici. Hatta Oss 120b’ye kadar yetişmiş olması her şeyi anlatıyor.