4 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Toplam 35 milyar parametrenin yalnızca 3 milyarını etkinleştiren seyrek Mixture-of-Experts(MoE) mimarisiyle, verimlilik ve performansı aynı anda sağlayan açık kaynaklı bir modeldir
  • Önceki nesle kıyasla agentic coding yeteneği önemli ölçüde geliştirilmiş olup, Qwen3.5-27B veya Gemma4-31B gibi büyük yoğun modellerle rekabet edebilecek düzeydedir
  • SWE-bench, Terminal-Bench, Claw-Eval gibi başlıca kodlama benchmark’larında yüksek puanlar alırken, multimodal görevlerde de Claude Sonnet 4.5 seviyesinde performans sunar
  • Alibaba Cloud Model Studio API, Hugging Face ve ModelScope üzerinden açık ağırlıklar ve API erişimi sunulur; ayrıca OpenClaw·Claude Code gibi çeşitli kodlama araçlarıyla entegrasyonu destekler
  • 3 milyar etkin parametreyle büyük modellere denk verimli açık model için yeni bir ölçüt ortaya koyar

Qwen3.6-35B-A3B genel bakış

  • Qwen3.6-35B-A3B, toplam 35 milyar parametrenin yalnızca 3 milyarını etkinleştiren seyrek Mixture-of-Experts(MoE) modelidir; verimlilik ve performansı birlikte sunan açık kaynaklı bir modeldir
  • Önceki sürüm olan Qwen3.5-35B-A3B’ye göre agentic coding performansı büyük ölçüde iyileştirilmiştir ve Qwen3.5-27B veya Gemma4-31B gibi büyük yoğun modellerle rekabet edebilecek düzeydedir
  • Hem multimodal çıkarım hem de çıkarımsız modları destekler ve Qwen Studio, API, Hugging Face ve ModelScope üzerinden yayımlanır
  • Model, Qwen Studio üzerinde etkileşimli olarak kullanılabilir; Alibaba Cloud Model Studio API(qwen3.6-flash) üzerinden çağrılabilir veya doğrudan self-host edilebilir

Performans değerlendirmesi

  • Dil ve kodlama performansı

    • Qwen3.6-35B-A3B, yalnızca 3 milyar etkin parametreyle Qwen3.5-27B’yi (27 milyar parametreli yoğun model) birçok önemli kodlama benchmark’ında geride bırakır
    • SWE-bench Verified 73.4, Terminal-Bench 51.5, Claw-Eval ortalama 68.7 gibi sonuçlarla yüksek skorlar kaydeder
    • QwenWebBench’te (web kod üretimi benchmark’ı) 1397 puan alarak aynı sınıftaki modeller arasında en üst seviyede yer alır
    • Genel ajan benchmark’larında (MCPMark, MCP-Atlas, WideSearch vb.) da rakip modellere göre üstün sonuçlar gösterir
    • Bilgi ve akıl yürütme odaklı MMLU-Pro, GPQA, AIME26 gibi değerlendirmelerde de yüksek doğruluğu korur
  • Değerlendirme ortamı

    • SWE-Bench serisi, kurum içi ajan scaffold’u (bash + file-edit aracı) temelinde 200K context window içinde değerlendirilmiştir
    • Terminal-Bench 2.0, 3 saat sınırı ve 32 CPU/48GB RAM ortamında 5 çalıştırmanın ortalamasıyla ölçülmüştür
    • SkillsBench, API bağımlı işler hariç 78 görev üzerinde değerlendirilmiştir
    • QwenClawBench ve QwenWebBench, kurum içi gerçek kullanım dağılımına dayalı benchmark’lar olup gerçek kullanıcı ortamını yansıtır
  • Görsel-dil performansı

    • Qwen3.6-35B-A3B, doğal bir multimodal model olarak yalnızca 3 milyar etkin parametreyle Claude Sonnet 4.5 düzeyinde performans elde eder
    • RefCOCO (mekânsal algı) 92.0, ODInW13 50.8 ile mekânsal zekâ alanında güçlü yanlar sergiler
    • RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9 gibi çeşitli görsel-dil görevlerinde yüksek puanlar alır
    • Video anlama benchmark’larında (VideoMME, VideoMMMU, MLVU vb.) da 80~86 bandında skorlar koruyarak istikrarlı performans gösterir

Qwen3.6-35B-A3B kullanımı

  • Dağıtım ve erişim

    • Alibaba Cloud Model Studio API(qwen3.6-flash) üzerinden kullanılabilir; Hugging Face ve ModelScope’tan açık ağırlıklar indirilebilir
    • Qwen Studio’da anında denenebilir ve OpenClaw, Claude Code, Qwen Code gibi üçüncü taraf kodlama yardımcılarıyla entegrasyon desteklenir
  • API kullanımı

    • preserve_thinking özelliğini destekler; önceki konuşmalardaki thinking içeriğini koruyarak agentic görevler için uygunluk sağlar
    • Alibaba Cloud Model Studio, OpenAI ve Anthropic API biçimleriyle uyumlu chat completions API sunar
    • Örnek kodda enable_thinking seçeneğiyle reasoning trace ve nihai yanıt ayrı ayrı çıktılanabilir
  • OpenClaw entegrasyonu

    • Qwen3.6-35B-A3B, OpenClaw (eski adıyla Moltbot/Clawdbot) ile uyumludur ve Model Studio’ya bağlanarak terminal tabanlı agentic coding ortamı sunar
    • Yapılandırma dosyasına (~/.openclaw/openclaw.json) Model Studio API bilgileri birleştirilerek kullanılır
    • Node.js 22 ve üzeri ortamda kurulup çalıştırılabilir
  • Qwen Code entegrasyonu

    • Qwen serisine optimize edilmiş Qwen Code (terminal için açık kaynaklı AI ajanı) ile tamamen uyumludur
    • Node.js 20 ve üzeri sürümlerde kurulumdan sonra /auth komutuyla kimlik doğrulama süreci gerçekleştirilir
  • Claude Code entegrasyonu

    • Anthropic API protokolünü desteklediği için Claude Code içinde de doğrudan kullanılabilir
    • Ortam değişkeni olarak ANTHROPIC_MODEL="qwen3.6-flash" ayarlandıktan sonra CLI çalıştırılır

Özet ve beklentiler

  • Qwen3.6-35B-A3B, seyrek MoE mimarisiyle büyük yoğun modellere denk agentic coding ve akıl yürütme yeteneğini kanıtlar
  • 3 milyar etkin parametreyle hem verimlilik hem performans sunarken multimodal benchmark’larda da güçlü sonuçlar verir
  • Tam açık kaynaklı checkpoint olarak yayımlanarak verimli açık model için yeni bir ölçüt ortaya koyar
  • Qwen ekibi, Qwen3.6 açık kaynak ailesini genişletmeyi sürdüreceklerini ve topluluğun geri bildirimleriyle kullanım örneklerini beklediklerini belirtiyor

Alıntı bilgisi

1 yorum

 
GN⁺ 14 일 전
Hacker News yorumları
  • Dizüstü bilgisayarımda Unsloth 20.9GB GGUF sürümünü LM Studio ile çalıştırdım
    model bağlantısı
    Şaşırtıcı şekilde, Opus 4.7'den bisiklete binen pelikanı daha iyi çizdi
    Karşılaştırma için Simon Willison'ın gönderisine bakın

    • Aynı modelle ben de yeniden ürettim (M1 Max 64GB, 90 saniyenin altında) — sonuç görseli
      Benim çıktımda gökyüzünde güneş ve bulutlar, ince yeşil çizgiler halinde çimen ve hale efektli bir güneş vardı
      Simon'ın sonucundaki gibi bir "hava akımı" ifadesi de vardı ama sonuçta önemli olan pelikan ve bisiklet
    • GGUF bağlantısı sayesinde ben de denedim
      Shoggoth.db projesinde wiki gezintisi + otomatik DB oluşturma işinde kullandım
      Qwen3.5'e göre yeni canlıları keşfetme becerisinin geliştiğini hissettim
      Hız da yaklaşık 140 token/s'ye çıktı ve RTX 4090'da bellek offload'u olmadan kararlı şekilde çalıştı
      Ancak multimodal çakışmaları önlemek için --no-mmproj-offload seçeneğini kullanmak gerekti
    • Bisiklete binen pelikan gibi testlerin ne zaman işe yaramaz hale geleceğini merak ediyorum
      Aslında amaç, kimsenin aklına gelmeyecek garip prompt'larla modelin yaratıcılığını ölçmekti ama artık iç benchmark gibi olmuş hissi veriyor
    • Qwen'in flamingo çiziminin neden kazandığını anlamadım
      Lastiğin üstüne oturuyor, gagasının konumu da tuhaf ve jant telleriyle bacak oranı garip
      Güneş gözlüğü de yarı saydam olduğu için sadece tek gözü görünüyor
      Sevimli ama istenmeyen papyon ve aksesuarlar yüzünden bence eksi puan almalıydı
      Opus'un sonucu daha az gösterişliydi ama daha doğruydu
    • Görsellere baktıkça world model hâlâ eksik olan yapboz parçası gibi geliyor
      Sonuçta bugünkü modellerin hâlâ sadece olasılıksal cümle üreticileri olduğunu düşündürüyor
  • Qwen ekibinin açık ağırlıkları yayınlamayı sürdürmesi sevindirici
    ilgili haber 1, haber 2
    Junyang Lin gibi kilit isimler ayrıldıktan sonra bile projenin sürmesi etkileyici

    • Bu, Qwen 3.6 serisinin yalnızca bir modeli
      Küçük boyutlu modellerin yakında gelmesi muhtemel ama ana 397A17B modeli hariç tutulmuş gibi görünüyor
    • Ben şahsen qwen-image 2.0 için açık ağırlıkların yayınlanmasını istiyorum
  • Unsloth'un quantization ve dönüştürme işlemini zaten tamamladığı bir sürüm var
    Hugging Face bağlantısı

    • Unsloth deneysel quants sürümlerini hızlı yüklüyor ama yayından hemen sonraki sürümler sık sık düzeltiliyor
      Kararlı sürümü almak için yaklaşık bir hafta sonra tekrar bakmak gerekebilir
      İlk hatalar yüzünden iyi modellerin düşük değerlendirilmesi de olabiliyor
    • Qwen'in quantized modelleri neden doğrudan kendisinin yayınlamadığını merak ediyorum
      Quantization süreci karmaşık ve kalite kaybı riski taşıyor, bu yüzden asıl geliştiricinin yapması daha iyi diye düşünüyorum
      Kötü bir quant sürümü modelin itibarını da zedeleyebilir
    • VRAM gereksinimini merak ediyorum. 16GB GPU'da da çalışır mı bilmek isterim
    • Qwen'in varsayılan quantization'ının neden kötü olduğu, Unsloth'un kim olduğu
      ve iyi bir formatın ne avantaj sağladığı hakkında bilgi almak isterim
      Mümkünse quantization kavramı da birlikte açıklansa iyi olur
    • Bu modelin ollama run claude komutuyla da kullanılıp kullanılamayacağını merak ediyorum
  • Qwen ekibinin bu sürümü hoşuma gitti
    Küçük açık ağırlıklı kodlama modelleri, belirli sektörlerde (ör. finans, sağlık)
    bulut erişimi kısıtlı geliştirme ekipleri için özelleştirilmiş ajanlar oluşturmada faydalı
    Batı'da bu pazara neredeyse hiç dokunulmuyor; Mistral tek istisna gibi

    • Mistral, sürdürülebilir bir iş modeli peşinde olan tek şirket gibi görünüyor
      Diğer yapay zeka şirketleri daha çok kısa vadeli gelire oynuyor gibi
    • Küçük açık modeller eğlenceli ama büyük barındırılan modellerle aynı ligde değiller
      Ciddi işler için daha büyük modelleri doğrudan çalıştırabilecek donanıma yatırım yapmak gerekir
    • Katılıyorum ama bu tür küçük modeller gerçek endüstriyel kullanım için yetersiz
      Yaklaşık 100 bin dolarlık ekipmanla daha büyük modelleri on-premise çalıştırmak mümkün
    • Açık ağırlıklı rakip modeller yapmak harika ama maliyeti çok yüksek
    • Regüle sektörlerde modelin kötü niyetli verilerle eğitilmediğinin doğrulanması nasıl yapılır, merak ediyorum
  • Qwen'in dil embedding özellikleri ilginç
    ilgili analiz tweet'i
    Buna göre Qwen, diğer modellerden farklı olarak sınav odaklı bir dağılım havuzunda (bazin) konumlanıyor

  • Qwen yöneticilerinden biri Twitter'da hangi modeli açık kaynak görmek istediklerine dair anket açmıştı,
    27B sürümü en popüler seçenek olmasına rağmen yayınlanmadı

    • 3.5'te olduğu gibi distillation sürecinden geçerek aşamalı biçimde yayınlanma ihtimali var
      A3B mimarisi distillation'da daha hızlı olduğu için yakında gelebilir
    • 27B, dense bir model olduğu için pazarlama açısından 35A3B kadar çekici değil
      İkincisi daha hızlı ve daha "zeki" hissettiriyor
    • Muhtemelen yakında yayınlanır
    • Ben şahsen MoE mimarisini verimsiz buluyorum
      Aynı VRAM ile 27B dense model daha büyük context işleyebileceğinden kalite daha yüksek olur
  • Yerel testlerde Qwen3.5-35B-A3B'yi çok kullandım,
    kendi donanımımda çalışan modeller arasında en güçlü olanıydı
    Özellikle Mudler APEX-I-Quality ve Byteshape Q3_K_S-3.40bpw quant sürümleri etkileyiciydi
    RTX 3060 12GB ortamında bellek payı açıldı ve hız da 40 t/s'nin üstüne çıktı

    • Çeşitli görevlerde denedikten sonra Qwen3.6'nın 3.5'e göre çok daha büyük bir sıçrama olduğunu söyleyebilirim
      Daha önce takıldığı proje iyileştirmelerini artık kendi başına yapabiliyor
    • Hangi quant sürümünün en iyi olduğunu merak ediyorum
  • Bu tür yapay zeka yazılım sürümlerini en çok heyecanla bekliyorum
    Abartılı risk pazarlaması yok, abonelik ücreti yok; sadece gerçekten denemek isteyeceğim bir model

    • Ben de aynı düşünüyorum. Yakın gelecekte yerel modeller ve donanım performansı yeterince gelişip
      çoğu kullanım senaryosunda pratik hale gelsin istiyorum
  • İnsanların bu tür yerel modelleri pratikte nasıl kullandığını merak ediyorum
    Anthropic veya OpenAI token'larını kiralamaktan ne gibi bir değer sağlıyor, bilmek isterim

    • Qwen3.5-9B'yi yerel OCR tablo çıkarımı için kullanıyorum
      Belge formatları çok dağınık olduğu için eskiden karmaşık kural tabanlı pipeline'lar kullanıyordum,
      şimdi ise multimodal yetenekleri sayesinde dil + görüntü birleşimiyle çıkarım yapılabiliyor
    • Ben Frigate adlı FOSS bir NVR ile birlikte Qwen3.5-4B kullanıyorum
      Video analizi için yeterince iyi; metin özetleme veya çeviri gibi işleri ise daha büyük modellere bırakıyorum
      Gerçek zamanlı değilse hızdan çok kalite önemli olduğu için batch processing için uygun
    • Ben token kiralama modelini sonsuza kadar kullanmak istemiyorum
      Tamamen özel, self-hosted bir model istiyorum
      SaaS hizmetlerinin kapanmasından bıktım; LLM'lerin de sonunda self-hosting'e gitmesi gerektiğini düşünüyorum
    • vLLM + qwen3-coder-next ile milyonlarca belgeyi batch olarak işledim
      Token sınırı veya hız limiti olmadan GPU'yu %100 kullanmak mümkün oldu
    • Her iş SOTA model gerektirmiyor
      Örneğin Gemma 4'ü iPhone'da çevrimdışı çevirmen olarak kullanıyorum,
      Apple Translate'den daha hızlı ve daha doğru
      Küçük JSON düzeltme işleri gibi durumlarda yerel model çok daha verimli oluyor