Alibaba'nın açık kaynak Qwen3.5-Medium modelleri, yerelde Sonnet 4.5 düzeyinde performans sunuyor

(venturebeat.com)

22 puan yazan GN⁺ 2026-03-02 | 4 yorum | WhatsApp'ta paylaş

Qwen3.5 serisi, 35B, 122B, 27B ve bir ek model olmak üzere dört büyük dil modelinden oluşuyor; bunların üçü Apache 2.0 açık kaynak lisansı ile yayımlandı
Benchmark sonuçlarında OpenAI GPT-5-mini ve Anthropic Claude Sonnet 4.5'i geride bırakıyor; ayrıca yerel GPU ortamlarında da yüksek performansla çalışabiliyor
4 bit quantization ile doğruluğu neredeyse korurken 1 milyon tokenın üzerinde context window desteği sunuyor; böylece masaüstü GPU'larda da büyük ölçekli veri işlenebiliyor
Gated Delta Networks ile Mixture-of-Experts (MoE) yapısını birleştirerek verimliliği artırıyor; ayrıca 'Thinking Mode' ile dahili akıl yürütme sürecinden sonra yanıt üretiyor
Şirketler böylece gizlilik odaklı on-premise yapay zeka sistemleri kurabiliyor ve yüksek maliyetli bulut bağımlılığı olmadan otonom ajan geliştirme gerçekleştirebiliyor

Qwen3.5-Medium modeline genel bakış

Alibaba'nın Qwen AI ekibinin yayımladığı Qwen3.5-Medium serisi, ajan tabanlı araç çağırma (agentic tool calling) desteği sunan dört LLM'den oluşuyor
- Açık modeller: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Kapalı model: Qwen3.5-Flash (yalnızca Alibaba Cloud Model Studio API için)
Üç açık kaynak model Hugging Face ve ModelScope üzerinden indirilebiliyor
Qwen3.5-Flash ticari API olarak sunuluyor ve Batılı modellere kıyasla daha düşük işletim maliyeti sağlıyor

Performans ve teknik yapı

Qwen3.5 modelleri, benchmark testlerinde OpenAI GPT-5-mini ve Claude Sonnet 4.5'i geride bırakıyor
Quantization sonrasında da yüksek doğruluğu koruyor ve yerel GPU (32GB VRAM) ortamında 1 milyon tokenın üzerinde context window desteği sunuyor
4 bit ağırlık ve KV cache quantization sayesinde doğruluk kaybı olmadan büyük ölçekli veri işleme mümkün
Hibrit mimari: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Toplam 35 milyar parametrenin yalnızca 300 milyonu etkinleşiyor
- MoE katmanları 256 uzmandan (8 yönlendirme + 1 paylaşımlı) oluşuyor
- 4 bit sıkıştırmada da doğruluk korunuyor, yerel dağıtımda bellek tasarrufu sağlanıyor
Reklam
Araştırma desteği için Qwen3.5-35B-A3B-Base modeli de ayrıca yayımlandı

Ürün yapısı ve özellikler

Thinking Mode: Model, yanıt vermeden önce `` etiketiyle dahili akıl yürütme sürecini üretiyor
Modellere göre öne çıkan özellikler
- Qwen3.5-27B: Verimlilik odaklı, 800 bin tokenın üzerinde context desteği
- Qwen3.5-Flash: Varsayılan olarak 1 milyon token context, resmi araçlar yerleşik
- Qwen3.5-122B-A10B: Sunucu sınıfı GPU'lar (80GB VRAM) için, 1 milyon+ context desteği
Benchmark sonuçları: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini ve Sonnet 4.5'e kıyasla bilgi (MMMLU) ve görsel akıl yürütme (MMMU-Pro) başlıklarında daha iyi sonuç veriyor

Fiyatlandırma ve API entegrasyonu

Qwen3.5-Flash API ücretleri
- Girdi: $0.1 / 1 milyon token
- Çıktı: $0.4 / 1 milyon token
- Cache oluşturma: $0.125 / 1 milyon token
- Cache okuma: $0.01 / 1 milyon token
Araç çağırma tarifesi: Web Search $10/1.000 kullanım, Code Interpreter ücretsiz (geçici olarak)
Başlıca LLM'lerle karşılaştırıldığında en ucuz API'lerden biri
- Örnek: Claude Sonnet 4.5 toplam $18/1 milyon token, GPT-5.2 $15.75, Qwen3.5-Flash ise $0.5

Kurumsal kullanım ve anlamı

Qwen3.5-Medium'un yayımlanmasıyla büyük araştırma laboratuvarı düzeyinde model fine-tuning ve dağıtım artık sıradan şirketler için de mümkün hale geliyor
On-premise ortamlarda büyük hacimli belge ve video analizi yapılabiliyor, veri gizliliği güçleniyor
Mixture-of-Experts yapısı kurum içi güvenlik duvarı içinde çalıştırılarak veri egemenliği korunabiliyor
Thinking Mode ve Tool Calling özellikleriyle otonom yapay zeka ajanları kurmak mümkün
İlk kullanıcılar bunu “büyük kapalı modellerle aradaki farkı daralttı” diye değerlendiriyor
Verimlilik odaklı tasarım, yapay zeka entegrasyonunda maliyet düşürme, güvenliği artırma ve operasyonel çeviklik kazanma imkanı sunuyor

4 yorum

chcv0313 2026-03-02

RTX Pro 6000 (96GB, fiilen 94GB) sahibiyim ama 122B modeli ollama ile yükleyemiyorum. Görsel bir model olduğu için sanırım içindeki vision transformer bölümünden kaynaklanıyor. GPT OSS 120b modeli ise gayet rahat yükleniyor.

ng0301 2026-03-02

Aynen.. görsel encoder kullanıldığında 1B model bile 9G VRAM tüketiyordu.

kensin2 2026-03-02

Performans alabilmek için bunu CUDA tabanlı llama.cpp sunucusuyla çalıştırmanız gerekiyor.

GN⁺ 2026-03-02

Hacker News görüşleri

Açık kaynak modellerin çoğu esasen benchmark optimizasyon oyunu oynuyor
Yeni çıkan her model birkaç ay önceki SOTA seviyesinde diye pazarlanıyor ama gerçekten kullanınca çoğu zaman hayal kırıklığı yaratıyor
Qwen3-Coder-Next ve Qwen3.5’i denedim; Sonnet 4.5 seviyesine ulaşmıyorlar
Yine de hedefleri net verir ve testlerle kısıt koyarsanız inatla denemeye devam edip sonunda problemi çözebiliyor
Buna rağmen açık kaynak model olarak etkileyici ve self-hosted ortamda bunun mümkün olması şaşırtıcı
Ama Sonnet 4.5 seviyesinde olduğu yönündeki abartılı pazarlamaya inanmamak gerek
- Benim deneyimime göre bazı açık kaynak modeller gerçekten güçlü ve pratik
  Özellikle StepFun-3.5-flash, karmaşık Rust kod tabanlarında bile çok iyi çalışıyor
  StepFun ile hiçbir bağlantım yok ama 196B/11B yapısıyla bu performansı çıkaran ekibe büyük saygı duyuyorum
- “Geçen nesil” modeller hâlâ açık kaynaktan daha iyi, ama GLM-5 gibi modeller örüntü eşleştirme becerisini iyi yakalamış gibi görünüyor
  Modelleri birbirine karşı yarıştıran GertLabs benchmark’ı manipüle edilmesi zor olduğu için oldukça güvenilir görünüyor
- Aslında bu benchmark optimizasyonu tüm modellerin yaptığı bir şey
  Hatta bulut modelleri çalışma anını bile ayarlayabildiği için daha da ileri gidebilir
- Qwen 3.5 27B’yi 4090’da çalıştırıyorum ve yerel bir modelde bu kadar iyi kodlama performansı ilk kez görüyorum
  Önceden neredeyse kullanılamaz durumdaydı ama bu kez gerçekten şaşırtıcı
- Güncel bir çevrimdışı/özel kodlama benchmark’ı var mı diye merak ediyordum; Apex Testing oldukça iyi görünüyor
  Standart problemlerden farklı testlerse aşırı optimizasyona da daha dayanıklı olabilir
MBP M3 Max 128G üzerinde yerel modeller çalıştırıp performans karşılaştırması yapıyorum
Opus 4.6 ve Gemini Pro hızlı ve doğruydu ama qwen3.5:35b-a3b 45 dakika boyunca çalışıp hatalı cevap verdi
Fan sesi o kadar yüksekti ki uçak kalkışı gibiydi
Bu kadar yavaş bir modelle büyük kod tabanları üzerinde çalışmanın mümkün olup olmadığından emin değilim
- Aslında 100B parametreli bir açık modeli dizüstünde çalıştırmanın doğal sınırları var
  Çünkü bulut modelleri 1T’den fazla parametre ve milyonlarca dolarlık GPU’larla çalışıyor
  Yerelde kodlama için gerçekçi seviye daha çok “Android uygulaması boilerplate üretimi” gibi şeyler
- Opus ve Gemini milyonlarca dolarlık H200 sınıfı GPU’larda çalışıyor
  Yerel modeller hâlâ iki nesil gerideki performans seviyesinde; Sonnet 4.5 dense bile Opus 4.6 ile arasında büyük fark var
- Sektör “büyük model her zaman daha iyidir” şeklinde mantıksal bir yanılgıya kapılmış durumda
  Oysa dar bir probleme özel küçük bir model daha iyi çalışabilir
  Bizim ekip yalnızca kodlamaya odaklanan küçük bir modeli M2 16GB’de çalıştırıyor ve Sonnet 4.5’ten daha iyi olduğunu düşünüyor
  Yakında rig.ai beta sürümünü yayımlayacağız
- MacBook’larda ısı kısıtları çok ciddi olduğu için uzun süreli işler için uygun değiller
  Sunucularda bile fan hızını %100’e sabitlemek GPU performansını %30 artırıyor
  Yerel modeller hafif işler için uygun; ağır işleri bulutta çalıştırmak daha verimli
- qwen3.5-35b-a3b, bağlam kısa olduğunda akıl yürütmeye çok zaman harcama eğiliminde
  Uzun bir sistem prompt’u ya da dosya içeriği verildiğinde çok daha verimli olduğuna dair raporlar var
M1 MacBook Pro üzerinde llama.cpp, OpenCode ve Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M quantization) kurulumu için bir rehber yazdım
Kurulum epey zahmetliydi ama en yeni modellere de uygulanabiliyor
Kurulum rehberi bağlantısı
- LM Studio kullanırsanız tek arama ve tıklamayla kurulum yapılabiliyor ve OpenAI uyumlu API olarak sunuluyor
- Aynı kurulumu Ryzen 32GB masaüstünde de yaptım; en etkileyici olan Qwen’di
  MoE yapısı sayesinde çıkarım hızı da yüksek
  Q4_K_M quantization seçtim ama bunun en iyi tercih olup olmadığını merak ediyorum
- 16GB RAM’de de işe yarar yerel modeller çıkmasını bekliyorum
- M1’deki çalışma hızının ne kadar olduğunu merak ediyorum
LLM iç yapısını öğrenmeye yeni başladım ve float32’nin ne kadar cömert bir hassasiyet sunduğunu fark ettim
Blog yazıları üzerinden quantization öğrendim ve Claude’dan 1~8 bit quantization’ın doğruluğunu analiz etmesini istedim
4 bit, %99 benzerlikle neredeyse kayıpsız görünürken 8 bitin yarı boyutunda olduğu için sweet spot gibi duruyordu
Gerçek uzmanların da 4 bit kullanıyor olması ilginç
- En yeni NVIDIA donanımlarında 4 bit eğitim de destekleniyor
  GPT-OSS modeli MXFP4 formatında eğitildi
  OCP standardizasyon belgesi, MX formatı spesifikasyonu
- Üçlü (ternary) modeller üzerine araştırmalar da ilginç
  İşlemler çok hızlı ve cache verimliliği yüksek olduğu için araştırmaya değer
- Bu konuda daha fazla öğrenmek istiyorum; önerilebilecek kaynaklar var mı?
- %1’lik doğruluk farkının pratikte nasıl bir bilişsel etki yarattığını kestiremiyorum
  Sistem fazla kara kutu olduğu için sezgisel olarak anlamak zor
Qwen3.5 122B’yi LM Studio ve Opencode ile çalıştırdım; oldukça etkileyiciydi
M4 Max/128GB ortamında bile yavaş değildi ve Claude Code düzeyinde kod analiz yeteneği gösterdi
Tamamen yerel bir alternatifin bu kadar ilerlemiş olması şaşırtıcı
Açık modeller giderek daha iyi oluyor ama henüz Sonnet 4.5 seviyesinde değiller
Dar alanlarda harikalar ama belirsiz problemleri çözmekte zayıflar
Qwen 3.5 şimdiye kadar kullandığım OSS modeller arasında en iyisiydi ve giderek gerçek zekâ belirtileri göstermeye başlıyor
RTX 6000 Pro üzerinde ücretsiz çalıştırıyorum ama Composer 1.5’i daha sık kullanıyorum
Yine de yıl bitmeden yerelde GPT 5.2 seviyesinde bir model çıkmasını bekliyorum
Abartılı iddialar çok fazla
Gerçekten deneyen kişi az ve çoğu zaman gerçekçi ölçütler eksik kalıyor
Eskiden hep “birkaç K token’dan fazlasını kullanamaz” gibi notlar eklenirdi
- Qwen 3.5 122B/a10B(q3, unsloth dynamic quant) ile bir RPN hesap makinesi web uygulaması yaptım; yerel modeller arasında ilk kez tamamen çalıştı
  Diğer modeller ya stack implementasyonunu yanlış yaptı ya da UI berbat oldu
  Claude Sonnet 4.6 da bu problemi düzgün çözdü ama onun dışındakiler neredeyse tamamen başarısızdı
- Qwen3-Coder-30B-A3B-Instruct, IDE entegrasyonu veya küçük fonksiyon bazlı işler için iyi ama büyük ölçekli özellik geliştirme konusunda sınırları var
- 35B modelle Polars tabanlı PCA implementasyonunu 10 dakikada tamamladım
  Önceden modeller hep pandas kodu halüsinasyonu görürdü; bu büyük bir ilerleme
SWE grafiğinde Claude’un olmaması göze çarpıyor
Bu, verilerin kasıtlı olarak çarpıtıldığı izlenimi veriyor
Sadece bu tavır bile güven kaybına yol açıyor
Yerelde bizzat çalıştırabileceğim günü sabırsızlıkla bekliyorum
ABD merkezli servislere bağımlılığı azaltmak istiyorum
Avrupa’da açık modelleri test edebileceğiniz bir servis olup olmadığını merak ediyorum
- Koyeb, Mistral tarafından satın alındıktan sonra GPU’ları dakikalık kiralama ile sunuyor ve tek tıkla model dağıtımı da mümkün kılıyor