- Qwen3.5 serisi, 35B, 122B, 27B ve bir ek model olmak üzere dört büyük dil modelinden oluşuyor; bunların üçü Apache 2.0 açık kaynak lisansı ile yayımlandı
- Benchmark sonuçlarında OpenAI GPT-5-mini ve Anthropic Claude Sonnet 4.5'i geride bırakıyor; ayrıca yerel GPU ortamlarında da yüksek performansla çalışabiliyor
- 4 bit quantization ile doğruluğu neredeyse korurken 1 milyon tokenın üzerinde context window desteği sunuyor; böylece masaüstü GPU'larda da büyük ölçekli veri işlenebiliyor
- Gated Delta Networks ile Mixture-of-Experts (MoE) yapısını birleştirerek verimliliği artırıyor; ayrıca 'Thinking Mode' ile dahili akıl yürütme sürecinden sonra yanıt üretiyor
- Şirketler böylece gizlilik odaklı on-premise yapay zeka sistemleri kurabiliyor ve yüksek maliyetli bulut bağımlılığı olmadan otonom ajan geliştirme gerçekleştirebiliyor
Qwen3.5-Medium modeline genel bakış
- Alibaba'nın Qwen AI ekibinin yayımladığı Qwen3.5-Medium serisi, ajan tabanlı araç çağırma (agentic tool calling) desteği sunan dört LLM'den oluşuyor
- Açık modeller: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Kapalı model: Qwen3.5-Flash (yalnızca Alibaba Cloud Model Studio API için)
- Üç açık kaynak model Hugging Face ve ModelScope üzerinden indirilebiliyor
- Qwen3.5-Flash ticari API olarak sunuluyor ve Batılı modellere kıyasla daha düşük işletim maliyeti sağlıyor
Performans ve teknik yapı
- Qwen3.5 modelleri, benchmark testlerinde OpenAI GPT-5-mini ve Claude Sonnet 4.5'i geride bırakıyor
- Quantization sonrasında da yüksek doğruluğu koruyor ve yerel GPU (32GB VRAM) ortamında 1 milyon tokenın üzerinde context window desteği sunuyor
- 4 bit ağırlık ve KV cache quantization sayesinde doğruluk kaybı olmadan büyük ölçekli veri işleme mümkün
- Hibrit mimari: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Toplam 35 milyar parametrenin yalnızca 300 milyonu etkinleşiyor
- MoE katmanları 256 uzmandan (8 yönlendirme + 1 paylaşımlı) oluşuyor
- 4 bit sıkıştırmada da doğruluk korunuyor, yerel dağıtımda bellek tasarrufu sağlanıyor
- Araştırma desteği için Qwen3.5-35B-A3B-Base modeli de ayrıca yayımlandı
Ürün yapısı ve özellikler
- Thinking Mode: Model, yanıt vermeden önce `` etiketiyle dahili akıl yürütme sürecini üretiyor
- Modellere göre öne çıkan özellikler
- Qwen3.5-27B: Verimlilik odaklı, 800 bin tokenın üzerinde context desteği
- Qwen3.5-Flash: Varsayılan olarak 1 milyon token context, resmi araçlar yerleşik
- Qwen3.5-122B-A10B: Sunucu sınıfı GPU'lar (80GB VRAM) için, 1 milyon+ context desteği
- Benchmark sonuçları: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini ve Sonnet 4.5'e kıyasla bilgi (MMMLU) ve görsel akıl yürütme (MMMU-Pro) başlıklarında daha iyi sonuç veriyor
Fiyatlandırma ve API entegrasyonu
- Qwen3.5-Flash API ücretleri
- Girdi: $0.1 / 1 milyon token
- Çıktı: $0.4 / 1 milyon token
- Cache oluşturma: $0.125 / 1 milyon token
- Cache okuma: $0.01 / 1 milyon token
- Araç çağırma tarifesi: Web Search $10/1.000 kullanım, Code Interpreter ücretsiz (geçici olarak)
- Başlıca LLM'lerle karşılaştırıldığında en ucuz API'lerden biri
- Örnek: Claude Sonnet 4.5 toplam $18/1 milyon token, GPT-5.2 $15.75, Qwen3.5-Flash ise $0.5
Kurumsal kullanım ve anlamı
- Qwen3.5-Medium'un yayımlanmasıyla büyük araştırma laboratuvarı düzeyinde model fine-tuning ve dağıtım artık sıradan şirketler için de mümkün hale geliyor
- On-premise ortamlarda büyük hacimli belge ve video analizi yapılabiliyor, veri gizliliği güçleniyor
- Mixture-of-Experts yapısı kurum içi güvenlik duvarı içinde çalıştırılarak veri egemenliği korunabiliyor
- Thinking Mode ve Tool Calling özellikleriyle otonom yapay zeka ajanları kurmak mümkün
- İlk kullanıcılar bunu “büyük kapalı modellerle aradaki farkı daralttı” diye değerlendiriyor
- Verimlilik odaklı tasarım, yapay zeka entegrasyonunda maliyet düşürme, güvenliği artırma ve operasyonel çeviklik kazanma imkanı sunuyor
4 yorum
RTX Pro 6000 (96GB, fiilen 94GB) sahibiyim ama 122B modeli
ollamaile yükleyemiyorum. Görsel bir model olduğu için sanırım içindeki vision transformer bölümünden kaynaklanıyor. GPT OSS 120b modeli ise gayet rahat yükleniyor.Aynen.. görsel encoder kullanıldığında 1B model bile 9G VRAM tüketiyordu.
Performans alabilmek için bunu CUDA tabanlı
llama.cppsunucusuyla çalıştırmanız gerekiyor.Hacker News görüşleri
Açık kaynak modellerin çoğu esasen benchmark optimizasyon oyunu oynuyor
Yeni çıkan her model birkaç ay önceki SOTA seviyesinde diye pazarlanıyor ama gerçekten kullanınca çoğu zaman hayal kırıklığı yaratıyor
Qwen3-Coder-Next ve Qwen3.5’i denedim; Sonnet 4.5 seviyesine ulaşmıyorlar
Yine de hedefleri net verir ve testlerle kısıt koyarsanız inatla denemeye devam edip sonunda problemi çözebiliyor
Buna rağmen açık kaynak model olarak etkileyici ve self-hosted ortamda bunun mümkün olması şaşırtıcı
Ama Sonnet 4.5 seviyesinde olduğu yönündeki abartılı pazarlamaya inanmamak gerek
Özellikle StepFun-3.5-flash, karmaşık Rust kod tabanlarında bile çok iyi çalışıyor
StepFun ile hiçbir bağlantım yok ama 196B/11B yapısıyla bu performansı çıkaran ekibe büyük saygı duyuyorum
Modelleri birbirine karşı yarıştıran GertLabs benchmark’ı manipüle edilmesi zor olduğu için oldukça güvenilir görünüyor
Hatta bulut modelleri çalışma anını bile ayarlayabildiği için daha da ileri gidebilir
Önceden neredeyse kullanılamaz durumdaydı ama bu kez gerçekten şaşırtıcı
Standart problemlerden farklı testlerse aşırı optimizasyona da daha dayanıklı olabilir
MBP M3 Max 128G üzerinde yerel modeller çalıştırıp performans karşılaştırması yapıyorum
Opus 4.6 ve Gemini Pro hızlı ve doğruydu ama qwen3.5:35b-a3b 45 dakika boyunca çalışıp hatalı cevap verdi
Fan sesi o kadar yüksekti ki uçak kalkışı gibiydi
Bu kadar yavaş bir modelle büyük kod tabanları üzerinde çalışmanın mümkün olup olmadığından emin değilim
Çünkü bulut modelleri 1T’den fazla parametre ve milyonlarca dolarlık GPU’larla çalışıyor
Yerelde kodlama için gerçekçi seviye daha çok “Android uygulaması boilerplate üretimi” gibi şeyler
Yerel modeller hâlâ iki nesil gerideki performans seviyesinde; Sonnet 4.5 dense bile Opus 4.6 ile arasında büyük fark var
Oysa dar bir probleme özel küçük bir model daha iyi çalışabilir
Bizim ekip yalnızca kodlamaya odaklanan küçük bir modeli M2 16GB’de çalıştırıyor ve Sonnet 4.5’ten daha iyi olduğunu düşünüyor
Yakında rig.ai beta sürümünü yayımlayacağız
Sunucularda bile fan hızını %100’e sabitlemek GPU performansını %30 artırıyor
Yerel modeller hafif işler için uygun; ağır işleri bulutta çalıştırmak daha verimli
Uzun bir sistem prompt’u ya da dosya içeriği verildiğinde çok daha verimli olduğuna dair raporlar var
M1 MacBook Pro üzerinde llama.cpp, OpenCode ve Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M quantization) kurulumu için bir rehber yazdım
Kurulum epey zahmetliydi ama en yeni modellere de uygulanabiliyor
Kurulum rehberi bağlantısı
MoE yapısı sayesinde çıkarım hızı da yüksek
Q4_K_M quantization seçtim ama bunun en iyi tercih olup olmadığını merak ediyorum
LLM iç yapısını öğrenmeye yeni başladım ve float32’nin ne kadar cömert bir hassasiyet sunduğunu fark ettim
Blog yazıları üzerinden quantization öğrendim ve Claude’dan 1~8 bit quantization’ın doğruluğunu analiz etmesini istedim
4 bit, %99 benzerlikle neredeyse kayıpsız görünürken 8 bitin yarı boyutunda olduğu için sweet spot gibi duruyordu
Gerçek uzmanların da 4 bit kullanıyor olması ilginç
GPT-OSS modeli MXFP4 formatında eğitildi
OCP standardizasyon belgesi, MX formatı spesifikasyonu
İşlemler çok hızlı ve cache verimliliği yüksek olduğu için araştırmaya değer
Sistem fazla kara kutu olduğu için sezgisel olarak anlamak zor
Qwen3.5 122B’yi LM Studio ve Opencode ile çalıştırdım; oldukça etkileyiciydi
M4 Max/128GB ortamında bile yavaş değildi ve Claude Code düzeyinde kod analiz yeteneği gösterdi
Tamamen yerel bir alternatifin bu kadar ilerlemiş olması şaşırtıcı
Açık modeller giderek daha iyi oluyor ama henüz Sonnet 4.5 seviyesinde değiller
Dar alanlarda harikalar ama belirsiz problemleri çözmekte zayıflar
Qwen 3.5 şimdiye kadar kullandığım OSS modeller arasında en iyisiydi ve giderek gerçek zekâ belirtileri göstermeye başlıyor
RTX 6000 Pro üzerinde ücretsiz çalıştırıyorum ama Composer 1.5’i daha sık kullanıyorum
Yine de yıl bitmeden yerelde GPT 5.2 seviyesinde bir model çıkmasını bekliyorum
Abartılı iddialar çok fazla
Gerçekten deneyen kişi az ve çoğu zaman gerçekçi ölçütler eksik kalıyor
Eskiden hep “birkaç K token’dan fazlasını kullanamaz” gibi notlar eklenirdi
Diğer modeller ya stack implementasyonunu yanlış yaptı ya da UI berbat oldu
Claude Sonnet 4.6 da bu problemi düzgün çözdü ama onun dışındakiler neredeyse tamamen başarısızdı
Önceden modeller hep pandas kodu halüsinasyonu görürdü; bu büyük bir ilerleme
SWE grafiğinde Claude’un olmaması göze çarpıyor
Bu, verilerin kasıtlı olarak çarpıtıldığı izlenimi veriyor
Sadece bu tavır bile güven kaybına yol açıyor
Yerelde bizzat çalıştırabileceğim günü sabırsızlıkla bekliyorum
ABD merkezli servislere bağımlılığı azaltmak istiyorum
Avrupa’da açık modelleri test edebileceğiniz bir servis olup olmadığını merak ediyorum