22 puan yazan GN⁺ 2026-03-02 | 4 yorum | WhatsApp'ta paylaş
  • Qwen3.5 serisi, 35B, 122B, 27B ve bir ek model olmak üzere dört büyük dil modelinden oluşuyor; bunların üçü Apache 2.0 açık kaynak lisansı ile yayımlandı
  • Benchmark sonuçlarında OpenAI GPT-5-mini ve Anthropic Claude Sonnet 4.5'i geride bırakıyor; ayrıca yerel GPU ortamlarında da yüksek performansla çalışabiliyor
  • 4 bit quantization ile doğruluğu neredeyse korurken 1 milyon tokenın üzerinde context window desteği sunuyor; böylece masaüstü GPU'larda da büyük ölçekli veri işlenebiliyor
  • Gated Delta Networks ile Mixture-of-Experts (MoE) yapısını birleştirerek verimliliği artırıyor; ayrıca 'Thinking Mode' ile dahili akıl yürütme sürecinden sonra yanıt üretiyor
  • Şirketler böylece gizlilik odaklı on-premise yapay zeka sistemleri kurabiliyor ve yüksek maliyetli bulut bağımlılığı olmadan otonom ajan geliştirme gerçekleştirebiliyor

Qwen3.5-Medium modeline genel bakış

  • Alibaba'nın Qwen AI ekibinin yayımladığı Qwen3.5-Medium serisi, ajan tabanlı araç çağırma (agentic tool calling) desteği sunan dört LLM'den oluşuyor
    • Açık modeller: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
    • Kapalı model: Qwen3.5-Flash (yalnızca Alibaba Cloud Model Studio API için)
  • Üç açık kaynak model Hugging Face ve ModelScope üzerinden indirilebiliyor
  • Qwen3.5-Flash ticari API olarak sunuluyor ve Batılı modellere kıyasla daha düşük işletim maliyeti sağlıyor

Performans ve teknik yapı

  • Qwen3.5 modelleri, benchmark testlerinde OpenAI GPT-5-mini ve Claude Sonnet 4.5'i geride bırakıyor
  • Quantization sonrasında da yüksek doğruluğu koruyor ve yerel GPU (32GB VRAM) ortamında 1 milyon tokenın üzerinde context window desteği sunuyor
  • 4 bit ağırlık ve KV cache quantization sayesinde doğruluk kaybı olmadan büyük ölçekli veri işleme mümkün
  • Hibrit mimari: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
    • Toplam 35 milyar parametrenin yalnızca 300 milyonu etkinleşiyor
    • MoE katmanları 256 uzmandan (8 yönlendirme + 1 paylaşımlı) oluşuyor
    • 4 bit sıkıştırmada da doğruluk korunuyor, yerel dağıtımda bellek tasarrufu sağlanıyor
  • Araştırma desteği için Qwen3.5-35B-A3B-Base modeli de ayrıca yayımlandı

Ürün yapısı ve özellikler

  • Thinking Mode: Model, yanıt vermeden önce `` etiketiyle dahili akıl yürütme sürecini üretiyor
  • Modellere göre öne çıkan özellikler
    • Qwen3.5-27B: Verimlilik odaklı, 800 bin tokenın üzerinde context desteği
    • Qwen3.5-Flash: Varsayılan olarak 1 milyon token context, resmi araçlar yerleşik
    • Qwen3.5-122B-A10B: Sunucu sınıfı GPU'lar (80GB VRAM) için, 1 milyon+ context desteği
  • Benchmark sonuçları: Qwen3.5-35B-A3B, Qwen3-235B, GPT-5-mini ve Sonnet 4.5'e kıyasla bilgi (MMMLU) ve görsel akıl yürütme (MMMU-Pro) başlıklarında daha iyi sonuç veriyor

Fiyatlandırma ve API entegrasyonu

  • Qwen3.5-Flash API ücretleri
    • Girdi: $0.1 / 1 milyon token
    • Çıktı: $0.4 / 1 milyon token
    • Cache oluşturma: $0.125 / 1 milyon token
    • Cache okuma: $0.01 / 1 milyon token
  • Araç çağırma tarifesi: Web Search $10/1.000 kullanım, Code Interpreter ücretsiz (geçici olarak)
  • Başlıca LLM'lerle karşılaştırıldığında en ucuz API'lerden biri
    • Örnek: Claude Sonnet 4.5 toplam $18/1 milyon token, GPT-5.2 $15.75, Qwen3.5-Flash ise $0.5

Kurumsal kullanım ve anlamı

  • Qwen3.5-Medium'un yayımlanmasıyla büyük araştırma laboratuvarı düzeyinde model fine-tuning ve dağıtım artık sıradan şirketler için de mümkün hale geliyor
  • On-premise ortamlarda büyük hacimli belge ve video analizi yapılabiliyor, veri gizliliği güçleniyor
  • Mixture-of-Experts yapısı kurum içi güvenlik duvarı içinde çalıştırılarak veri egemenliği korunabiliyor
  • Thinking Mode ve Tool Calling özellikleriyle otonom yapay zeka ajanları kurmak mümkün
  • İlk kullanıcılar bunu “büyük kapalı modellerle aradaki farkı daralttı” diye değerlendiriyor
  • Verimlilik odaklı tasarım, yapay zeka entegrasyonunda maliyet düşürme, güvenliği artırma ve operasyonel çeviklik kazanma imkanı sunuyor

4 yorum

 
chcv0313 2026-03-02

RTX Pro 6000 (96GB, fiilen 94GB) sahibiyim ama 122B modeli ollama ile yükleyemiyorum. Görsel bir model olduğu için sanırım içindeki vision transformer bölümünden kaynaklanıyor. GPT OSS 120b modeli ise gayet rahat yükleniyor.

 
ng0301 2026-03-02

Aynen.. görsel encoder kullanıldığında 1B model bile 9G VRAM tüketiyordu.

 
kensin2 2026-03-02

Performans alabilmek için bunu CUDA tabanlı llama.cpp sunucusuyla çalıştırmanız gerekiyor.

 
GN⁺ 2026-03-02
Hacker News görüşleri
  • Açık kaynak modellerin çoğu esasen benchmark optimizasyon oyunu oynuyor
    Yeni çıkan her model birkaç ay önceki SOTA seviyesinde diye pazarlanıyor ama gerçekten kullanınca çoğu zaman hayal kırıklığı yaratıyor
    Qwen3-Coder-Next ve Qwen3.5’i denedim; Sonnet 4.5 seviyesine ulaşmıyorlar
    Yine de hedefleri net verir ve testlerle kısıt koyarsanız inatla denemeye devam edip sonunda problemi çözebiliyor
    Buna rağmen açık kaynak model olarak etkileyici ve self-hosted ortamda bunun mümkün olması şaşırtıcı
    Ama Sonnet 4.5 seviyesinde olduğu yönündeki abartılı pazarlamaya inanmamak gerek

    • Benim deneyimime göre bazı açık kaynak modeller gerçekten güçlü ve pratik
      Özellikle StepFun-3.5-flash, karmaşık Rust kod tabanlarında bile çok iyi çalışıyor
      StepFun ile hiçbir bağlantım yok ama 196B/11B yapısıyla bu performansı çıkaran ekibe büyük saygı duyuyorum
    • “Geçen nesil” modeller hâlâ açık kaynaktan daha iyi, ama GLM-5 gibi modeller örüntü eşleştirme becerisini iyi yakalamış gibi görünüyor
      Modelleri birbirine karşı yarıştıran GertLabs benchmark’ı manipüle edilmesi zor olduğu için oldukça güvenilir görünüyor
    • Aslında bu benchmark optimizasyonu tüm modellerin yaptığı bir şey
      Hatta bulut modelleri çalışma anını bile ayarlayabildiği için daha da ileri gidebilir
    • Qwen 3.5 27B’yi 4090’da çalıştırıyorum ve yerel bir modelde bu kadar iyi kodlama performansı ilk kez görüyorum
      Önceden neredeyse kullanılamaz durumdaydı ama bu kez gerçekten şaşırtıcı
    • Güncel bir çevrimdışı/özel kodlama benchmark’ı var mı diye merak ediyordum; Apex Testing oldukça iyi görünüyor
      Standart problemlerden farklı testlerse aşırı optimizasyona da daha dayanıklı olabilir
  • MBP M3 Max 128G üzerinde yerel modeller çalıştırıp performans karşılaştırması yapıyorum
    Opus 4.6 ve Gemini Pro hızlı ve doğruydu ama qwen3.5:35b-a3b 45 dakika boyunca çalışıp hatalı cevap verdi
    Fan sesi o kadar yüksekti ki uçak kalkışı gibiydi
    Bu kadar yavaş bir modelle büyük kod tabanları üzerinde çalışmanın mümkün olup olmadığından emin değilim

    • Aslında 100B parametreli bir açık modeli dizüstünde çalıştırmanın doğal sınırları var
      Çünkü bulut modelleri 1T’den fazla parametre ve milyonlarca dolarlık GPU’larla çalışıyor
      Yerelde kodlama için gerçekçi seviye daha çok “Android uygulaması boilerplate üretimi” gibi şeyler
    • Opus ve Gemini milyonlarca dolarlık H200 sınıfı GPU’larda çalışıyor
      Yerel modeller hâlâ iki nesil gerideki performans seviyesinde; Sonnet 4.5 dense bile Opus 4.6 ile arasında büyük fark var
    • Sektör “büyük model her zaman daha iyidir” şeklinde mantıksal bir yanılgıya kapılmış durumda
      Oysa dar bir probleme özel küçük bir model daha iyi çalışabilir
      Bizim ekip yalnızca kodlamaya odaklanan küçük bir modeli M2 16GB’de çalıştırıyor ve Sonnet 4.5’ten daha iyi olduğunu düşünüyor
      Yakında rig.ai beta sürümünü yayımlayacağız
    • MacBook’larda ısı kısıtları çok ciddi olduğu için uzun süreli işler için uygun değiller
      Sunucularda bile fan hızını %100’e sabitlemek GPU performansını %30 artırıyor
      Yerel modeller hafif işler için uygun; ağır işleri bulutta çalıştırmak daha verimli
    • qwen3.5-35b-a3b, bağlam kısa olduğunda akıl yürütmeye çok zaman harcama eğiliminde
      Uzun bir sistem prompt’u ya da dosya içeriği verildiğinde çok daha verimli olduğuna dair raporlar var
  • M1 MacBook Pro üzerinde llama.cpp, OpenCode ve Qwen3-Coder-30B-A3B-Instruct(GGUF, Q4_K_M quantization) kurulumu için bir rehber yazdım
    Kurulum epey zahmetliydi ama en yeni modellere de uygulanabiliyor
    Kurulum rehberi bağlantısı

    • LM Studio kullanırsanız tek arama ve tıklamayla kurulum yapılabiliyor ve OpenAI uyumlu API olarak sunuluyor
    • Aynı kurulumu Ryzen 32GB masaüstünde de yaptım; en etkileyici olan Qwen’di
      MoE yapısı sayesinde çıkarım hızı da yüksek
      Q4_K_M quantization seçtim ama bunun en iyi tercih olup olmadığını merak ediyorum
    • 16GB RAM’de de işe yarar yerel modeller çıkmasını bekliyorum
    • M1’deki çalışma hızının ne kadar olduğunu merak ediyorum
  • LLM iç yapısını öğrenmeye yeni başladım ve float32’nin ne kadar cömert bir hassasiyet sunduğunu fark ettim
    Blog yazıları üzerinden quantization öğrendim ve Claude’dan 1~8 bit quantization’ın doğruluğunu analiz etmesini istedim
    4 bit, %99 benzerlikle neredeyse kayıpsız görünürken 8 bitin yarı boyutunda olduğu için sweet spot gibi duruyordu
    Gerçek uzmanların da 4 bit kullanıyor olması ilginç

    • En yeni NVIDIA donanımlarında 4 bit eğitim de destekleniyor
      GPT-OSS modeli MXFP4 formatında eğitildi
      OCP standardizasyon belgesi, MX formatı spesifikasyonu
    • Üçlü (ternary) modeller üzerine araştırmalar da ilginç
      İşlemler çok hızlı ve cache verimliliği yüksek olduğu için araştırmaya değer
    • Bu konuda daha fazla öğrenmek istiyorum; önerilebilecek kaynaklar var mı?
    • %1’lik doğruluk farkının pratikte nasıl bir bilişsel etki yarattığını kestiremiyorum
      Sistem fazla kara kutu olduğu için sezgisel olarak anlamak zor
  • Qwen3.5 122B’yi LM Studio ve Opencode ile çalıştırdım; oldukça etkileyiciydi
    M4 Max/128GB ortamında bile yavaş değildi ve Claude Code düzeyinde kod analiz yeteneği gösterdi
    Tamamen yerel bir alternatifin bu kadar ilerlemiş olması şaşırtıcı

  • Açık modeller giderek daha iyi oluyor ama henüz Sonnet 4.5 seviyesinde değiller
    Dar alanlarda harikalar ama belirsiz problemleri çözmekte zayıflar
    Qwen 3.5 şimdiye kadar kullandığım OSS modeller arasında en iyisiydi ve giderek gerçek zekâ belirtileri göstermeye başlıyor
    RTX 6000 Pro üzerinde ücretsiz çalıştırıyorum ama Composer 1.5’i daha sık kullanıyorum
    Yine de yıl bitmeden yerelde GPT 5.2 seviyesinde bir model çıkmasını bekliyorum

  • Abartılı iddialar çok fazla
    Gerçekten deneyen kişi az ve çoğu zaman gerçekçi ölçütler eksik kalıyor
    Eskiden hep “birkaç K token’dan fazlasını kullanamaz” gibi notlar eklenirdi

    • Qwen 3.5 122B/a10B(q3, unsloth dynamic quant) ile bir RPN hesap makinesi web uygulaması yaptım; yerel modeller arasında ilk kez tamamen çalıştı
      Diğer modeller ya stack implementasyonunu yanlış yaptı ya da UI berbat oldu
      Claude Sonnet 4.6 da bu problemi düzgün çözdü ama onun dışındakiler neredeyse tamamen başarısızdı
    • Qwen3-Coder-30B-A3B-Instruct, IDE entegrasyonu veya küçük fonksiyon bazlı işler için iyi ama büyük ölçekli özellik geliştirme konusunda sınırları var
    • 35B modelle Polars tabanlı PCA implementasyonunu 10 dakikada tamamladım
      Önceden modeller hep pandas kodu halüsinasyonu görürdü; bu büyük bir ilerleme
  • SWE grafiğinde Claude’un olmaması göze çarpıyor
    Bu, verilerin kasıtlı olarak çarpıtıldığı izlenimi veriyor
    Sadece bu tavır bile güven kaybına yol açıyor

  • Yerelde bizzat çalıştırabileceğim günü sabırsızlıkla bekliyorum
    ABD merkezli servislere bağımlılığı azaltmak istiyorum

  • Avrupa’da açık modelleri test edebileceğiniz bir servis olup olmadığını merak ediyorum

    • Koyeb, Mistral tarafından satın alındıktan sonra GPU’ları dakikalık kiralama ile sunuyor ve tek tıkla model dağıtımı da mümkün kılıyor