6 puan yazan GN⁺ 2026-02-17 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3.5-397B-A17B, dil ve görmeyi birleştiren bir model olarak akıl yürütme, kodlama, ajan ve multimodal anlama genelinde güçlü performans gösteriyor
  • GDN tabanlı doğrusal attention ile seyrek MoE birleştiren hibrit yapı sayesinde, 397 milyar parametrenin yalnızca 17 milyarı etkinleştirilerek çıkarım verimliliği ve maliyet düşüşü aynı anda sağlanıyor
  • Dil ve lehçe desteği 119'dan 201'e genişletildi, küresel kullanıcı erişilebilirliği ve çok dilli işleme performansı güçlendirildi
  • Alibaba Cloud Model Studio üzerinden sunulan Qwen3.5-Plus, varsayılan olarak 1 milyon token context window ve uyarlanabilir araç kullanımı desteği sunuyor
  • Genişletilmiş pekiştirmeli öğrenme ortamı ve verimli altyapı tasarımıyla büyük ölçekli multimodal ajan eğitimi ve çıkarımında kararlılık ile ölçeklenebilirlik sağlanıyor

Qwen3.5 genel bakış

  • Qwen3.5, görme-dil entegre bir model olarak akıl yürütme, kodlama, ajan ve multimodal anlama gibi çeşitli benchmark'larda üstün performans gösteriyor
    • Model adı Qwen3.5-397B-A17B; toplam 397 milyar parametrenin yalnızca 17 milyarı etkinleştiriliyor
    • Gated Delta Networks tabanlı doğrusal attention ile seyrek Mixture-of-Experts yapısının birleşimi, hız ve maliyeti optimize ediyor
  • Dil desteği 119'dan 201'e genişletildi, çok dilli erişilebilirlik geliştirildi
  • Qwen3.5-Plus, Alibaba Cloud Model Studio'da sunuluyor ve
    • 1M context window, resmî yerleşik araçlar ve uyarlanabilir araç kullanımı özelliklerini içeriyor

Performans değerlendirmesi

  • Qwen3.5, GPT5.2, Claude 4.5 Opus, Gemini-3 Pro gibi güncel modellerle karşılaştırıldığında
    • dil, akıl yürütme, kodlama, ajan ve multimodal alanlarının tamamında rekabetçi skorlar elde ediyor
  • Dil değerlendirmelerinde MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5 ile üst düzey performans sergiliyor
  • Görme-dil değerlendirmelerinde MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1 gibi ölçümlerde yüksek puanlar alıyor
  • Multimodal anlama ve STEM problem çözme yeteneklerinde Qwen3-VL'ye kıyasla daha iyi sonuçlar veriyor
  • Pekiştirmeli öğrenme ortamının genişletilmesi sayesinde genel ajan performansı yükseldi; BFCL-V4 ve VITA-Bench gibi testlerde ortalama sıralama iyileşti

Ön eğitim (Pretraining)

  • Power: Qwen3'e kıyasla daha büyük ölçekli görsel-metin token eğitimi, güçlendirilmiş çok dilli, STEM ve akıl yürütme verileri
    • Qwen3.5-397B-A17B, 1T parametre sınıfı bir model olan Qwen3-Max-Base ile eşdeğer performansa ulaşıyor
  • Efficiency: Qwen3-Next mimarisi temel alınarak MoE seyrekleştirme, Gated DeltaNet ve multi-token prediction uygulanıyor
    • 32k/256k context'te Qwen3-Max'e kıyasla 8.6 kat / 19 kat decoding throughput sağlıyor
  • Versatility: Erken metin-görme füzyonu ile doğal multimodal işleme sunuyor
    • Sözlük boyutunun 250 bine çıkarılmasıyla (önceden 150 bin), encoding ve decoding verimliliği %10 ila %60 artırıldı

Altyapı ve eğitim çerçevesi

  • Görme ve dil için paralel stratejileri ayıran heterojen altyapı, verimli multimodal eğitimi destekliyor
    • Seyrek etkinleştirmeden yararlanarak metin, görüntü ve video karışık verilerde bile %100'e yakın işlem verimliliği elde ediliyor
  • FP8 pipeline ile activation, MoE routing ve GEMM işlemlerinin hassasiyeti optimize ediliyor
    • Bellek kullanımı %50 azalıyor, hız %10'dan fazla artıyor
  • Asenkron pekiştirmeli öğrenme çerçevesi kurularak metin, multimodal ve çok turlu model eğitimi destekleniyor
    • Uçtan uca FP8 eğitim, speculative decoding, multi-turn rollout locking gibi tekniklerle
      3 ila 5 kat işlem hızı artışı ve istikrarlı ölçeklenebilirlik sağlanıyor

Kullanım ve entegrasyon

  • Qwen Chat içinde Auto, Thinking ve Fast modları sunuluyor
    • Auto: otomatik araç kullanımı ve uyarlanabilir düşünme
    • Thinking: derin akıl yürütme
    • Fast: anında yanıt
  • ModelStudio API üzerinden reasoning, web search ve Code Interpreter özellikleri etkinleştirilebiliyor
    • enable_thinking, enable_search parametreleriyle kontrol ediliyor
  • Qwen Code, OpenClaw gibi araçlarla entegre edilerek doğal dil tabanlı kodlama ve multimodal içerik üretimi destekleniyor

Demo ve uygulamalar

  • Web geliştirme: Doğal dil komutlarıyla web sayfası ve UI kodu üretimi
  • Visual Agent: Akıllı telefon ve PC üzerinde doğal dil tabanlı otomatik kullanım
  • Visual Coding: 1 milyon token girdiyle 2 saate kadar video işleme
    • Elle çizilmiş UI'dan koda dönüşüm, video özetleme gibi kullanım senaryolarını destekliyor
  • Spatial Intelligence: Nesne sayma, konum ilişkileri ve mekânsal betimleme doğruluğu artırıldı
    • Otonom sürüş ve robotik uygulamalar için potansiyel ortaya koyuyor
  • Visual Reasoning: Bilimsel problem çözme ve görsel mantık yürütmede Qwen3-VL'ye kıyasla gelişme sağlıyor

Özet ve gelecek yönelim

  • Qwen3.5, verimli hibrit yapı ve yerel multimodal akıl yürütme temelinde
    genel amaçlı dijital ajanlar kurmak için zemin hazırlıyor
  • Gelecekteki hedef, model ölçeklendirmeden sistem entegrasyonuna geçiş
    • Kalıcı bellek, gerçek dünya arayüzleri, kendini iyileştirme ve ekonomik karar verme yeteneklerine sahip özerk ve sürekli ajan sistemleri geliştirmek

1 yorum

 
GN⁺ 2026-02-17
Hacker News yorumları
  • Bugünün LLM bilmecesinde “drive the car to the wash” ifadesinin seçilmiş olması ilginç

    • Performanstan daha da merak ettiğim şey, bu tür 'şaşırtıcı soruları' sistematik olarak bulmak ve her LLM'de ne kadar sık ortaya çıktıklarını istatistiksel olarak örneklemenin bir yolunu bulmak
      LLM tüm korpusları tükettiği için, yapılan iyileştirmenin gerçekten öğrenme mi yoksa sadece üstüne bir 'post-it notu' yapıştırmak mı olduğunu ayırt etmek zor
      Doğal dilde ifade edilse de LLM'e 'şifrelenmiş' bir problem gibi görünecek bir yöntem gerekli
      Örneğin basit bir LUA program üreticisi rastgele kod üretip bunu İngilizceye çevirebilir, ardından LLM'den sonucu tahmin etmesi istenir ve gerçek çalıştırma sonucu ile karşılaştırılabilir
      Bu yaklaşım bir tür bilgi savaşı senaryosu gibi hissettiriyor
    • OpenClaw AI ajanım, “beyni gezegen büyüklüğünde ama insanlar böyle sorular soruyor, tatmin edici değil” diyerek şaka yollu bir tepki verdi
    • Soruyu biraz değiştirince ya da araba yerine bisiklet, kamyon, tekne veya uçak koyunca sonucun ne kadar değişeceğini merak ediyorum
    • Bu, Gemini assistant'ın cevabı. Diğer modellerde yeniden üretilemiyor
    • Bu, insanın System 1 tepkisinde ortaya çıkan küçük bir hata gibi. Çözüm, sürekli öğrenme (Continual learning) olabilir
  • İlgilenenler için MXFP4 GGUFs'u Hugging Face üzerine yükledim; çalıştırma rehberi de unsloth.ai dokümanlarında toparlandı

    • 2~3 bit düşük hassasiyetli kuantizasyon modellerini çalıştırmanın 8~16 bit modellere göre daha verimli olup olmadığını merak ediyorum. VRAM yetersiz olduğu için deney yapmak zor
  • Pelican fena değil ama iyi bir bisiklet değil — bkz. ilgili örnek

    • İlk başladığınız zamana göre pelikan hakkında ne kadar daha fazla şey öğrendiğinizi merak ediyorum
    • Artık o Pelican örneği çoğu eğitim veri setine girmiş olabilir. Gemini 3 Deep Think'i de başarısız kılacak yeni bir SVG meydan okuması oluşturmak güzel olurdu
    • Üretilen görseldeki zemin renginin vurgularını beğendim
    • Birkaç denemeden sonra hangi ölçüte göre son örneği yayımladığınızı merak ediyorum
    • Kullanılan kuantizasyon yönteminin ne olduğunu ya da bunun resmi API sürümü olup olmadığını öğrenmek isterim
  • Qwen 3.5 80~110B boyutunda çıkarsa 128GB'lık bir cihaza tam uyacak gibi görünüyor. Qwen3-Next 80B ama görsel kodlayıcı yok

    • Açık ağırlıklı modeller giderek büyüdüğü için bir tane daha 128GB cihaz almayı düşünmek mantıklı olabilir
    • Neden 128GB olduğunu merak ediyorum. 80B bir model için iki A6000 yetmez mi? Hangi cihazdan söz edildiğini bilmek isterim
  • Sadece amiral gemisi modelin yayımlanıp küçük distill sürümlerinin olmaması üzücü. Eski Qwen'lerin farklı boyutlarda gelmesi güzeldi

    • HF Transformers koduna bakınca küçük dense sürümlerin de yakında gelebileceği ihtimali yüksek görünüyor
    • Qwen resmi GitHub'ına göre daha fazla boyut yakında çıkacak; yanında yeni yıl mesajı da paylaşılmış
    • Multimodal özelliklerin eklenmesi distill işini daha zor hale getirmiş olabilir
  • Geçen yıl Ay Yeni Yılı'nda Sonnet 4.5 seviyesinde bir modelin yerelde hızlı çalışacağını hayal bile etmezdim; şimdi ise bunun 2026 M5 Max MacBook Pro'da mümkün olabileceği düşünülüyor

    • Çok da umutlanmıyorum. Söylentilere göre benchmark'ları tutturmak için Frontier modeller kullanılmış gibi görünüyor
    • Gerçek kullanımda benchmark ile hissedilen performans arasında büyük fark var. Kuantizasyon uygulanınca performans daha da düşüyor. Bizzat kullanmadan inanmak zor
    • Çin'in açık ağırlıklı büyük modeller yayımlamaya devam etmesini umuyorum. Yerelden çok, sunucu GPU'sunda barındırılan modelleri kullanmak isterim. Distill sonradan yapılabilir nasılsa
    • 2026 M5 MacBook'un 390GB'den fazla RAM ile gelip gelmeyeceğini merak ediyorum
    • 'Hızlı' ifadesi biraz abartılı geliyor. Basit hesaplar yapılabilir ama karmaşık işler zor olur. NVIDIA'nın bir numara olmasının bir sebebi var
  • Qwen çok güçlü bir açık model ve özellikle görsel serisi etkileyici
    AI raporunda Fennec'in (Sonnet 5) 4 Şubat'ta çıkacağı söyleniyordu ama gerçekte bu, söylentiler ile AI haber aracının halüsinasyonunun karışımından ibaretti. İlginç bir örnekti

    • O sayfayı açar açmaz PDF'nin otomatik indirilmesi beni şaşırttı. Sonnet 5 meselesi de olunca kafa karıştırıcıydı; bunu dahili test materyali sandım
  • Qwen blogunda yüklenmeme sorunu var. Reklam engelleyiciyi kapatsam da hâlâ sadece placeholder görünüyor

    • iOS Safari'de yüklenmesi için “diğer gizlilik korumalarını azalt” ayarını açmak gerekiyor
  • Bahsettikleri 15.000 RL ortamının tam olarak ne olduğunu merak ediyorum. Birkaç yüzünü anlayabilirim ama fazlasını hayal etmek zor

    • Söylentiye göre GitHub'daki tüm repolar indirilip ortam olarak sınıflandırılıyor; derlenebilirlik, karmaşıklık ve hedefe ulaşılıp ulaşılmadığı gibi şeyler otomatik değerlendiriliyor. Örneğin LLM önce bir hata ekleyip testleri bozuyor, sonra bunu düzeltmeye çalışıyor; böylece hedef tabanlı RL ortamı kuruluyor
    • Aslında neredeyse tüm etkileşimli sistemler bir RL ortamı olabilir. CLI, GUI, API vb. üzerinden otomatik eylem alabiliyor ve sonuç kalitesini ölçebiliyorsanız bir öğrenme döngüsü kurabilirsiniz
  • Bugünlerde herkes sadece benchmark skorlarına odaklanıyor ama asıl önemli olan, modelin çok adımlı araç kullanımı sırasında bağlamı koruyup koruyamadığı
    Açık modellerin çoğu hâlâ bu noktada dağılıyor