33 puan yazan GN⁺ 2026-03-09 | 2 yorum | WhatsApp'ta paylaş
  • Alibaba'nın Qwen3.5 model ailesi, 0.8B'den 397B'ye kadar farklı boyutlar sunuyor ve çok modlu hibrit akıl yürütme ile 256K bağlamı destekliyor
  • Unsloth, tüm Qwen3.5 modellerini Dynamic 2.0 GGUF kuantizasyonu ile sunuyor; modeller llama.cpp veya LM Studio üzerinden yerelde çalıştırılabiliyor
  • Thinking modu ile non-thinking modu arasında geçiş yapılabiliyor; küçük modellerde (0.8B~9B) varsayılan olarak non-thinking modu açık
  • Her model için gerekli RAM/VRAM kapasitesi ve önerilen ayar değerleri (temperature, top_p vb.) belirtilmiş; 22GB Mac ortamında bile 27B ve 35B modeller çalıştırılabiliyor
  • Unsloth GGUF, geliştirilmiş kuantizasyon algoritması ve imatrix verisi kullanarak performansı artırıyor; ancak Ollama ile uyumlu değil

Qwen3.5 genel bakış

  • Qwen3.5, Alibaba'nın yayımladığı yeni LLM serisi; 0.8B, 2B, 4B, 9B (küçük) ile 27B, 35B, 122B, 397B (büyük) modelleri kapsıyor
    • Çok modlu hibrit akıl yürütmeyi destekliyor; 201 dili ve 256K bağlam uzunluğunu işleyebiliyor
    • Ajan tabanlı kodlama, görsel, sohbet ve uzun bağlamlı işler için yüksek performans gösteriyor
  • 35B ve 27B modelleri, 22GB RAM bulunan Mac sistemlerde de çalışabiliyor
  • Tüm GGUF dosyaları iyileştirilmiş kuantizasyon algoritmaları ve yeni imatrix verisi kullanıyor
    • Sohbet, kodlama, uzun bağlam ve araç çağırma (tool-calling) performansını artırıyor
    • MXFP4 katmanları bazı GGUF sürümlerinden (Q2_K_XL, Q3_K_XL, Q4_K_XL) kaldırıldı

Donanım gereksinimleri

  • Tabloda model boyutuna göre minimum bellek gereksinimleri belirtiliyor
    • Örnek: 0.8B~2B modeller için 3GB, 9B için 5.5GB (3-bit), 35B-A3B için 17GB gerekiyor
    • 397B-A17B için 3-bit'te 180GB, 4-bit'te 214GB gerekiyor
  • En iyi performans için toplam bellek (RAM+VRAM) model dosyası boyutundan büyük olmalı
    • Yetersiz kalırsa SSD/HDD offloading ile çalıştırmak mümkün, ancak hız düşer
  • 27B doğruluk öncelikli, 35B-A3B ise hız öncelikli seçim olarak öneriliyor

Önerilen ayar değerleri

  • Maksimum bağlam penceresi: 262,144 (YaRN ile 1M'e kadar genişletilebilir)
  • presence_penalty: 0.0~2.0 (tekrarı azaltmak için; yükseldikçe performans hafif düşebilir)
  • Çıktı uzunluğu: 32,768 token öneriliyor
  • Thinking modu ile non-thinking modu için ayarlar farklı
    • Thinking modu: genel işler için temperature=1.0, kodlama için 0.6
    • Non-thinking modu: genel işler için temperature=0.7, akıl yürütme işleri için 1.0
  • Küçük modellerde (0.8B~9B) varsayılan olarak reasoning kapalı
    • Etkinleştirmek için --chat-template-kwargs '{"enable_thinking":true}' kullanılıyor

Çalıştırma ve çıkarım eğitimi

  • Tüm modeller Dynamic 4-bit MXFP4_MOE GGUF sürümüyle sunuluyor
  • llama.cpp ile yerel çıkarım adımları
    • GitHub'dan en son sürümü kurduktan sonra GPU/CPU seçimi için -DGGML_CUDA seçeneği kullanılıyor
    • Hugging Face'ten model indiriliyor (hf download unsloth/Qwen3.5-XXB-GGUF)
    • llama-cli veya llama-server komutlarıyla çalıştırılıyor
  • LM Studio ile de çalıştırılabiliyor
    • Model aranıp GGUF indiriliyor, ardından YAML dosyasıyla Thinking geçişi etkinleştiriliyor
    • Yeniden başlatma sonrası geçiş özelliği kullanılabiliyor

Modellere göre çalıştırma özeti

  • Qwen3.5-35B-A3B: 24GB RAM/Mac üzerinde Dynamic 4-bit ile hızlı çıkarım mümkün
  • Qwen3.5-27B: 18GB RAM/Mac üzerinde çalışabiliyor
  • Qwen3.5-122B-A10B: 70GB RAM/Mac ortamında çalışıyor
  • Qwen3.5-397B-A17B:
    • 3-bit: 192GB RAM, 4-bit: 256GB RAM gerekiyor
    • 24GB GPU + 256GB RAM kombinasyonunda saniyede 25 tokenin üzerinde üretim yapılabiliyor
    • Gemini 3 Pro, Claude Opus 4.5 ve GPT-5.2 ile benzer performans düzeyinde

Çıkarım sunucusu ve API entegrasyonu

  • llama-server ile OpenAI uyumlu API biçiminde dağıtım yapılabiliyor
    • openai Python kütüphanesiyle yerel sunucuya istek gönderilebiliyor
    • Örnek: "http://127.0.0.1:8001/v1"; endpoint'i kullanılıyor
  • Tool Calling özelliği destekleniyor
    • Python kodu çalıştırma, terminal komutları, matematik işlemleri gibi işlev çağrıları yapılabiliyor
    • unsloth_inference() örnek kodu sunuluyor

Benchmark sonuçları

  • Unsloth GGUF benchmark'ı
    • Qwen3.5-35B Dynamic quant, çoğu bit aralığında SOTA performans gösteriyor
    • 150'den fazla KL Divergence testi ve toplam 9TB GGUF verisi kullanıldı
    • %99.9 KLD seviyesinde Pareto Frontier üzerindeki en yüksek performansı sunuyor
  • Qwen3.5-397B-A17B
    • Benjamin Marie'nin üçüncü taraf testinde
      • orijinal %81.3, UD-Q4_K_XL %80.5, UD-Q3_K_XL %80.7
      • doğruluk kaybı 1 puandan az, bellek tasarrufu yaklaşık 500GB
    • Q3 bellek tasarrufu odaklı, Q4 ise daha kararlı seçenek olarak sunuluyor

Diğer özellikler

  • Reasoning açma/kapama komutları sunuluyor (--chat-template-kwargs)
  • Claude Code / OpenAI Codex ile entegre edilebiliyor
  • Tool Calling Guide üzerinden yerel LLM araç çağırma yapısı kurulabiliyor
  • Ollama ile uyumsuz, yalnızca llama.cpp tabanlı arka uç destekleniyor

2 yorum

 
tensun 2026-03-09

HX370'te 27B kullanıyorum ve sonuçlar oldukça iyi.

 
GN⁺ 2026-03-09
Hacker News görüşleri
  • ASUS 5070ti 16G üzerinde Qwen3.5 9B'yi LM Studio ile denedim; yaklaşık 100 tok/s hızda çok kararlı çalışıyor.
    Çoğu çevrimiçi LLM hizmetinden daha hızlı ve çıktı kalitesi de benchmark seviyeleriyle uyumlu.
    Tüketici sınıfı donanımda bu kadar gerçekten kullanılabilir bir modeli ilk kez çalıştırıyorum.

    • “Çevrimiçi hizmetlerden daha iyi” derken bunun hız açısından mı, yoksa modelin kendi kalite karşılaştırması mı olduğunu merak ediyorum.
      Sonnet ya da Opus gibi üst düzey modellerle kullanılabilirlik karşılaştırması olduğunu sanmıyorum.
    • Bu kurulumda context uzunluğu ve performansın ne durumda olduğunu merak ediyorum.
      Kodlama işleri için en az 100k context gerekiyor.
    • Acaba Thinking mode sorununu çözdüler mi?
      Bende sonsuz döngüye giriyordu, bu yüzden kapattım; çeşitli parametreleri değiştirsem de çözülmedi.
    • Qwen3.5 27B, 4bit quantization ile 16G VRAM'e sığıyor.
      Kalitesi 2025 yazındaki Sonnet 4.0 seviyesinde ve ik_llama.cpp içinde hızı da çok iyi.
    • Bunu Claude Code ile entegre kullanıyor musunuz?
      Orkestrasyon oldukça önemli görünüyor.
  • “All uploads use Unsloth Dynamic 2.0” deniyor ama gerçek seçeneklerde IQ4_XS, Q4_K_S, Q4_K_M gibi çeşitli alternatifler var.
    Her birinin trade-off açıklaması olmadığı için kafa karıştırıyor.
    Mac mini M4 16GB üzerinde çoğunlukla Qwen3-4B-Instruct-2507-Q4_K_M kullanıyorum ama Qwen3.5-4B-UD-Q4_K_XL çok daha geveze.
    Kullanıcıdan kullanıcıya ihtiyaçlar değişir ama model/donanım bazlı ayarlar ve bellek kullanımını özetleyen bir tablo olsa iyi olurdu.
    Reddit'te de somut ayar örnekleri neredeyse yok.
    Son 3 aydır bu konuyu takip ediyorum ama net bilgiden çok kafa karışıklığı var.
    Şu anda qwen CLI'nin coder-model'ini bulutta kullanıyorum ve düşük güç tüketimli yerel bir model çıkmasını bekliyorum.

    • Unsloth Qwen3.5 GGUF benchmark'ları yardımcı olabilir.
      Q4_K_XL ile Q4_K_M için disk alanına karşı KL Divergence karşılaştırması var.
      Q4_0 ve Q4_1 hızlı ama doğrulukları düştüğü için artık önerilmiyor.
      Q4_K_M ile UD-Q4_K_XL neredeyse aynı; _XL biraz daha büyük.
    • LocalScore.ai, Mozilla Builders tarafından yapılmış ve bu tür model/donanım eşlemesini hedefleyen bir site.
      Ama henüz Qwen3.5 ile ilgili veri yok.
    • Mac M1'de ollama ile qwen3.5:4b çalıştırdım; tool calling fena değildi ama yavaştı ve karmaşık görevlerde kafası karışıyordu.
      Bunun nedeni Rust koduyla uğraşması olabilir.
      6bit quantization'lı qwen3.5-35b-a3b'yi 4090'da çalıştırdığımda ise sonuçlar oldukça iyiydi.
      Şu anda ana motor olarak 8bit qwen3.5-27b kullanıyorum ve memnunum.
    • Model quantization seçim rehberi de bakmaya değer.
  • Her yeni açık model çıktığında PP (prompt processing) ve TG (token generation) hızını llama-cpp/server ile test ediyorum.
    M1 Max 64GB MacBook üzerinde Claude Code ortamında (15~30K context) denedim.
    Qwen3.5-30B-A3B'nin TG hızı, Qwen3-30B-A3B'nin yaklaşık yarısı kadar.
    Qwen3.5, sliding window attention sayesinde daha az RAM kullanıyor ve yanıt kalitesi iyi, ama 33k context'te yavaş.
    Ayrıntılı ayarlar bu belgede yer alıyor.

  • Kendi benchmark'ımda DeepSeek API'yi temel alarak Claude Opus ile değerlendirme yaptım.
    Qwen3.5 35B A3B (q8_0, thinking) %92,5, Q4_K_M (thinking) ise %90 civarında çıktı.
    27B dense modelin daha yüksek çıkmasını bekliyordum; şaşırtıcı oldu.
    Yalnız bu değerler one-shot yanıt değerlendirmesi, dolayısıyla agent tekrarları gibi durumları yansıtmıyor.

    • 35B A3B'nin 27B'den yüksek çıkması ilginç.
      Prompt içindeki mantıksal tutarsızlıklar, 27B'nin akıl yürütmesini bozmuş olabilir.
      Thinking trace'e bakılırsa nedeni debug etmek mümkün olabilir.
    • Gecikmeyi neredeyse hiç artırmayan bir thinking modeli olup olmadığını da merak ediyorum.
  • Qwen3.5 9B'yi CPU üzerinde OCR ve metin düzenleme için çalıştırdım; gayet kullanılabilir.
    Ancak GPU offloading düzgün çalışmadığı için 4GB VRAM'li 1650 Ti'da bellek taşması yaşanıyor.

    • Ben de aynı sorunu yaşadım; driver güncellemesiyle çözüldü.
      sudo apt install nvidia-driver-570 komutuyla halletmiştim.
    • 1660ti + cachyos + llama.cpp-cuda kombinasyonunda sorunsuz çalışıyor.
      35B model, 4B modelle benzer hızda çalışırken çok daha güçlü.
      Ama qwen3.5, qwen3'e göre yaklaşık yarı hızda.
      Yine de genel olarak memnunum.
    • Kaynaktan derlerken GPU offloading için en kolay yol Vulkan backend.
  • Qwen3.5:0.8b'yi Orangepi Zero 2w üzerinde yalnızca CPU ile sorunsuz çalıştırıyorum.
    Vulkan GPU kullanmak istediğimde Meta Quest 3 üzerinde qwen3.5:2b'yi zeroclaw ile çalıştırıyorum.
    Bu sayede düşük güç tüketimli senaryolarda yüzlerce dolar tasarruf ettim.
    İkinci el Android telefonlarla yerel model çalıştırmayı tavsiye ederim.

  • 9B modeli hosted hizmet olarak sunan bir yer var mı diye merak ediyorum.
    GPU kiralamanın zor olduğu kurumsal ortamlarda OpenRouter'da küçük modeller yok.
    Keşke bir runpod serverless template'i olsa.
    Ayrıca 9B modelin 4090 üzerinde 8bit ya da 6bit ile düşük gecikmeyle çalışıp çalışamayacağını da bilmek istiyorum.

  • RTX 3050 8GB üzerinde Qwen3.5 35B-A3B denedim; oldukça tepkisel ve kodlama işlerini de iyi yapıyor.
    Önceki sürümde tool kullanımı sırasında döngüye girme sorunu vardı ama yeni sürümde düzelmiş gibi görünüyor.

    • Sistem RAM'ine offload mı ediyor, merak ediyorum.
      tok/s değerini de bilmek isterim.
      RTX 3060 laptop'ta da yerel sunucu olarak iyi çalışabilir gibi.
    • Ne tür kodlama işi örnekleri denediğinizi merak ediyorum.
      Yerel bir modelin bu kadar iyi olacağını düşünmezdim.
    • Kullandığınız model adını tam olarak paylaşabilir misiniz?
  • 397B-A17B modelinin Frontier ile kıyaslandığında nasıl olduğunu merak ediyorum.
    Muhtemelen çoğu kişinin çalıştıramayacağı kadar güçlü donanım istiyordur.

    • OpenRouter üzerinden kullandım; çok iyi ama bazı işlerde Frontier hâlâ daha üstün.
      Kişisel olarak 122B modeli, gizlilik ve maliyet tasarrufu açısından bana fazlasıyla yeterli geliyor.
  • Eski bir 4xV100 Tesla sunucuda bu modelin çalışıp çalışmayacağını merak ediyorum.
    fp ile ilgili ayarlar çok karmaşık; yeni başlayan biri olarak anlaması zor.