- GLM-4.7-Flash, 30B-A3B MoE yapısına sahip bir büyük dil modeli olup performans ve verimlilik arasında dengeli bir hafif dağıtım modeli sunuyor
- AIME 25, GPQA, SWE-bench gibi çeşitli benchmark testlerinde yüksek skorlar elde ederek aynı sınıftaki modellere (Qwen3-30B/GPT-OSS-20B) kıyasla rekabetçi sonuçlar ortaya koyuyor
- 30B sınıfı modeller arasında en üst düzey performansı hedefliyor ve açık kaynak tabanlı yapay zeka araştırmaları ile dağıtım verimliliği için önemli bir ilerleme sunuyor
Giriş (Introduction)
- GLM-4.7-Flash, 30B-A3B Mixture-of-Experts(MoE) modeli olup 30B sınıfı modeller arasında en güçlü performansı hedefliyor
- Performans ve verimlilik dengesini önceleyen bir hafif dağıtım seçeneği sunuyor
- Büyük ölçekli modellerin daha verimli kullanılmasını sağlayan bir tasarıma sahip
Benchmark performansı (Performances on Benchmarks)
- GLM-4.7-Flash için çeşitli standart benchmark testlerindeki performans değerleri sunuluyor
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 85.0, GPT-OSS-20B ise 91.7)
- GPQA: 75.2 (karşılaştırma modellerinden daha yüksek)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (diğer modellere kıyasla büyük fark)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- Birçok başlıkta Qwen3-30B-A3B-Thinking-2507 ve GPT-OSS-20B'den daha iyi sonuçlar gösteriyor
Yerelde dağıtım (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash, vLLM ve SGLang çıkarım framework'lerini destekliyor
4 yorum
30B ise... ne kadar VRAM gerekiyor? :(
30B A3B olduğu için o kadar ağır değil.
30B’lik alanın ayrılması gerekiyor ama bir kez alan ayrıldı mı aktif parametreler 3B olduğu için hızlı çalışıyor.
Bu yüzden sık kullanılan katmanları yalnızca VRAM’e yükleyecek şekilde optimize etme yöntemini de görmüş gibiyim.
VRAM 24 GB..? Ya da Mac ise en az 32 GB RAM yeterli gibi görünüyor.
Hacker News yorumları
VRAM yeterli olduğu için 128k context'i de rahatça kullanabiliyorum
Şimdiye kadar en iyi sonuçları Qwen3-coder verdi. Nemotron 3 Nano'nun benchmark'larda daha iyi olduğu söyleniyor ama benim ağırlıklı olarak yaptığım “test kodu yazma” işlerinde büyük bir fark hissetmedim
Biri bunu 4bit GGUF olarak quantize ederse deneyeceğim. Codex'in kalitesi yüksek ama fazla yavaş. Küçük modellerin sadece basit benchmark'larda değil, gerçek kalite açısından da giderek daha iyi olmasını umuyorum
claude-code ve opencode'u birlikte kullanıyorum ama son zamanlarda daha çok opencode kullanıyorum. Çünkü claude-code, Anthropic modelleri için optimize edilmiş
Bu sürüm “-Flash” versiyonu; önceki 4.5-Flash'tan sonra 4.6-Flash'ı atlayıp doğrudan buna geçilmiş. Dokümantasyona göre Haiku ile eşdeğer ve
ANTHROPIC_DEFAULT_HAIKU_MODELolarak atanmışAçık modeller benchmark'larda hâlâ yaklaşık 1 yıl geriden geliyor ama uzun vadede ilginç
GLM, 355B parametrenin yalnızca 31B'sini etkinleştirdiği için self-host zor ama Cerebras endpoint üzerinden kullanmak için iyi bir aday bence
Cache'lenmiş token'lar da ücretlendirildiği için tek bir basit işte $4 harcadım. GPT-5.2-Codex ile muhtemelen $0.5 bile tutmazdı
İki kod prompt'unda da hatalı kod ve sonsuz döngü üretti. Bu LMStudio'nun quantization yönteminden kaynaklanıyor olabilir ama ilk izlenim iyi değildi
İlgili bağlantılar: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Sonrasında http://127.0.0.1:8080 adresinden sohbet edebilir veya OpenAI uyumlu API üzerinden erişebilirsiniz
Ancak yeni model çıktıktan hemen sonra bug'lar olabilir; bu yüzden birkaç gün sonra güncellemek daha iyi olabilir
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mkomutuyla da çalıştırılabiliyor. Hızlı ama template henüz tamamlanmadığı için çıktı dağınık oluyor. ollama.com'da resmî template'in yayınlanmasını bekliyorum“GLM-4.7-Flash, hafif ve yüksek verimli bir modeldir; GLM-4.7'nin ücretsiz sürümüdür ve coding, reasoning ve generation görevlerinde düşük gecikme ile yüksek throughput sunar.
Çeviri, roleplay ve estetik üretim gibi alanlarda da güçlü performans gösterir.”
Ayrıntılar için resmî sürüm notlarına bakabilirsiniz
Artık 32GB RAM'li bir MacBook üzerinde GPT-5-mini düzeyinde bir yapay zekayı yerelde çalıştırmak mümkün
Ayrıca LLM-as-a-service maliyetleri çok daha ucuz hale geliyor — Haiku 4.5'e kıyasla yaklaşık 10'da 1 fiyat düzeyinde
GLM 4.7 günlük kullanım için yeterli ama bazen talimatları anlama konusunda zayıf kaldığı için sinir bozucu olabiliyor