GLM-4.7-Flash modeli tanıtıldı

(huggingface.co)

11 puan yazan GN⁺ 2026-01-20 | 4 yorum | WhatsApp'ta paylaş

GLM-4.7-Flash, 30B-A3B MoE yapısına sahip bir büyük dil modeli olup performans ve verimlilik arasında dengeli bir hafif dağıtım modeli sunuyor
AIME 25, GPQA, SWE-bench gibi çeşitli benchmark testlerinde yüksek skorlar elde ederek aynı sınıftaki modellere (Qwen3-30B/GPT-OSS-20B) kıyasla rekabetçi sonuçlar ortaya koyuyor
30B sınıfı modeller arasında en üst düzey performansı hedefliyor ve açık kaynak tabanlı yapay zeka araştırmaları ile dağıtım verimliliği için önemli bir ilerleme sunuyor

Giriş (Introduction)

GLM-4.7-Flash, 30B-A3B Mixture-of-Experts(MoE) modeli olup 30B sınıfı modeller arasında en güçlü performansı hedefliyor
- Performans ve verimlilik dengesini önceleyen bir hafif dağıtım seçeneği sunuyor
- Büyük ölçekli modellerin daha verimli kullanılmasını sağlayan bir tasarıma sahip

Benchmark performansı (Performances on Benchmarks)

GLM-4.7-Flash için çeşitli standart benchmark testlerindeki performans değerleri sunuluyor
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 85.0, GPT-OSS-20B ise 91.7)
- GPQA: 75.2 (karşılaştırma modellerinden daha yüksek)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (diğer modellere kıyasla büyük fark)
- τ²-Bench: 79.5
- BrowseComp: 42.8
Birçok başlıkta Qwen3-30B-A3B-Thinking-2507 ve GPT-OSS-20B'den daha iyi sonuçlar gösteriyor

Yerelde dağıtım (Serve GLM-4.7-Flash Locally)

GLM-4.7-Flash, vLLM ve SGLang çıkarım framework'lerini destekliyor
- Her iki framework de yalnızca main branch üzerinde destekleniyor
- Dağıtım yönergeleri resmi GitHub deposunda(zai-org/GLM-4.5) bulunabilir

4 yorum

kimjoin2 2026-01-20

30B ise... ne kadar VRAM gerekiyor? :(

crawler 2026-01-21

30B A3B olduğu için o kadar ağır değil.
30B’lik alanın ayrılması gerekiyor ama bir kez alan ayrıldı mı aktif parametreler 3B olduğu için hızlı çalışıyor.

Bu yüzden sık kullanılan katmanları yalnızca VRAM’e yükleyecek şekilde optimize etme yöntemini de görmüş gibiyim.

geekygeek 2026-01-20

VRAM 24 GB..? Ya da Mac ise en az 32 GB RAM yeterli gibi görünüyor.

GN⁺ 2026-01-20

Hacker News yorumları

Son zamanlarda OpenCode ile denemeler yapıyorum ve 32GB GPU üzerinde llama.cpp(4bit) ile 30B-A3B modelini çalıştırıyorum
VRAM yeterli olduğu için 128k context'i de rahatça kullanabiliyorum
Şimdiye kadar en iyi sonuçları Qwen3-coder verdi. Nemotron 3 Nano'nun benchmark'larda daha iyi olduğu söyleniyor ama benim ağırlıklı olarak yaptığım “test kodu yazma” işlerinde büyük bir fark hissetmedim
Biri bunu 4bit GGUF olarak quantize ederse deneyeceğim. Codex'in kalitesi yüksek ama fazla yavaş. Küçük modellerin sadece basit benchmark'larda değil, gerçek kalite açısından da giderek daha iyi olmasını umuyorum
- GLM-4.7-GGUF modelini öneriyorum. Diğer iyi quantization çalışmaları için 0xSero'ya da bakabilirsiniz
- Codex genelde daha yüksek kalite veriyor ama bazen AI slop seviyesinde sonuçlar çıkarıyor; bu da Opus ile birkaç dakikada bitecek bir iş için uzun süre beklemeye yol açıyor
Ben z.ai'nin coding planı ile GLM-4.7 kullanıyorum ve fiyat/performans açısından şaşırtıcı derecede iyi
claude-code ve opencode'u birlikte kullanıyorum ama son zamanlarda daha çok opencode kullanıyorum. Çünkü claude-code, Anthropic modelleri için optimize edilmiş
Bu sürüm “-Flash” versiyonu; önceki 4.5-Flash'tan sonra 4.6-Flash'ı atlayıp doğrudan buna geçilmiş. Dokümantasyona göre Haiku ile eşdeğer ve ANTHROPIC_DEFAULT_HAIKU_MODEL olarak atanmış
- Son zamanlarda performansın nasıl olduğunu merak ediyorum. Bazı kullanıcıların limitlerin değiştiğini ve neredeyse kullanılamaz hale geldiğini söylediğini duydum
- Ben de aynı planı kullanıyorum. Kampanya ile 12 ay için $28'e aldım ve Claude Pro'nun 5 katı kullanım sunuyor. Şu an sadece claude code kullanıyorum
GLM-4.7 kademeli bir iyileştirme ama oldukça sağlam görünüyor. UI oneshot demosu 4.6'dan çok daha iyi olmuş
Açık modeller benchmark'larda hâlâ yaklaşık 1 yıl geriden geliyor ama uzun vadede ilginç
GLM, 355B parametrenin yalnızca 31B'sini etkinleştirdiği için self-host zor ama Cerebras endpoint üzerinden kullanmak için iyi bir aday bence
- Dün Cerebras'ta GLM-4.7'yi (Flash değil) $10 kredi ile test ettim. Saniyede 1000 token ile hızlı ama rate limit yüzünden gerçek kullanımda rahatsız edici. Cache'lenmiş token'lar da limite dahil edildiği için her dakikanın başında takılıp beklemek gerekiyor
  Cache'lenmiş token'lar da ücretlendirildiği için tek bir basit işte $4 harcadım. GPT-5.2-Codex ile muhtemelen $0.5 bile tutmazdı
- Benchmark konuşması çok var ama gerçek iş yükü farklı. Ben claude'u bırakıp minimax m2.1'e geçtim. open code ile birlikte kullanınca daha çok hoşuma gitti. $10'lık plan yetiyor
- Açık modeller sonuçta distillation ile yetişmeye çalışan bir yapıda; yenilik olmadıkça hep geride kalacaklar. “Yakalıyorlar”dan çok kamyona bağlı bir römork gibiler
- Model kalitesini UI demosuyla değerlendirmek uygun değil. UI dağılım dışındaysa çoğu model başarısız olur. Codex bile kusursuz değil
LMStudio içinde M4 MacBook Pro'da çalıştırdım ama gpt-oss-20b'den çok daha kötüydü
İki kod prompt'unda da hatalı kod ve sonsuz döngü üretti. Bu LMStudio'nun quantization yönteminden kaynaklanıyor olabilir ama ilk izlenim iyi değildi
- Acaba BF16 tam model mi kullanıyorsunuz, yoksa mlx4 quantization sürümü mü?
Bunu yerelde zaten çalıştıranlara sormak istiyorum — şu an en basit kurulum (tooling + quantization formatı) hangisi? Çalışan komut örneği varsa paylaşır mısınız?
- Ben llama.cpp'nin CUDA backend'iyle derlenmiş llama-server kullanıyorum. Lubuntu + RTX 3090 ortamında Q4_K_M quant sürümünü çalıştırıyorum
  İlgili bağlantılar: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  Sonrasında http://127.0.0.1:8080 adresinden sohbet edebilir veya OpenAI uyumlu API üzerinden erişebilirsiniz
  Ancak yeni model çıktıktan hemen sonra bug'lar olabilir; bu yüzden birkaç gün sonra güncellemek daha iyi olabilir
- ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M komutuyla da çalıştırılabiliyor. Hızlı ama template henüz tamamlanmadığı için çıktı dağınık oluyor. ollama.com'da resmî template'in yayınlanmasını bekliyorum
- LM Studio içinde “4.7-flash” diye aratıp mlx community sürümünü kurabilirsiniz
- Ben şahsen llama.cpp 4bit quant veya onun wrapper'larını öneririm
Bu sürümün açıklamasına göre,
“GLM-4.7-Flash, hafif ve yüksek verimli bir modeldir; GLM-4.7'nin ücretsiz sürümüdür ve coding, reasoning ve generation görevlerinde düşük gecikme ile yüksek throughput sunar.
Çeviri, roleplay ve estetik üretim gibi alanlarda da güçlü performans gösterir.”
Ayrıntılar için resmî sürüm notlarına bakabilirsiniz
- Bu yıl yayımlanan iki not yanlışlıkla 2025 olarak işaretlenmiş. Muhtemelen elle yazılan bir sayfa
Bu sürümün neden önemli olduğunu merak edenlere açıklamak gerekirse,
Artık 32GB RAM'li bir MacBook üzerinde GPT-5-mini düzeyinde bir yapay zekayı yerelde çalıştırmak mümkün
Ayrıca LLM-as-a-service maliyetleri çok daha ucuz hale geliyor — Haiku 4.5'e kıyasla yaklaşık 10'da 1 fiyat düzeyinde
SWE-bench Verified skoru 59.2 ve bu, 30B'lik bir model için oldukça etkileyici. Qwen3-Coder 480B'nin 55.4 puanından daha yüksek
- Devstral 2 Small (24B) %68.0 ile daha yüksek. Resmî bağlantı
- Ama SWE-Bench Verified'e artık güvenmek zor. Repository ve dil kapsamı sınırlı, ayrıca veri ezberleme sorunu da var. SWE-Bench Pro daha umut verici ama o da kusursuz değil
Hızlı iş gerektiğinde Gemini veya Cerebras kullanıyorum. Cerebras bloguna bakabilirsiniz
GLM 4.7 günlük kullanım için yeterli ama bazen talimatları anlama konusunda zayıf kaldığı için sinir bozucu olabiliyor
- Opus 4.5'i sevmemin nedeni de tam olarak bu talimat işleme yeteneği. Umarım bir sonraki sürümde geliştirilir
GLM 4.7'nin GPT-OSS-20B ile karşılaştırılması bana pek güven vermiyor. Sonnet 4/4.5 seviyesindeyse Flash sürümünün GPT-OSS-120B'yi açık ara geçmesi gerekir diye düşünüyorum. Keşke Aider sonuçları da verilseydi
- 30-A3B'nin 117-A5.1B'yi geçmesini beklemek biraz fazla iyimserlik olur. Yine de agent call tarafında GPT-20B'den daha iyi gibi görünüyor
- Gerçekte kullanınca benchmark'ların abartılı olduğu anlaşılıyor. Basit işler için iyi ama Sonnet'in oldukça gerisinde. Yine de fiyat/performans açısından iyi
- Kod kalitesi açısından bakarsak Sonnet 3.5 seviyesinde. Sonnet 4/4.5 ile arasında mesafe var