GLM-5 tanıtıldı: karmaşık sistem mühendisliği ve uzun soluklu ajan görevlerini hedefleyen model

(z.ai)

6 puan yazan GN⁺ 2026-02-12 | 4 yorum | WhatsApp'ta paylaş

Yapay zekanın verimliliğini ve uzun süreli görev yürütme yeteneğini güçlendiren büyük dil modeli
Önceki sürüme kıyasla 744 milyar parametreye (40 milyar aktif) ölçeğine genişletildi ve ön eğitim verisi 28,5 trilyon tokena çıkarıldı
DeepSeek Sparse Attention (DSA) entegrasyonu ile uzun bağlam işleme yeteneği korunurken dağıtım maliyeti azaltıldı
Yeni eşzamansız pekiştirmeli öğrenme altyapısı slime ile eğitim verimliliği artırıldı ve çeşitli benchmark'larda en üst düzey performans kaydedildi
Açık kaynak olarak yayımlandı; Hugging Face, ModelScope, Z.ai platformu gibi yerlerden erişilebiliyor ve Claude Code ile OpenClaw ile uyumlu

GLM-5 genel bakış

GLM-5, karmaşık sistem mühendisliği ve uzun soluklu ajan görevlerini yerine getirmeyi hedefleyecek şekilde tasarlanmış bir model
- GLM-4.5'e kıyasla parametre sayısı 355 milyardan (32 milyar aktif) 744 milyara (40 milyar aktif) çıktı
- Ön eğitim verisi 23 trilyondan 28,5 trilyon tokena genişletildi
DeepSeek Sparse Attention (DSA) entegre edilerek uzun bağlam işleme yeteneği korunurken dağıtım maliyeti büyük ölçüde düşürüldü
slime adlı eşzamansız pekiştirmeli öğrenme altyapısı devreye alınarak eğitim throughput'u ve verimlilik artırıldı, ayrıntılı sonradan eğitim yinelemeleri mümkün hale geldi

Performans artışı ve benchmark sonuçları

GLM-5, GLM-4.7'ye kıyasla genel performans artışı gösteriyor ve Claude Opus 4.5 seviyesine yaklaşıyor
Dahili değerlendirme seti CC-Bench-V2 içinde frontend, backend ve uzun süreli görevlerin tamamında güçlü sonuçlar elde etti
Vending Bench 2'de açık kaynak modeller arasında 1. oldu; 1 yıllık otomat işletme simülasyonunda nihai bakiye 4.432 dolar seviyesine ulaştı
Muhakeme, kodlama ve ajan görevleri genelinde dünya çapında en üst düzey açık kaynak performansına sahip
- Örnek: SWE-bench Verified 77,8 puan, BrowseComp 62,0 puan, τ²-Bench 89,7 puan
GPT-5.2, Gemini 3.0 Pro gibi üst düzey modellerle arasındaki farkı daraltıyor

Açık kaynak yayını ve erişim yolları

GLM-5, MIT lisansı ile yayımlandı; model ağırlıkları Hugging Face ve ModelScope üzerinden indirilebiliyor
Z.ai, BigModel.cn, api.z.ai gibi servislerde API olarak kullanılabiliyor
Claude Code ve OpenClaw ile uyumlu olduğu için çeşitli geliştirme ortamlarına entegre edilebiliyor
Z.ai platformunda ücretsiz deneme sunuluyor

Ofis ve belge oluşturma özellikleri

GLM-5, “sohbetten işe” geçişi hedefliyor ve bilgi çalışanları ile mühendisler için bir ofis aracı rolü üstleniyor
Metin ya da kaynak materyalleri doğrudan .docx, .pdf, .xlsx biçimlerine dönüştürerek PRD, sınav kağıdı, finans raporu, menü gibi tamamlanmış belgeler üretebiliyor
Z.ai uygulaması, PDF/Word/Excel üretimini destekleyen bir Agent modu sunuyor ve çok turlu iş birliğini mümkün kılıyor

Geliştirici ve dağıtım desteği

GLM Coding Plan aboneleri kademeli olarak GLM-5'e erişebiliyor
- Max planı kullanıcıları, "GLM-5" model adıyla bunu hemen etkinleştirebiliyor
- GLM-5 istekleri, GLM-4.7'ye göre daha fazla kota tüketiyor
GUI ortamını tercih eden kullanıcılar için Z Code ajan geliştirme ortamı sunuluyor
OpenClaw framework'ü üzerinden GLM-5, uygulamalar ve cihazlar genelinde çalışan kişisel asistan tipi bir ajan olarak kullanılabiliyor

Yerel dağıtım ve donanım uyumluluğu

GLM-5, vLLM, SGLang gibi çıkarım framework'lerini destekliyor ve resmi GitHub'da dağıtım yönergeleri sunuluyor
NVIDIA dışı yonga setlerinde de (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon vb.) çalışabiliyor
- Kernel optimizasyonu ve model kuantizasyonu sayesinde makul throughput elde ediliyor

4 yorum

GN⁺ 2026-02-12

Hacker News yorumları

Pelican’ın OpenRouter üzerinden üretilen çıktısını gördüm
Kuşun kendisi sağlam bir kuş gibi görünüyor ama bisiklet kadrosu olarak pek iyi değil
İlgili bağlantı
- Simon’ın sürdürdüğü gerçekten anlamlı tek benchmark sistemine teşekkürler
  Pelican bisiklet testinin bağlamını burada görebilirsiniz
- Bunun gerçekten önemli bir test olduğunu düşünüyorum, Simon’a selam olsun
- Artık Pelican benchmark’ının devrinin geçtiğini hissediyorum
  SVG zaten her yerde, daha gerçekçi yeni bir senaryoya ihtiyaç var
- Bu test ortaya çıkmadan önce kaç tane Pelican bisiklet SVG’si vardı merak ediyorum
  Acaba bu tür sonuçlar eğitim verisini kirletiyor olabilir mi diye endişeleniyorum
- Kanatları bile olmayan bir kuşa ‘sağlam kuş’ demenin AI beklenti açığına simgesel bir örnek olduğunu düşünüyorum
  Yapay zekanın kendi kendine ‘perdeli ayak lazım’ deyip gerçek görselde bunun olmaması ilginç
  MMLU veya AIME’de %90 doğruluğu ‘çözülmüş problem’ sayan yaklaşım kaygı verici
  Gerçek AGI %100 doğruluk sağlamalı ama biz çok kolay tatmin oluyoruz
Bundan sonra gri pazar distillation tabanlı hızlı kopyalamanın kaçınılmaz olduğunu düşünüyorum
Eskiden N-1, N-2 modellerin cazip olmayacağını sanıyordum ama artık kullanıcı tercihleri bile doygunluğa ulaştı, o kadarı bile yeterince tatmin edecek gibi görünüyor
Opus 4.5 kesin bir sıçramaydı ama 4.6 iş akışımı değiştirmedi
Sonuçta ‘insanlık tarihinin en büyük hırsızlığının’ ardından ‘en büyük karmik karşılık’ gelecek gibi duruyor
Kullanıcılar Çin yapımı yapay zekanın ABD’li büyük teknoloji şirketlerinden çalınmış olmasını hiç umursamayacaktır
- LLM şirketleri eğitim verisi kullanımını meşrulaştırıyorsa, distiller tarafının LLM çıktılarıyla eğitim yapması da aynı mantıkla yasal olmalı
  “Sadece insanlar gibi öğrendik, neden yasa dışı olsun?” iddiası öne sürülebilir
- Distillation’ı engellemek asıl yasa dışı olmalı
  Binlerce AI üretimli içerik sitesi kurup her gönderide prompt ve model bilgisini açıklamak yeterli
  Sonra başkaları bunları ‘tesadüfen’ crawl edip eğitimde kullanır
- Opus 4.6’da öne çıkan şey uzun görev sürekliliği
  Eskisine göre iki kat daha ileri gidiyormuş gibi hissettiriyor, geri dönmek istemiyorum
- Ama token tüketimi o kadar fazla ki verimlilik açısından gerileme gibi geliyor
Son benchmark’lar etkileyici ama karşılaştırılan modeller eski nesil (Opus 4.5, GPT-5.2)
Bu aralar açık modeller benchmark puanlarında yüksek ama gerçek kullanım hissi beklentinin altında kalıyor
Benchmaxxing diye bir şey kesinlikle var
- Open-weight modellere yönelik eleştiriler fazla saldırgan geliyor
  20 benchmark çalıştırmak da kolay iş değil ve yeni nesil model çıkalı sadece 5 gün oldu
  Pek çok geliştirici kapalı model tapınmasına kapılmış durumda ve farklı model ailelerinde aynı prompt’un işe yaramadığını bilmiyor
  GLM-4.7’yi sık kullanıyorum, Sonnet 4.5 seviyesinde; GLM-5 de muhtemelen Opus 4.5 düzeyindedir
- GLM-4.7 eğer 4.5 ya da 5.2 seviyesindeyse bu başlı başına muazzam bir sıçrama demektir
- Bugünün modelleri sonuçta sadece token üreticisi gibi geliyor
  Kör testte ayırt edemeyecek kadar benziyorlar
  Claude ile ChatGPT yanıtlarını karşılaştırınca da neredeyse aynı
  Sonunda çoğu kullanım için Toyota seviyesinde bir model yeterli oluyor
- Sorun RLHF’nin (insan geri bildirimiyle pekiştirmeli öğrenme) sınırları
  Algoritmik yenilik mümkün ama insan verisi üretim maliyeti çok yüksek olduğu için ölçeklenmiyor
  Açık kaynak modellerde hâlâ çok sayıda sözdizimi hatası var, frontier modeller ise bunları neredeyse çözmüş durumda
- Anthropic, OpenAI ve Google modelleri gerçek kullanıcı verisiyle iyileştiriyor
  Çin laboratuvarları ise benchmark merkezli olduğu için fark oluşuyor
  Kendi kendine barındırma ile sürekli iyileştirme birlikte yürütülmesi zor şeyler
Çin açık kaynağı sayesinde kendi barındırdığımız zekâya sahip olabileceğiz gibi görünüyor
Maliyet açısından verimsiz ama internet bağlantısı olmadan da bağımsız çalışabilmesi hoşuma gidiyor
Sonuçta büyük modelleri yerelde çalıştırabilen tek tüketici seçeneği macOS gibi duruyor
- Ben Claude Max abonelik limitini sık sık aşıyorum, bu yüzden 2x RTX3090 ve kuantize Qwen3 modelleriyle idare ediyorum
  Gizlilik ve erişilebilirlik açısından da kendi kendine barındırma değerli
  Özellikle ABD’de dijital düzenlemelerin sertleşmesine karşı alternatif gerekli
- Open-weight model olsa bile eğitim verisi ve sansür kriterleri hâlâ kapalı
  Yine de ince ayarla önyargıları düzeltebilmek önemli bir avantaj
- 128GB VRAM’li Strix Halo makinesi yaklaşık 3 bin dolar seviyesinde ve yerelde oldukça iyi modeller çalıştırabiliyor
  GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash öneririm
  1-2 yıl içinde tüketici donanımında bile 512GB sınıfı modelleri çalıştırabileceğimizi umuyorum
- macOS yerine evde headless Linux inference box bulundurmak da iyi bir fikir
  Ev ağının geri dönüşü
- Bana göre doğrudan self-hosting’den çok hosting’in metalaşması daha önemli
  Asıl mesele istediğin zaman sağlayıcı değiştirme özgürlüğü
GLM-4.7’yi birkaç haftadır kullandım, Sonnet’e benzer seviyede
Ama daha net talimat gerekiyor
Büyük işler için hâlâ Anthropic tarafını kullanıyorum ama küçük ve net işler için GLM fiyat/performans olarak en iyisi
- Bende de benzer bir deneyim var
  GLM-4.7 kendi haline bırakılınca gereksiz yere dünya kurmaya çalışma eğiliminde
  Ama küçük işlerde Sonnet’e yakın ve fiyatı çok düşük olduğu için yardımcı model olarak kullanışlı
- Son 6-8 aydır sadece Sonnet kullanıyorum ama Opus’ta sık sık token oburluğu bug’ı oluyor
  Açık modeller 6 ay kadar daha gelişirse geçiş yapmaya hazırım
MiniMax M2.5 de bugünden itibaren Chat UI içinde kullanılabiliyor
GLM kodlama için daha iyi ama MiniMax’i hızı ve araç çağırma becerisi sayesinde günlük işlerde sık kullanıyorum
Yeni model OpenRouter’da yayınlandı
Kendi benchmark’ımda talimat takip etme becerisi çok zayıftı
chat.md + mcps formatını izleyen bir testti ama doğru düzgün yerine getiremedi
- Özel araç çağırma formatları modelden modele farklı şekilde öğretildiği için tutarlılık sağlamak zor gibi geliyor
  Diğer frontier modellerde nasıl sonuç aldığınızı merak ediyorum
- chat.md fikrini sevdim
  Ben de vim keybinding tabanlı bir metin editörü yapıyordum, bu yaklaşım UI ilhamı verebilir
  Gereksiz metni katlama özelliği eklemeyi düşünüyorum
- Sorun OpenRouter sağlayıcı kalitesi de olabilir
  Bazen performans gerçekten kötü oluyor
- OpenRouter bazen kuantize modeller barındırdığı için kalite düşüyor
  Mümkünse doğrudan asıl sağlayıcıyı kullanmak daha iyi
GLM-4.7-Flash bana göre ilk kez yerel kodlamada kullanılabilecek akıllı bir model gibi hissettirdi
Claude 4.5 Haiku’ya yakın seviyede ve akıl yürütme süreci şeffaf, yani neden o kararı verdiğini anlayabiliyorsunuz
Devstral 2 Small veya Qwen-Coder-Next’ten çok daha iyi
- minimax-m.2 de buna epey yakın seviyede
GLM 4.7’yi opencode içinde kullanıyorum
En iyisi değil ama cömert kullanım limiti sayesinde tüm gün kullanılabiliyor
Yeni modele erişim hâlâ sınırlı ama beklenti içindeyim
Yeni modeli opencode’da kısa süre denedim, oldukça etkileyiciydi
Büyük çaplı bir devrim değil ama 4.7’ye göre net biçimde daha iyi
Hafızası ve uzun görev kararlılığı belirgin biçimde gelişmiş

jinifor 2026-02-12

Abonelik fiyatı yükselmiş.

princox 2026-02-13

İlk üyelikte verilen %50 indirim artık kaldırılmış..

fanotify 2026-02-12

Max için erken indirimli yıllık ücret $360'tı, şimdi $672 olmuş...