- Yeni nesil agentic engineering modeli GLM-5.1, kodlama ve problem çözme yeteneklerini büyük ölçüde güçlendiren amiral gemisi sürüm olarak, uzun vadeli optimizasyon ve sürekli iyileştirme odağıyla tasarlandı
- SWE-Bench Pro, NL2Repo ve Terminal-Bench 2.0 gibi başlıca benchmark'larda en üst düzey performans gösterirken, uzun süreli tekrarlı çalıştırmalarda da üretken sürekliliği koruyor
- VectorDBBench, KernelBench ve web uygulaması geliştirme senaryoları gibi alanlarda yüzlerce ila binlerce yineleme boyunca performansını artırmayı sürdürüyor; kendi loglarını analiz edip stratejisini değiştirerek darboğazları gideriyor
- Model, öz değerlendirme ve yapısal geçişler yoluyla karmaşık yazılım mühendisliği görevlerinde de verimli çalışıyor ve uzun süreli çalıştırmalarda çıktı kalitesi istikrarlı biçimde artıyor
- MIT lisanslı açık kaynak olarak yayımlandı; çeşitli platformlar ve framework'lerde kullanılabiliyor ve uzun vadeli optimizasyon odaklı yapay zeka modelleri için yeni bir standart olarak sunuluyor
GLM-5.1 Genel Bakış
- GLM-5.1, yeni nesil bir agentic engineering modeli ve önceki sürümlere kıyasla kodlama performansı ciddi biçimde geliştirilmiş amiral gemisi model konumunda
- SWE-Bench Pro'da en yüksek performansı kaydederken, NL2Repo (repo oluşturma) ve Terminal-Bench 2.0 (gerçek terminal işleri) testlerinde de GLM-5'e karşı belirgin üstünlük sağlıyor
- Sadece tek seferlik çalıştırma performansına değil, uzun vadeli optimizasyon yeteneği ve sürekli problem çözme kabiliyetine odaklanacak şekilde tasarlandı
- Belirsiz problemleri daha iyi değerlendiriyor, uzun oturumlarda üretkenliğini koruyor ve tekrarlı deneyler ile strateji güncellemeleri sayesinde yüzlerce yinelemede bile performansını artırmayı sürdürüyor
- Daha uzun süre çalıştıkça sonuçları iyileşen bir yapıya sahip; bu yüzden uzun ufuklu çalışma kabiliyeti (long-horizon capability) temel özelliklerinden biri olarak öne çıkıyor
Karmaşık Yazılım Mühendisliği Görevleri
- GLM-5.1, karmaşık yazılım mühendisliği görevlerinde en üst düzey performansa ulaşıyor
- Önceki modeller ilk performans artışından sonra hızla durağanlaşırken, GLM-5.1 uzun vadeli agentic görevlerde de verimliliğini koruyor
- Model problemi alt parçalara ayırıyor, deneyler yürütüyor, sonuçları analiz ederek darboğazları belirliyor ve yinelemeli akıl yürütme ile stratejisini güncelliyor
- Bunu, giderek daha az yapılandırılmış üç görevde gösteriyor
- Vektör arama optimizasyon problemi (tek sayısal metrik temelli)
- GPU kernel benchmark'ı (problem bazında hız artışı ölçümü)
- Web uygulaması geliştirme (açık bir metrik olmadan öz değerlendirme temelli iyileştirme)
Senaryo 1: 600 Yineleme ile Vektör Veritabanı Optimizasyonu
- VectorDBBench, yaklaşık en yakın komşu araması için yüksek performanslı bir veritabanı oluşturan modelin kodlama yeteneğini değerlendiren açık kaynak bir challenge
- Modele Rust tabanlı iskelet kod ve HTTP API endpoint'leri veriliyor; model 50 araç çağrısı (tool-call) içinde dosya okuma/yazma, derleme, test ve profiling işlemlerini yapıyor
- Önceki en iyi performans Claude Opus 4.6'nın 3,547 QPS'i (Recall ≥ 95%) idi
- GLM-5.1, harici bir optimizasyon döngüsü ekleyerek 600'den fazla yineleme (6.000'den fazla araç çağrısı) gerçekleştirdi ve sonunda 21.5k QPS elde etti
- Bu, tek bir 50 çağrılık oturuma kıyasla yaklaşık 6 kat iyileşme anlamına geliyor
- Performans artışı basamaklı (staircase) bir örüntü gösteriyor; kademeli ayarlarla yapısal geçişler dönüşümlü ilerliyor
- Yaklaşık 90. yineleme: IVF cluster probing + f16 vector compression eklendi → 6.4k QPS
- Yaklaşık 240. yineleme: u8 pre-scoring + f16 re-ranking iki aşamalı pipeline eklendi → 13.4k QPS
- Toplam 6 yapısal geçiş yaşandı; bunların her biri modelin kendi loglarını analiz ederek darboğazları tespit etmesinin sonucu
- Recall değerinin %95'in altına düştüğü noktalar çoğunlukla yeni stratejilerin araştırıldığı aşamalarda yoğunlaştı
Senaryo 2: 1.000'den Fazla Yineleme ile Makine Öğrenimi İş Yükü Optimizasyonu
- KernelBench, PyTorch referans uygulamasını aynı çıktıyı veren ancak daha hızlı çalışan bir GPU kernel'ine dönüştürme becerisini ölçüyor
- Üç seviyeden oluşuyor (Level 1~3); Level 3, MobileNet, VGG, MiniGPT, Mamba gibi tam model düzeyinde optimizasyonları içeriyor
- Varsayılan
torch.compileayarı 1.15×,max-autotuneise 1.49× hız artışı sağlıyor - GLM-5.1, Level 3'te 3.6× hız artışı kaydederek GLM-5'e göre çok daha uzun süre etkili optimizasyon yapabildiğini gösterdi
- GLM-5 ilk hızlı yükselişten sonra durağanlaşıyor; Claude Opus 4.5 daha uzun sürüyor ancak son bölümde yavaşlıyor
- Claude Opus 4.6, sonunda 4.2× ile en yüksek performansı koruyor ve hâlâ ek iyileştirme alanı bulunduğu görülüyor
Senaryo 3: 8 Saat Boyunca Linux Masaüstü Tarzı Web Uygulaması Oluşturma
- Web sitesi oluşturma, açık bir sayısal metriği olmayan öznel bir görev; değerlendirme ölçütleri tamamlanmışlık, görsel kalite ve etkileşim kalitesi
- Test prompt'u: “Linux tarzı masaüstü ortamını bir web uygulaması olarak oluştur”
- Başlangıçta kod, tasarım veya ara geri bildirim verilmiyor
- Modellerin çoğu temel bir UI oluşturup dururken, GLM-5.1 kendi çıktısını gözden geçirip iyileştirme döngüsü kurarak gelişimini sürdürüyor
- 8 saat boyunca yinelemeli çalıştırmada, başlangıçtaki basit yerleşim zamanla tam bir masaüstü ortamına genişliyor
- Dosya gezgini, terminal, metin editörü, sistem monitörü, hesap makinesi, oyunlar vb. ekleniyor
- Her özellik tutarlı bir UI içinde birleştiriliyor, stil ve etkileşim kalitesi kademeli olarak iyileştiriliyor
- Nihai sonuç, tarayıcı içinde çalışan tam ve görsel olarak tutarlı bir masaüstü ortamı oluyor
Uzun Vadeli Optimizasyonun Anlamı ve Zorluklar
- Üç senaryonun tamamında temel değişken yalnızca çalışma süresi değil, ek sürenin gerçekten işe yarayıp yaramadığı
- GLM-5.1, GLM-5'e kıyasla üretken ufku (productive horizon) büyük ölçüde genişletiyor
- Ancak KernelBench gibi bazı görevlerde hâlâ ilerleme alanı bulunuyor
- Kalan zorluklar
- Kademeli ayarlar sınırına ulaştığında yerel optimumdan çıkabilmek
- Binlerce araç çağrısı boyunca tutarlılığı korumak
- Açık sayısal metriği olmayan görevlerde güvenilir öz değerlendirme (self-evaluation) yapmak
- GLM-5.1, bu uzun vadeli optimizasyon yönünde ilk adım olarak sunuluyor
Benchmark Karşılaştırma Özeti
- GLM-5.1, SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 gibi başlıca kodlama benchmark'larında GLM-5'i geride bırakıyor
- Reasoning, Coding, Agentic genelinde rakip modellere karşı üst sıralarda yer alıyor
- Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 gibi güncel modellerle karşılaştırıldığında da birçok kalemde yakın ya da üstün performans gösteriyor
Yayın ve Kullanım
- MIT lisansı ile açık kaynak olarak yayımlandı
- api.z.ai ve BigModel.cn üzerinden kullanılabiliyor; Claude Code ve OpenClaw ile uyumlu
- GLM Coding Plan aboneleri model adını
"GLM-5.1"olarak değiştirerek hemen kullanabiliyor- Yoğun saatlerde (UTC+8 14:00–18:00) 3×, yoğun olmayan saatlerde 2× kota tüketiyor
- Nisan sonuna kadar yoğun olmayan saatlerde 1× promosyon uygulanıyor
- GUI ortamı olarak Z Code sunuluyor; SSH üzerinden uzaktan geliştirme ve mobil çalışma destekleniyor
- Model ağırlıkları HuggingFace ve ModelScope üzerinde yayımlandı
- vLLM ve SGLang gibi başlıca inference framework'leri destekleniyor; GitHub'da dağıtım kılavuzu sağlanıyor
- Yakında Z.ai chat platformu üzerinde de kullanılabilecek
Değerlendirme Ayarları ve Notlar
- HLE ve diğer akıl yürütme görevleri: en fazla 163.840 token üretimi, değerlendirme modeli olarak GPT-5.2 kullanıldı
- SWE-Bench Pro: 200K context window, OpenHands tabanlı yürütme
- NL2Repo: zararlı komut tespiti ve engelleme dahil
- Terminal-Bench 2.0: 16 CPU, 32GB RAM sınırı, 3 saat timeout
- KernelBench Level 3: H100 GPU ortamı, 1.200 araç çağrısı sınırı, bağımsız denetim yapıldı
- CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 gibi çeşitli harici benchmark'larda bağımsız değerlendirmeler gerçekleştirildi
1 yorum
Hacker News yorumları
Her gün üç şey giderek daha net hale geliyor
(1) OpenAI ve Anthropic artık neredeyse rekabetçi değil
(2) Yerel/özel çıkarımın yapay zekanın geleceği olduğuna eminim
(3) Hâlâ bir ‘katil ürün’ ortaya çıkmadı, yani artık gerçekten onu inşa etme zamanı
Az önce Claude Mythos ile ilgili bir yazı gördüm ve bu kez basit bir iyileştirme değil, gerçekten bir sıçrama gibi hissettiriyor. Ne zaman yayınlanacağını henüz bilmiyorum ama özellikleri çılgın derecede güçlü görünen bir sonraki GLM sürümünü de heyecanla bekliyorum
Unsloth quantization sürümü de birlikte yayınlandı. GLM-5.1-GGUF modelinin IQ4_XS sürümü 754B parametre ve 361GB boyutunda, bu yüzden sıradan bir yerel LLM meraklısının çalıştırması gerçekçi değil
Bu model bana harika bir pelikan çizimi yaptırmakla kalmadı, onu animasyona da dönüştürdü
İlgili bağlantı
Açıkçası biraz hayal kırıklığı yaşıyorum. GLM 5.1, Opus ya da Codex'ten çok daha iyi TypeScript üretiyor ama uzun bağlamlarda bazen garip moda giriyor. Yine de 200k token'ın üzerinde istikrarlı çalışan oturumlarım da oldu
/compactkomutunu kullanmak gerekiyorGLM-5.0, açık kaynak modeller arasında gerçekten güçlü bir model. Dahili benchmark'larda sürekli üst sıralarda yer alıyor ve GPT-5.2 ile benzer seviyede. Onu kodlamadan çok yapılandırılmamış görevler için kullanıyorum
Benim testlerimde GLM 5.1, GLM 5'ten daha kötü performans gösteriyor
Karşılaştırma bağlantısı
Model artık ajan odaklı/kodlama merkezli olacak şekilde ayarlanmış gibi görünüyor
Model kalitesini ajanın ürettiği kodun çalışma hızı ile değerlendirme yaklaşımı ilginç. Ben testleri benchmark oluşturup, bir temel çizgi belirleyip, ardından 1.4 kat veya daha fazla iyileştirme hedefleyerek yapıyorum. Opus 4.6, Rust kodunda düşük seviyeli optimizasyonlar bulup öncekinin 6 katı hız elde ederken tüm testleri de geçti. Bu yaklaşım, gerçek performansı daha pratik şekilde karşılaştırmayı mümkün kılıyor
Yorumlara bakınca sanki herkes bu modeli uzun süredir kullanıyormuş gibi konuşuyor, gerçekten öyle mi merak ediyorum
Yerelde ajan kodlama için çoğunlukla GLM 4.7 Flash sürümünü kullanıyorum ve gerçekten harika. Bu sefer de bir Flash sürümü gelir diye umuyordum ama sürüm notlarında buna dair bir şey yoktu, o yüzden biraz üzüldüm. Yine de yakında geleceğine inanıyorum