GLM-5.1: Uzun Vadeli Görev Yürütmeye Doğru Evrim

(z.ai)

8 puan yazan GN⁺ 22 일 전 | 1 yorum | WhatsApp'ta paylaş

Yeni nesil agentic engineering modeli GLM-5.1, kodlama ve problem çözme yeteneklerini büyük ölçüde güçlendiren amiral gemisi sürüm olarak, uzun vadeli optimizasyon ve sürekli iyileştirme odağıyla tasarlandı
SWE-Bench Pro, NL2Repo ve Terminal-Bench 2.0 gibi başlıca benchmark'larda en üst düzey performans gösterirken, uzun süreli tekrarlı çalıştırmalarda da üretken sürekliliği koruyor
VectorDBBench, KernelBench ve web uygulaması geliştirme senaryoları gibi alanlarda yüzlerce ila binlerce yineleme boyunca performansını artırmayı sürdürüyor; kendi loglarını analiz edip stratejisini değiştirerek darboğazları gideriyor
Model, öz değerlendirme ve yapısal geçişler yoluyla karmaşık yazılım mühendisliği görevlerinde de verimli çalışıyor ve uzun süreli çalıştırmalarda çıktı kalitesi istikrarlı biçimde artıyor
MIT lisanslı açık kaynak olarak yayımlandı; çeşitli platformlar ve framework'lerde kullanılabiliyor ve uzun vadeli optimizasyon odaklı yapay zeka modelleri için yeni bir standart olarak sunuluyor

GLM-5.1 Genel Bakış

GLM-5.1, yeni nesil bir agentic engineering modeli ve önceki sürümlere kıyasla kodlama performansı ciddi biçimde geliştirilmiş amiral gemisi model konumunda
SWE-Bench Pro'da en yüksek performansı kaydederken, NL2Repo (repo oluşturma) ve Terminal-Bench 2.0 (gerçek terminal işleri) testlerinde de GLM-5'e karşı belirgin üstünlük sağlıyor
Sadece tek seferlik çalıştırma performansına değil, uzun vadeli optimizasyon yeteneği ve sürekli problem çözme kabiliyetine odaklanacak şekilde tasarlandı
Belirsiz problemleri daha iyi değerlendiriyor, uzun oturumlarda üretkenliğini koruyor ve tekrarlı deneyler ile strateji güncellemeleri sayesinde yüzlerce yinelemede bile performansını artırmayı sürdürüyor
Daha uzun süre çalıştıkça sonuçları iyileşen bir yapıya sahip; bu yüzden uzun ufuklu çalışma kabiliyeti (long-horizon capability) temel özelliklerinden biri olarak öne çıkıyor

Karmaşık Yazılım Mühendisliği Görevleri

GLM-5.1, karmaşık yazılım mühendisliği görevlerinde en üst düzey performansa ulaşıyor
Önceki modeller ilk performans artışından sonra hızla durağanlaşırken, GLM-5.1 uzun vadeli agentic görevlerde de verimliliğini koruyor
Model problemi alt parçalara ayırıyor, deneyler yürütüyor, sonuçları analiz ederek darboğazları belirliyor ve yinelemeli akıl yürütme ile stratejisini güncelliyor
Bunu, giderek daha az yapılandırılmış üç görevde gösteriyor
- Vektör arama optimizasyon problemi (tek sayısal metrik temelli)
- GPU kernel benchmark'ı (problem bazında hız artışı ölçümü)
- Web uygulaması geliştirme (açık bir metrik olmadan öz değerlendirme temelli iyileştirme)

Senaryo 1: 600 Yineleme ile Vektör Veritabanı Optimizasyonu

VectorDBBench, yaklaşık en yakın komşu araması için yüksek performanslı bir veritabanı oluşturan modelin kodlama yeteneğini değerlendiren açık kaynak bir challenge
Modele Rust tabanlı iskelet kod ve HTTP API endpoint'leri veriliyor; model 50 araç çağrısı (tool-call) içinde dosya okuma/yazma, derleme, test ve profiling işlemlerini yapıyor
Önceki en iyi performans Claude Opus 4.6'nın 3,547 QPS'i (Recall ≥ 95%) idi
GLM-5.1, harici bir optimizasyon döngüsü ekleyerek 600'den fazla yineleme (6.000'den fazla araç çağrısı) gerçekleştirdi ve sonunda 21.5k QPS elde etti
- Bu, tek bir 50 çağrılık oturuma kıyasla yaklaşık 6 kat iyileşme anlamına geliyor
Performans artışı basamaklı (staircase) bir örüntü gösteriyor; kademeli ayarlarla yapısal geçişler dönüşümlü ilerliyor
- Yaklaşık 90. yineleme: IVF cluster probing + f16 vector compression eklendi → 6.4k QPS
- Yaklaşık 240. yineleme: u8 pre-scoring + f16 re-ranking iki aşamalı pipeline eklendi → 13.4k QPS
Toplam 6 yapısal geçiş yaşandı; bunların her biri modelin kendi loglarını analiz ederek darboğazları tespit etmesinin sonucu
Recall değerinin %95'in altına düştüğü noktalar çoğunlukla yeni stratejilerin araştırıldığı aşamalarda yoğunlaştı

Senaryo 2: 1.000'den Fazla Yineleme ile Makine Öğrenimi İş Yükü Optimizasyonu

KernelBench, PyTorch referans uygulamasını aynı çıktıyı veren ancak daha hızlı çalışan bir GPU kernel'ine dönüştürme becerisini ölçüyor
Üç seviyeden oluşuyor (Level 1~3); Level 3, MobileNet, VGG, MiniGPT, Mamba gibi tam model düzeyinde optimizasyonları içeriyor
Varsayılan torch.compile ayarı 1.15×, max-autotune ise 1.49× hız artışı sağlıyor
GLM-5.1, Level 3'te 3.6× hız artışı kaydederek GLM-5'e göre çok daha uzun süre etkili optimizasyon yapabildiğini gösterdi
GLM-5 ilk hızlı yükselişten sonra durağanlaşıyor; Claude Opus 4.5 daha uzun sürüyor ancak son bölümde yavaşlıyor
Claude Opus 4.6, sonunda 4.2× ile en yüksek performansı koruyor ve hâlâ ek iyileştirme alanı bulunduğu görülüyor

Senaryo 3: 8 Saat Boyunca Linux Masaüstü Tarzı Web Uygulaması Oluşturma

Web sitesi oluşturma, açık bir sayısal metriği olmayan öznel bir görev; değerlendirme ölçütleri tamamlanmışlık, görsel kalite ve etkileşim kalitesi
Test prompt'u: “Linux tarzı masaüstü ortamını bir web uygulaması olarak oluştur”
- Başlangıçta kod, tasarım veya ara geri bildirim verilmiyor
Modellerin çoğu temel bir UI oluşturup dururken, GLM-5.1 kendi çıktısını gözden geçirip iyileştirme döngüsü kurarak gelişimini sürdürüyor
8 saat boyunca yinelemeli çalıştırmada, başlangıçtaki basit yerleşim zamanla tam bir masaüstü ortamına genişliyor
- Dosya gezgini, terminal, metin editörü, sistem monitörü, hesap makinesi, oyunlar vb. ekleniyor
- Her özellik tutarlı bir UI içinde birleştiriliyor, stil ve etkileşim kalitesi kademeli olarak iyileştiriliyor
Nihai sonuç, tarayıcı içinde çalışan tam ve görsel olarak tutarlı bir masaüstü ortamı oluyor

Uzun Vadeli Optimizasyonun Anlamı ve Zorluklar

Üç senaryonun tamamında temel değişken yalnızca çalışma süresi değil, ek sürenin gerçekten işe yarayıp yaramadığı
GLM-5.1, GLM-5'e kıyasla üretken ufku (productive horizon) büyük ölçüde genişletiyor
Ancak KernelBench gibi bazı görevlerde hâlâ ilerleme alanı bulunuyor
Kalan zorluklar
- Kademeli ayarlar sınırına ulaştığında yerel optimumdan çıkabilmek
- Binlerce araç çağrısı boyunca tutarlılığı korumak
- Açık sayısal metriği olmayan görevlerde güvenilir öz değerlendirme (self-evaluation) yapmak
GLM-5.1, bu uzun vadeli optimizasyon yönünde ilk adım olarak sunuluyor

Benchmark Karşılaştırma Özeti

GLM-5.1, SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 gibi başlıca kodlama benchmark'larında GLM-5'i geride bırakıyor
Reasoning, Coding, Agentic genelinde rakip modellere karşı üst sıralarda yer alıyor
Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 gibi güncel modellerle karşılaştırıldığında da birçok kalemde yakın ya da üstün performans gösteriyor

Yayın ve Kullanım

MIT lisansı ile açık kaynak olarak yayımlandı
api.z.ai ve BigModel.cn üzerinden kullanılabiliyor; Claude Code ve OpenClaw ile uyumlu
GLM Coding Plan aboneleri model adını "GLM-5.1" olarak değiştirerek hemen kullanabiliyor
- Yoğun saatlerde (UTC+8 14:00–18:00) 3×, yoğun olmayan saatlerde 2× kota tüketiyor
- Nisan sonuna kadar yoğun olmayan saatlerde 1× promosyon uygulanıyor
GUI ortamı olarak Z Code sunuluyor; SSH üzerinden uzaktan geliştirme ve mobil çalışma destekleniyor
Model ağırlıkları HuggingFace ve ModelScope üzerinde yayımlandı
vLLM ve SGLang gibi başlıca inference framework'leri destekleniyor; GitHub'da dağıtım kılavuzu sağlanıyor
Yakında Z.ai chat platformu üzerinde de kullanılabilecek

Değerlendirme Ayarları ve Notlar

HLE ve diğer akıl yürütme görevleri: en fazla 163.840 token üretimi, değerlendirme modeli olarak GPT-5.2 kullanıldı
SWE-Bench Pro: 200K context window, OpenHands tabanlı yürütme
NL2Repo: zararlı komut tespiti ve engelleme dahil
Terminal-Bench 2.0: 16 CPU, 32GB RAM sınırı, 3 saat timeout
KernelBench Level 3: H100 GPU ortamı, 1.200 araç çağrısı sınırı, bağımsız denetim yapıldı
CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 gibi çeşitli harici benchmark'larda bağımsız değerlendirmeler gerçekleştirildi

1 yorum

GN⁺ 22 일 전

Hacker News yorumları

Her gün üç şey giderek daha net hale geliyor
(1) OpenAI ve Anthropic artık neredeyse rekabetçi değil
(2) Yerel/özel çıkarımın yapay zekanın geleceği olduğuna eminim
(3) Hâlâ bir ‘katil ürün’ ortaya çıkmadı, yani artık gerçekten onu inşa etme zamanı
- ‘Katil ürün yok’ sözüne katılmıyorum. Kodlama asistanları ve LLM'ler hayatımda gördüğüm en hayranlık verici teknolojik başarı. Sanayi Devrimi öncesi ve sonrası gibi, yakında insanlık tarihi de yapay zekadan önce ve sonra diye ayrılacak diye düşünüyorum
- Yapay zeka kodlama asistanları şimdiye kadar yapılmış en faydalı teknolojilerden biri. Modelin kalitesi en önemli unsur, bu yüzden donanım kökten değişmedikçe yerel çıkarımın ana akım olması zor görünüyor
- İnsanların GPU'lara 50 bin dolar harcayıp bunu kendilerinin çalıştırmasının, havalı bir hobi projesi olmanın ötesinde ne gibi somut bir avantajı olduğunu merak ediyorum
Az önce Claude Mythos ile ilgili bir yazı gördüm ve bu kez basit bir iyileştirme değil, gerçekten bir sıçrama gibi hissettiriyor. Ne zaman yayınlanacağını henüz bilmiyorum ama özellikleri çılgın derecede güçlü görünen bir sonraki GLM sürümünü de heyecanla bekliyorum
Unsloth quantization sürümü de birlikte yayınlandı. GLM-5.1-GGUF modelinin IQ4_XS sürümü 754B parametre ve 361GB boyutunda, bu yüzden sıradan bir yerel LLM meraklısının çalıştırması gerçekçi değil
- İyi bir yazılım desteği varsa SSD offloading de mümkün. Elbette o noktada buna ‘çalıştırmak’tan çok ‘sürünmek’ demek gerekir ama yine de yerelde yanıt alabilirsiniz. Son dönemde SSD offloading'i doğrudan hesaba katıp n-gram, dahili embedding parametreleri yapısını tasarlama girişimleri de ortaya çıkıyor
Bu model bana harika bir pelikan çizimi yaptırmakla kalmadı, onu animasyona da dönüştürdü
İlgili bağlantı
- Çok daha gerçekçi tasvir etmiş. Pelikanın bisiklete binmesindense gökyüzünde uçması daha doğal
- Simon, artık daha iyi bir benchmark yapmanın zamanı geldi
Açıkçası biraz hayal kırıklığı yaşıyorum. GLM 5.1, Opus ya da Codex'ten çok daha iyi TypeScript üretiyor ama uzun bağlamlarda bazen garip moda giriyor. Yine de 200k token'ın üzerinde istikrarlı çalışan oturumlarım da oldu
- İyi çalışıyor ve hızı da makulse gerçekten etkileyici. Dün Kimi K2.5'in çözemediği bir problemi çözdü. Yine de hâlâ bazen yavaş olabiliyor. Opus 4.5 seviyesine yakın hissettiriyor
- Ben bağlam penceresini 100k olarak ayarlayıp düzenli olarak compact yapıyor ya da durumu belgeleyip yeni bir oturum başlatıyorum. Opus 4.6 bu aralar kararsız olduğundan çoğunlukla GLM 5.1 kullanıyorum. Açık modellerin kalitesinin bu kadar yükselmiş olması şaşırtıcı
- Açık kaynak modelin kapalı modelden daha iyi olması kullanıcı açısından net kazanç
- 100k token civarına gelince yeni bir oturum açmak ya da /compact komutunu kullanmak gerekiyor
- Eski Claude ve Codex günlerinden kalma alışkanlıkla hâlâ sık sık bağlamı temizliyorum. En yeni modellere bile devasa bağlamlarda henüz güvenmiyorum
GLM-5.0, açık kaynak modeller arasında gerçekten güçlü bir model. Dahili benchmark'larda sürekli üst sıralarda yer alıyor ve GPT-5.2 ile benzer seviyede. Onu kodlamadan çok yapılandırılmamış görevler için kullanıyorum
- 5.1'i henüz denemedim ama PHP kodlamasında Sonnet/Opus/GPT-5 ile %99 benzer sonuç veriyor. Üstelik yerelde de çalıştırılabiliyor
- Python ↔ Cython dönüşümü için bir veri kümesi oluşturuyorum ve Gemini Pro 3.1'den sonra en yüksek kabul oranını (%16) gösteriyor. Orta seviye modeller %6~7 civarında kaldığı için kıyas bile kabul etmiyor
- Benim kullanım senaryom kod yazmaktan çok kod tabanını anlama ve belge analizi tarafında ve bu model, ABD merkezli modellerden yarı fiyatına daha iyi çalışıyor
Benim testlerimde GLM 5.1, GLM 5'ten daha kötü performans gösteriyor
Karşılaştırma bağlantısı
Model artık ajan odaklı/kodlama merkezli olacak şekilde ayarlanmış gibi görünüyor
- Özellikle (none) sürümünde performans düşüşü belirgin
Model kalitesini ajanın ürettiği kodun çalışma hızı ile değerlendirme yaklaşımı ilginç. Ben testleri benchmark oluşturup, bir temel çizgi belirleyip, ardından 1.4 kat veya daha fazla iyileştirme hedefleyerek yapıyorum. Opus 4.6, Rust kodunda düşük seviyeli optimizasyonlar bulup öncekinin 6 katı hız elde ederken tüm testleri de geçti. Bu yaklaşım, gerçek performansı daha pratik şekilde karşılaştırmayı mümkün kılıyor
Yorumlara bakınca sanki herkes bu modeli uzun süredir kullanıyormuş gibi konuşuyor, gerçekten öyle mi merak ediyorum
- Blog yazısı yeni yayımlandı ama model iki haftadır açıktı
- Bölgemdeki tenis kortu rezervasyon sitesi bozulunca GLM-5.1'den API'yi analiz etmesini istedim; 5 dakika içinde /cancel.php endpoint'ini bulup blind SQL injection ile rezervasyon ID'lerini çıkardı. Fazlasıyla ataktı ama gerçekten etkileyiciydi
- Epey uzun zamandır açıktı
Yerelde ajan kodlama için çoğunlukla GLM 4.7 Flash sürümünü kullanıyorum ve gerçekten harika. Bu sefer de bir Flash sürümü gelir diye umuyordum ama sürüm notlarında buna dair bir şey yoktu, o yüzden biraz üzüldüm. Yine de yakında geleceğine inanıyorum

GLM-5.1: Uzun Vadeli Görev Yürütmeye Doğru Evrim

GLM-5.1 Genel Bakış

Karmaşık Yazılım Mühendisliği Görevleri

Senaryo 1: 600 Yineleme ile Vektör Veritabanı Optimizasyonu

Senaryo 2: 1.000'den Fazla Yineleme ile Makine Öğrenimi İş Yükü Optimizasyonu

Senaryo 3: 8 Saat Boyunca Linux Masaüstü Tarzı Web Uygulaması Oluşturma

Uzun Vadeli Optimizasyonun Anlamı ve Zorluklar

Benchmark Karşılaştırma Özeti

Yayın ve Kullanım

Değerlendirme Ayarları ve Notlar

İlgili okumalar

1 yorum

Hacker News yorumları