8 puan yazan GN⁺ 22 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Yeni nesil agentic engineering modeli GLM-5.1, kodlama ve problem çözme yeteneklerini büyük ölçüde güçlendiren amiral gemisi sürüm olarak, uzun vadeli optimizasyon ve sürekli iyileştirme odağıyla tasarlandı
  • SWE-Bench Pro, NL2Repo ve Terminal-Bench 2.0 gibi başlıca benchmark'larda en üst düzey performans gösterirken, uzun süreli tekrarlı çalıştırmalarda da üretken sürekliliği koruyor
  • VectorDBBench, KernelBench ve web uygulaması geliştirme senaryoları gibi alanlarda yüzlerce ila binlerce yineleme boyunca performansını artırmayı sürdürüyor; kendi loglarını analiz edip stratejisini değiştirerek darboğazları gideriyor
  • Model, öz değerlendirme ve yapısal geçişler yoluyla karmaşık yazılım mühendisliği görevlerinde de verimli çalışıyor ve uzun süreli çalıştırmalarda çıktı kalitesi istikrarlı biçimde artıyor
  • MIT lisanslı açık kaynak olarak yayımlandı; çeşitli platformlar ve framework'lerde kullanılabiliyor ve uzun vadeli optimizasyon odaklı yapay zeka modelleri için yeni bir standart olarak sunuluyor

GLM-5.1 Genel Bakış

  • GLM-5.1, yeni nesil bir agentic engineering modeli ve önceki sürümlere kıyasla kodlama performansı ciddi biçimde geliştirilmiş amiral gemisi model konumunda
  • SWE-Bench Pro'da en yüksek performansı kaydederken, NL2Repo (repo oluşturma) ve Terminal-Bench 2.0 (gerçek terminal işleri) testlerinde de GLM-5'e karşı belirgin üstünlük sağlıyor
  • Sadece tek seferlik çalıştırma performansına değil, uzun vadeli optimizasyon yeteneği ve sürekli problem çözme kabiliyetine odaklanacak şekilde tasarlandı
  • Belirsiz problemleri daha iyi değerlendiriyor, uzun oturumlarda üretkenliğini koruyor ve tekrarlı deneyler ile strateji güncellemeleri sayesinde yüzlerce yinelemede bile performansını artırmayı sürdürüyor
  • Daha uzun süre çalıştıkça sonuçları iyileşen bir yapıya sahip; bu yüzden uzun ufuklu çalışma kabiliyeti (long-horizon capability) temel özelliklerinden biri olarak öne çıkıyor

Karmaşık Yazılım Mühendisliği Görevleri

  • GLM-5.1, karmaşık yazılım mühendisliği görevlerinde en üst düzey performansa ulaşıyor
  • Önceki modeller ilk performans artışından sonra hızla durağanlaşırken, GLM-5.1 uzun vadeli agentic görevlerde de verimliliğini koruyor
  • Model problemi alt parçalara ayırıyor, deneyler yürütüyor, sonuçları analiz ederek darboğazları belirliyor ve yinelemeli akıl yürütme ile stratejisini güncelliyor
  • Bunu, giderek daha az yapılandırılmış üç görevde gösteriyor
    • Vektör arama optimizasyon problemi (tek sayısal metrik temelli)
    • GPU kernel benchmark'ı (problem bazında hız artışı ölçümü)
    • Web uygulaması geliştirme (açık bir metrik olmadan öz değerlendirme temelli iyileştirme)

Senaryo 1: 600 Yineleme ile Vektör Veritabanı Optimizasyonu

  • VectorDBBench, yaklaşık en yakın komşu araması için yüksek performanslı bir veritabanı oluşturan modelin kodlama yeteneğini değerlendiren açık kaynak bir challenge
  • Modele Rust tabanlı iskelet kod ve HTTP API endpoint'leri veriliyor; model 50 araç çağrısı (tool-call) içinde dosya okuma/yazma, derleme, test ve profiling işlemlerini yapıyor
  • Önceki en iyi performans Claude Opus 4.6'nın 3,547 QPS'i (Recall ≥ 95%) idi
  • GLM-5.1, harici bir optimizasyon döngüsü ekleyerek 600'den fazla yineleme (6.000'den fazla araç çağrısı) gerçekleştirdi ve sonunda 21.5k QPS elde etti
    • Bu, tek bir 50 çağrılık oturuma kıyasla yaklaşık 6 kat iyileşme anlamına geliyor
  • Performans artışı basamaklı (staircase) bir örüntü gösteriyor; kademeli ayarlarla yapısal geçişler dönüşümlü ilerliyor
    • Yaklaşık 90. yineleme: IVF cluster probing + f16 vector compression eklendi → 6.4k QPS
    • Yaklaşık 240. yineleme: u8 pre-scoring + f16 re-ranking iki aşamalı pipeline eklendi → 13.4k QPS
  • Toplam 6 yapısal geçiş yaşandı; bunların her biri modelin kendi loglarını analiz ederek darboğazları tespit etmesinin sonucu
  • Recall değerinin %95'in altına düştüğü noktalar çoğunlukla yeni stratejilerin araştırıldığı aşamalarda yoğunlaştı

Senaryo 2: 1.000'den Fazla Yineleme ile Makine Öğrenimi İş Yükü Optimizasyonu

  • KernelBench, PyTorch referans uygulamasını aynı çıktıyı veren ancak daha hızlı çalışan bir GPU kernel'ine dönüştürme becerisini ölçüyor
  • Üç seviyeden oluşuyor (Level 1~3); Level 3, MobileNet, VGG, MiniGPT, Mamba gibi tam model düzeyinde optimizasyonları içeriyor
  • Varsayılan torch.compile ayarı 1.15×, max-autotune ise 1.49× hız artışı sağlıyor
  • GLM-5.1, Level 3'te 3.6× hız artışı kaydederek GLM-5'e göre çok daha uzun süre etkili optimizasyon yapabildiğini gösterdi
  • GLM-5 ilk hızlı yükselişten sonra durağanlaşıyor; Claude Opus 4.5 daha uzun sürüyor ancak son bölümde yavaşlıyor
  • Claude Opus 4.6, sonunda 4.2× ile en yüksek performansı koruyor ve hâlâ ek iyileştirme alanı bulunduğu görülüyor

Senaryo 3: 8 Saat Boyunca Linux Masaüstü Tarzı Web Uygulaması Oluşturma

  • Web sitesi oluşturma, açık bir sayısal metriği olmayan öznel bir görev; değerlendirme ölçütleri tamamlanmışlık, görsel kalite ve etkileşim kalitesi
  • Test prompt'u: “Linux tarzı masaüstü ortamını bir web uygulaması olarak oluştur
    • Başlangıçta kod, tasarım veya ara geri bildirim verilmiyor
  • Modellerin çoğu temel bir UI oluşturup dururken, GLM-5.1 kendi çıktısını gözden geçirip iyileştirme döngüsü kurarak gelişimini sürdürüyor
  • 8 saat boyunca yinelemeli çalıştırmada, başlangıçtaki basit yerleşim zamanla tam bir masaüstü ortamına genişliyor
    • Dosya gezgini, terminal, metin editörü, sistem monitörü, hesap makinesi, oyunlar vb. ekleniyor
    • Her özellik tutarlı bir UI içinde birleştiriliyor, stil ve etkileşim kalitesi kademeli olarak iyileştiriliyor
  • Nihai sonuç, tarayıcı içinde çalışan tam ve görsel olarak tutarlı bir masaüstü ortamı oluyor

Uzun Vadeli Optimizasyonun Anlamı ve Zorluklar

  • Üç senaryonun tamamında temel değişken yalnızca çalışma süresi değil, ek sürenin gerçekten işe yarayıp yaramadığı
  • GLM-5.1, GLM-5'e kıyasla üretken ufku (productive horizon) büyük ölçüde genişletiyor
  • Ancak KernelBench gibi bazı görevlerde hâlâ ilerleme alanı bulunuyor
  • Kalan zorluklar
    • Kademeli ayarlar sınırına ulaştığında yerel optimumdan çıkabilmek
    • Binlerce araç çağrısı boyunca tutarlılığı korumak
    • Açık sayısal metriği olmayan görevlerde güvenilir öz değerlendirme (self-evaluation) yapmak
  • GLM-5.1, bu uzun vadeli optimizasyon yönünde ilk adım olarak sunuluyor

Benchmark Karşılaştırma Özeti

  • GLM-5.1, SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 gibi başlıca kodlama benchmark'larında GLM-5'i geride bırakıyor
  • Reasoning, Coding, Agentic genelinde rakip modellere karşı üst sıralarda yer alıyor
  • Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 gibi güncel modellerle karşılaştırıldığında da birçok kalemde yakın ya da üstün performans gösteriyor

Yayın ve Kullanım

  • MIT lisansı ile açık kaynak olarak yayımlandı
  • api.z.ai ve BigModel.cn üzerinden kullanılabiliyor; Claude Code ve OpenClaw ile uyumlu
  • GLM Coding Plan aboneleri model adını "GLM-5.1" olarak değiştirerek hemen kullanabiliyor
    • Yoğun saatlerde (UTC+8 14:00–18:00) 3×, yoğun olmayan saatlerde 2× kota tüketiyor
    • Nisan sonuna kadar yoğun olmayan saatlerde 1× promosyon uygulanıyor
  • GUI ortamı olarak Z Code sunuluyor; SSH üzerinden uzaktan geliştirme ve mobil çalışma destekleniyor
  • Model ağırlıkları HuggingFace ve ModelScope üzerinde yayımlandı
  • vLLM ve SGLang gibi başlıca inference framework'leri destekleniyor; GitHub'da dağıtım kılavuzu sağlanıyor
  • Yakında Z.ai chat platformu üzerinde de kullanılabilecek

Değerlendirme Ayarları ve Notlar

  • HLE ve diğer akıl yürütme görevleri: en fazla 163.840 token üretimi, değerlendirme modeli olarak GPT-5.2 kullanıldı
  • SWE-Bench Pro: 200K context window, OpenHands tabanlı yürütme
  • NL2Repo: zararlı komut tespiti ve engelleme dahil
  • Terminal-Bench 2.0: 16 CPU, 32GB RAM sınırı, 3 saat timeout
  • KernelBench Level 3: H100 GPU ortamı, 1.200 araç çağrısı sınırı, bağımsız denetim yapıldı
  • CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 gibi çeşitli harici benchmark'larda bağımsız değerlendirmeler gerçekleştirildi

1 yorum

 
GN⁺ 22 일 전
Hacker News yorumları
  • Her gün üç şey giderek daha net hale geliyor
    (1) OpenAI ve Anthropic artık neredeyse rekabetçi değil
    (2) Yerel/özel çıkarımın yapay zekanın geleceği olduğuna eminim
    (3) Hâlâ bir ‘katil ürün’ ortaya çıkmadı, yani artık gerçekten onu inşa etme zamanı

    • ‘Katil ürün yok’ sözüne katılmıyorum. Kodlama asistanları ve LLM'ler hayatımda gördüğüm en hayranlık verici teknolojik başarı. Sanayi Devrimi öncesi ve sonrası gibi, yakında insanlık tarihi de yapay zekadan önce ve sonra diye ayrılacak diye düşünüyorum
    • Yapay zeka kodlama asistanları şimdiye kadar yapılmış en faydalı teknolojilerden biri. Modelin kalitesi en önemli unsur, bu yüzden donanım kökten değişmedikçe yerel çıkarımın ana akım olması zor görünüyor
    • İnsanların GPU'lara 50 bin dolar harcayıp bunu kendilerinin çalıştırmasının, havalı bir hobi projesi olmanın ötesinde ne gibi somut bir avantajı olduğunu merak ediyorum
  • Az önce Claude Mythos ile ilgili bir yazı gördüm ve bu kez basit bir iyileştirme değil, gerçekten bir sıçrama gibi hissettiriyor. Ne zaman yayınlanacağını henüz bilmiyorum ama özellikleri çılgın derecede güçlü görünen bir sonraki GLM sürümünü de heyecanla bekliyorum

  • Unsloth quantization sürümü de birlikte yayınlandı. GLM-5.1-GGUF modelinin IQ4_XS sürümü 754B parametre ve 361GB boyutunda, bu yüzden sıradan bir yerel LLM meraklısının çalıştırması gerçekçi değil

    • İyi bir yazılım desteği varsa SSD offloading de mümkün. Elbette o noktada buna ‘çalıştırmak’tan çok ‘sürünmek’ demek gerekir ama yine de yerelde yanıt alabilirsiniz. Son dönemde SSD offloading'i doğrudan hesaba katıp n-gram, dahili embedding parametreleri yapısını tasarlama girişimleri de ortaya çıkıyor
  • Bu model bana harika bir pelikan çizimi yaptırmakla kalmadı, onu animasyona da dönüştürdü
    İlgili bağlantı

    • Çok daha gerçekçi tasvir etmiş. Pelikanın bisiklete binmesindense gökyüzünde uçması daha doğal
    • Simon, artık daha iyi bir benchmark yapmanın zamanı geldi
  • Açıkçası biraz hayal kırıklığı yaşıyorum. GLM 5.1, Opus ya da Codex'ten çok daha iyi TypeScript üretiyor ama uzun bağlamlarda bazen garip moda giriyor. Yine de 200k token'ın üzerinde istikrarlı çalışan oturumlarım da oldu

    • İyi çalışıyor ve hızı da makulse gerçekten etkileyici. Dün Kimi K2.5'in çözemediği bir problemi çözdü. Yine de hâlâ bazen yavaş olabiliyor. Opus 4.5 seviyesine yakın hissettiriyor
    • Ben bağlam penceresini 100k olarak ayarlayıp düzenli olarak compact yapıyor ya da durumu belgeleyip yeni bir oturum başlatıyorum. Opus 4.6 bu aralar kararsız olduğundan çoğunlukla GLM 5.1 kullanıyorum. Açık modellerin kalitesinin bu kadar yükselmiş olması şaşırtıcı
    • Açık kaynak modelin kapalı modelden daha iyi olması kullanıcı açısından net kazanç
    • 100k token civarına gelince yeni bir oturum açmak ya da /compact komutunu kullanmak gerekiyor
    • Eski Claude ve Codex günlerinden kalma alışkanlıkla hâlâ sık sık bağlamı temizliyorum. En yeni modellere bile devasa bağlamlarda henüz güvenmiyorum
  • GLM-5.0, açık kaynak modeller arasında gerçekten güçlü bir model. Dahili benchmark'larda sürekli üst sıralarda yer alıyor ve GPT-5.2 ile benzer seviyede. Onu kodlamadan çok yapılandırılmamış görevler için kullanıyorum

    • 5.1'i henüz denemedim ama PHP kodlamasında Sonnet/Opus/GPT-5 ile %99 benzer sonuç veriyor. Üstelik yerelde de çalıştırılabiliyor
    • Python ↔ Cython dönüşümü için bir veri kümesi oluşturuyorum ve Gemini Pro 3.1'den sonra en yüksek kabul oranını (%16) gösteriyor. Orta seviye modeller %6~7 civarında kaldığı için kıyas bile kabul etmiyor
    • Benim kullanım senaryom kod yazmaktan çok kod tabanını anlama ve belge analizi tarafında ve bu model, ABD merkezli modellerden yarı fiyatına daha iyi çalışıyor
  • Benim testlerimde GLM 5.1, GLM 5'ten daha kötü performans gösteriyor
    Karşılaştırma bağlantısı
    Model artık ajan odaklı/kodlama merkezli olacak şekilde ayarlanmış gibi görünüyor

    • Özellikle (none) sürümünde performans düşüşü belirgin
  • Model kalitesini ajanın ürettiği kodun çalışma hızı ile değerlendirme yaklaşımı ilginç. Ben testleri benchmark oluşturup, bir temel çizgi belirleyip, ardından 1.4 kat veya daha fazla iyileştirme hedefleyerek yapıyorum. Opus 4.6, Rust kodunda düşük seviyeli optimizasyonlar bulup öncekinin 6 katı hız elde ederken tüm testleri de geçti. Bu yaklaşım, gerçek performansı daha pratik şekilde karşılaştırmayı mümkün kılıyor

  • Yorumlara bakınca sanki herkes bu modeli uzun süredir kullanıyormuş gibi konuşuyor, gerçekten öyle mi merak ediyorum

    • Blog yazısı yeni yayımlandı ama model iki haftadır açıktı
    • Bölgemdeki tenis kortu rezervasyon sitesi bozulunca GLM-5.1'den API'yi analiz etmesini istedim; 5 dakika içinde /cancel.php endpoint'ini bulup blind SQL injection ile rezervasyon ID'lerini çıkardı. Fazlasıyla ataktı ama gerçekten etkileyiciydi
    • Epey uzun zamandır açıktı
  • Yerelde ajan kodlama için çoğunlukla GLM 4.7 Flash sürümünü kullanıyorum ve gerçekten harika. Bu sefer de bir Flash sürümü gelir diye umuyordum ama sürüm notlarında buna dair bir şey yoktu, o yüzden biraz üzüldüm. Yine de yakında geleceğine inanıyorum