6 puan yazan GN⁺ 2026-02-12 | 4 yorum | WhatsApp'ta paylaş
  • Yapay zekanın verimliliğini ve uzun süreli görev yürütme yeteneğini güçlendiren büyük dil modeli
  • Önceki sürüme kıyasla 744 milyar parametreye (40 milyar aktif) ölçeğine genişletildi ve ön eğitim verisi 28,5 trilyon tokena çıkarıldı
  • DeepSeek Sparse Attention (DSA) entegrasyonu ile uzun bağlam işleme yeteneği korunurken dağıtım maliyeti azaltıldı
  • Yeni eşzamansız pekiştirmeli öğrenme altyapısı slime ile eğitim verimliliği artırıldı ve çeşitli benchmark'larda en üst düzey performans kaydedildi
  • Açık kaynak olarak yayımlandı; Hugging Face, ModelScope, Z.ai platformu gibi yerlerden erişilebiliyor ve Claude Code ile OpenClaw ile uyumlu

GLM-5 genel bakış

  • GLM-5, karmaşık sistem mühendisliği ve uzun soluklu ajan görevlerini yerine getirmeyi hedefleyecek şekilde tasarlanmış bir model
    • GLM-4.5'e kıyasla parametre sayısı 355 milyardan (32 milyar aktif) 744 milyara (40 milyar aktif) çıktı
    • Ön eğitim verisi 23 trilyondan 28,5 trilyon tokena genişletildi
  • DeepSeek Sparse Attention (DSA) entegre edilerek uzun bağlam işleme yeteneği korunurken dağıtım maliyeti büyük ölçüde düşürüldü
  • slime adlı eşzamansız pekiştirmeli öğrenme altyapısı devreye alınarak eğitim throughput'u ve verimlilik artırıldı, ayrıntılı sonradan eğitim yinelemeleri mümkün hale geldi

Performans artışı ve benchmark sonuçları

  • GLM-5, GLM-4.7'ye kıyasla genel performans artışı gösteriyor ve Claude Opus 4.5 seviyesine yaklaşıyor
  • Dahili değerlendirme seti CC-Bench-V2 içinde frontend, backend ve uzun süreli görevlerin tamamında güçlü sonuçlar elde etti
  • Vending Bench 2'de açık kaynak modeller arasında 1. oldu; 1 yıllık otomat işletme simülasyonunda nihai bakiye 4.432 dolar seviyesine ulaştı
  • Muhakeme, kodlama ve ajan görevleri genelinde dünya çapında en üst düzey açık kaynak performansına sahip
    • Örnek: SWE-bench Verified 77,8 puan, BrowseComp 62,0 puan, τ²-Bench 89,7 puan
  • GPT-5.2, Gemini 3.0 Pro gibi üst düzey modellerle arasındaki farkı daraltıyor

Açık kaynak yayını ve erişim yolları

  • GLM-5, MIT lisansı ile yayımlandı; model ağırlıkları Hugging Face ve ModelScope üzerinden indirilebiliyor
  • Z.ai, BigModel.cn, api.z.ai gibi servislerde API olarak kullanılabiliyor
  • Claude Code ve OpenClaw ile uyumlu olduğu için çeşitli geliştirme ortamlarına entegre edilebiliyor
  • Z.ai platformunda ücretsiz deneme sunuluyor

Ofis ve belge oluşturma özellikleri

  • GLM-5, “sohbetten işe” geçişi hedefliyor ve bilgi çalışanları ile mühendisler için bir ofis aracı rolü üstleniyor
  • Metin ya da kaynak materyalleri doğrudan .docx, .pdf, .xlsx biçimlerine dönüştürerek PRD, sınav kağıdı, finans raporu, menü gibi tamamlanmış belgeler üretebiliyor
  • Z.ai uygulaması, PDF/Word/Excel üretimini destekleyen bir Agent modu sunuyor ve çok turlu iş birliğini mümkün kılıyor

Geliştirici ve dağıtım desteği

  • GLM Coding Plan aboneleri kademeli olarak GLM-5'e erişebiliyor
    • Max planı kullanıcıları, "GLM-5" model adıyla bunu hemen etkinleştirebiliyor
    • GLM-5 istekleri, GLM-4.7'ye göre daha fazla kota tüketiyor
  • GUI ortamını tercih eden kullanıcılar için Z Code ajan geliştirme ortamı sunuluyor
  • OpenClaw framework'ü üzerinden GLM-5, uygulamalar ve cihazlar genelinde çalışan kişisel asistan tipi bir ajan olarak kullanılabiliyor

Yerel dağıtım ve donanım uyumluluğu

  • GLM-5, vLLM, SGLang gibi çıkarım framework'lerini destekliyor ve resmi GitHub'da dağıtım yönergeleri sunuluyor
  • NVIDIA dışı yonga setlerinde de (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon vb.) çalışabiliyor
    • Kernel optimizasyonu ve model kuantizasyonu sayesinde makul throughput elde ediliyor

4 yorum

 
GN⁺ 2026-02-12
Hacker News yorumları
  • Pelican’ın OpenRouter üzerinden üretilen çıktısını gördüm
    Kuşun kendisi sağlam bir kuş gibi görünüyor ama bisiklet kadrosu olarak pek iyi değil
    İlgili bağlantı

    • Simon’ın sürdürdüğü gerçekten anlamlı tek benchmark sistemine teşekkürler
      Pelican bisiklet testinin bağlamını burada görebilirsiniz
    • Bunun gerçekten önemli bir test olduğunu düşünüyorum, Simon’a selam olsun
    • Artık Pelican benchmark’ının devrinin geçtiğini hissediyorum
      SVG zaten her yerde, daha gerçekçi yeni bir senaryoya ihtiyaç var
    • Bu test ortaya çıkmadan önce kaç tane Pelican bisiklet SVG’si vardı merak ediyorum
      Acaba bu tür sonuçlar eğitim verisini kirletiyor olabilir mi diye endişeleniyorum
    • Kanatları bile olmayan bir kuşa ‘sağlam kuş’ demenin AI beklenti açığına simgesel bir örnek olduğunu düşünüyorum
      Yapay zekanın kendi kendine ‘perdeli ayak lazım’ deyip gerçek görselde bunun olmaması ilginç
      MMLU veya AIME’de %90 doğruluğu ‘çözülmüş problem’ sayan yaklaşım kaygı verici
      Gerçek AGI %100 doğruluk sağlamalı ama biz çok kolay tatmin oluyoruz
  • Bundan sonra gri pazar distillation tabanlı hızlı kopyalamanın kaçınılmaz olduğunu düşünüyorum
    Eskiden N-1, N-2 modellerin cazip olmayacağını sanıyordum ama artık kullanıcı tercihleri bile doygunluğa ulaştı, o kadarı bile yeterince tatmin edecek gibi görünüyor
    Opus 4.5 kesin bir sıçramaydı ama 4.6 iş akışımı değiştirmedi
    Sonuçta ‘insanlık tarihinin en büyük hırsızlığının’ ardından ‘en büyük karmik karşılık’ gelecek gibi duruyor
    Kullanıcılar Çin yapımı yapay zekanın ABD’li büyük teknoloji şirketlerinden çalınmış olmasını hiç umursamayacaktır

    • LLM şirketleri eğitim verisi kullanımını meşrulaştırıyorsa, distiller tarafının LLM çıktılarıyla eğitim yapması da aynı mantıkla yasal olmalı
      “Sadece insanlar gibi öğrendik, neden yasa dışı olsun?” iddiası öne sürülebilir
    • Distillation’ı engellemek asıl yasa dışı olmalı
      Binlerce AI üretimli içerik sitesi kurup her gönderide prompt ve model bilgisini açıklamak yeterli
      Sonra başkaları bunları ‘tesadüfen’ crawl edip eğitimde kullanır
    • Opus 4.6’da öne çıkan şey uzun görev sürekliliği
      Eskisine göre iki kat daha ileri gidiyormuş gibi hissettiriyor, geri dönmek istemiyorum
    • Ama token tüketimi o kadar fazla ki verimlilik açısından gerileme gibi geliyor
  • Son benchmark’lar etkileyici ama karşılaştırılan modeller eski nesil (Opus 4.5, GPT-5.2)
    Bu aralar açık modeller benchmark puanlarında yüksek ama gerçek kullanım hissi beklentinin altında kalıyor
    Benchmaxxing diye bir şey kesinlikle var

    • Open-weight modellere yönelik eleştiriler fazla saldırgan geliyor
      20 benchmark çalıştırmak da kolay iş değil ve yeni nesil model çıkalı sadece 5 gün oldu
      Pek çok geliştirici kapalı model tapınmasına kapılmış durumda ve farklı model ailelerinde aynı prompt’un işe yaramadığını bilmiyor
      GLM-4.7’yi sık kullanıyorum, Sonnet 4.5 seviyesinde; GLM-5 de muhtemelen Opus 4.5 düzeyindedir
    • GLM-4.7 eğer 4.5 ya da 5.2 seviyesindeyse bu başlı başına muazzam bir sıçrama demektir
    • Bugünün modelleri sonuçta sadece token üreticisi gibi geliyor
      Kör testte ayırt edemeyecek kadar benziyorlar
      Claude ile ChatGPT yanıtlarını karşılaştırınca da neredeyse aynı
      Sonunda çoğu kullanım için Toyota seviyesinde bir model yeterli oluyor
    • Sorun RLHF’nin (insan geri bildirimiyle pekiştirmeli öğrenme) sınırları
      Algoritmik yenilik mümkün ama insan verisi üretim maliyeti çok yüksek olduğu için ölçeklenmiyor
      Açık kaynak modellerde hâlâ çok sayıda sözdizimi hatası var, frontier modeller ise bunları neredeyse çözmüş durumda
    • Anthropic, OpenAI ve Google modelleri gerçek kullanıcı verisiyle iyileştiriyor
      Çin laboratuvarları ise benchmark merkezli olduğu için fark oluşuyor
      Kendi kendine barındırma ile sürekli iyileştirme birlikte yürütülmesi zor şeyler
  • Çin açık kaynağı sayesinde kendi barındırdığımız zekâya sahip olabileceğiz gibi görünüyor
    Maliyet açısından verimsiz ama internet bağlantısı olmadan da bağımsız çalışabilmesi hoşuma gidiyor
    Sonuçta büyük modelleri yerelde çalıştırabilen tek tüketici seçeneği macOS gibi duruyor

    • Ben Claude Max abonelik limitini sık sık aşıyorum, bu yüzden 2x RTX3090 ve kuantize Qwen3 modelleriyle idare ediyorum
      Gizlilik ve erişilebilirlik açısından da kendi kendine barındırma değerli
      Özellikle ABD’de dijital düzenlemelerin sertleşmesine karşı alternatif gerekli
    • Open-weight model olsa bile eğitim verisi ve sansür kriterleri hâlâ kapalı
      Yine de ince ayarla önyargıları düzeltebilmek önemli bir avantaj
    • 128GB VRAM’li Strix Halo makinesi yaklaşık 3 bin dolar seviyesinde ve yerelde oldukça iyi modeller çalıştırabiliyor
      GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash öneririm
      1-2 yıl içinde tüketici donanımında bile 512GB sınıfı modelleri çalıştırabileceğimizi umuyorum
    • macOS yerine evde headless Linux inference box bulundurmak da iyi bir fikir
      Ev ağının geri dönüşü
    • Bana göre doğrudan self-hosting’den çok hosting’in metalaşması daha önemli
      Asıl mesele istediğin zaman sağlayıcı değiştirme özgürlüğü
  • GLM-4.7’yi birkaç haftadır kullandım, Sonnet’e benzer seviyede
    Ama daha net talimat gerekiyor
    Büyük işler için hâlâ Anthropic tarafını kullanıyorum ama küçük ve net işler için GLM fiyat/performans olarak en iyisi

    • Bende de benzer bir deneyim var
      GLM-4.7 kendi haline bırakılınca gereksiz yere dünya kurmaya çalışma eğiliminde
      Ama küçük işlerde Sonnet’e yakın ve fiyatı çok düşük olduğu için yardımcı model olarak kullanışlı
    • Son 6-8 aydır sadece Sonnet kullanıyorum ama Opus’ta sık sık token oburluğu bug’ı oluyor
      Açık modeller 6 ay kadar daha gelişirse geçiş yapmaya hazırım
  • MiniMax M2.5 de bugünden itibaren Chat UI içinde kullanılabiliyor
    GLM kodlama için daha iyi ama MiniMax’i hızı ve araç çağırma becerisi sayesinde günlük işlerde sık kullanıyorum

  • Yeni model OpenRouter’da yayınlandı
    Kendi benchmark’ımda talimat takip etme becerisi çok zayıftı
    chat.md + mcps formatını izleyen bir testti ama doğru düzgün yerine getiremedi

    • Özel araç çağırma formatları modelden modele farklı şekilde öğretildiği için tutarlılık sağlamak zor gibi geliyor
      Diğer frontier modellerde nasıl sonuç aldığınızı merak ediyorum
    • chat.md fikrini sevdim
      Ben de vim keybinding tabanlı bir metin editörü yapıyordum, bu yaklaşım UI ilhamı verebilir
      Gereksiz metni katlama özelliği eklemeyi düşünüyorum
    • Sorun OpenRouter sağlayıcı kalitesi de olabilir
      Bazen performans gerçekten kötü oluyor
    • OpenRouter bazen kuantize modeller barındırdığı için kalite düşüyor
      Mümkünse doğrudan asıl sağlayıcıyı kullanmak daha iyi
  • GLM-4.7-Flash bana göre ilk kez yerel kodlamada kullanılabilecek akıllı bir model gibi hissettirdi
    Claude 4.5 Haiku’ya yakın seviyede ve akıl yürütme süreci şeffaf, yani neden o kararı verdiğini anlayabiliyorsunuz
    Devstral 2 Small veya Qwen-Coder-Next’ten çok daha iyi

    • minimax-m.2 de buna epey yakın seviyede
  • GLM 4.7’yi opencode içinde kullanıyorum
    En iyisi değil ama cömert kullanım limiti sayesinde tüm gün kullanılabiliyor
    Yeni modele erişim hâlâ sınırlı ama beklenti içindeyim

  • Yeni modeli opencode’da kısa süre denedim, oldukça etkileyiciydi
    Büyük çaplı bir devrim değil ama 4.7’ye göre net biçimde daha iyi
    Hafızası ve uzun görev kararlılığı belirgin biçimde gelişmiş

 
jinifor 2026-02-12

Abonelik fiyatı yükselmiş.

 
princox 2026-02-13

İlk üyelikte verilen %50 indirim artık kaldırılmış..

 
fanotify 2026-02-12

Max için erken indirimli yıllık ücret $360'tı, şimdi $672 olmuş...