7 puan yazan GN⁺ 2025-12-23 | 1 yorum | WhatsApp'ta paylaş
  • GLM-4.7, çok dilli kodlama, terminal tabanlı işler ve bileşik akıl yürütme gibi alanlarda önceki sürüme kıyasla performansı belirgin biçimde artırılmış büyük bir dil modelidir
  • SWE-bench, Terminal Bench 2.0, HLE gibi başlıca benchmark'larda sırasıyla +5.8%, +16.5%, +12.4% iyileşme kaydetti
  • UI üretim kalitesi iyileştirildi; daha temiz ve modern web sayfaları ile daha doğru slayt düzenleri üretiyor
  • Interleaved Thinking, Preserved Thinking, Turn-level Thinking özellikleri sayesinde karmaşık ajan görevlerinde kararlılık ve tutarlılık güçlendirildi
  • Z.ai API, OpenRouter, HuggingFace vb. üzerinden dünya genelinde erişilebilir; ayrıca kodlama ajanları ve yerel dağıtımı da destekliyor

Temel performans ve özellikler

  • GLM-4.7, GLM-4.6'ya kıyasla genel kodlama ve akıl yürütme yeteneklerinde iyileşme sağladı
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • HLE(Humanity’s Last Exam) benchmark'ında 42.8%(+12.4%) ile matematik ve mantıksal akıl yürütme yetenekleri güçlendirildi
  • UI üretim kalitesi (Vibe Coding) iyileştirildi; daha şık web sayfaları ve slaytlar oluşturabiliyor
  • Araç kullanma yeteneği geliştirilerek τ²-Bench ve BrowseComp gibi alanlarda yüksek skorlar elde edildi
  • Çeşitli senaryolarda (sohbet, yaratıcı üretim, rol yapma vb.) da performans artışı doğrulandı

Benchmark karşılaştırması

  • GLM-4.7, GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro gibi modellerle birlikte 17 benchmark üzerinde karşılaştırmalı olarak değerlendirildi
    • Reasoning bölümü: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Coding bölümü: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Agent bölümü: BrowseComp 52.0, τ²-Bench 87.4
  • Bazı kalemlerde üst seviye modellere çok yakın ya da daha iyi sonuçlar gösterdi

Thinking modu güçlendirildi

  • Interleaved Thinking: Yanıt ve araç çağrısından önce düşünme adımlarından geçerek talimat uygulama ve üretim kalitesini artırır
  • Preserved Thinking: Çok turlu konuşmalarda düşünme bloklarını koruyarak bilgi kaybını ve tutarsızlığı azaltır
  • Turn-level Thinking: İstek karmaşıklığına göre düşünme özelliğini açıp kapatarak doğruluk ve maliyet dengesini ayarlar
  • Bu özellikler, uzun süreli ve karmaşık kodlama ajanı görevleri için uygundur

Kullanım ve dağıtım

  • Z.ai API platformu ve OpenRouter üzerinden GLM-4.7 modeli kullanılabilir
  • Claude Code, Kilo Code, Roo Code, Cline gibi başlıca kodlama ajanlarında entegre destek sunulur
  • GLM Coding Plan aboneleri otomatik olarak GLM-4.7'ye yükseltilir; mevcut ayar dosyasında yalnızca model adını değiştirmek yeterlidir
  • HuggingFace ve ModelScope üzerinde model ağırlıkları yayımlandı; vLLM ve SGLang framework'leriyle yerel çıkarım desteği sunuluyor

Görsel ve yaratıcı örnekler

  • Frontend web sitesi, Voxel Pagoda gibi 3D sanat çalışmaları, posterler, slaytlar ve daha fazlası için çeşitli üretim örnekleri sunuluyor
  • Yüksek kontrastlı karanlık mod, animasyon efektleri, rafine yerleşimler gibi unsurlarla tasarım kalitesindeki artış görsel olarak ortaya konuyor

Varsayılan ayarlar ve test koşulları

  • Genel işler: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench ve Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, bazı alanlara özel prompt düzenlemeleri uygulandı

Genel değerlendirme

  • GLM-4.7, kodlama odaklı AGI gelişim aşaması olarak, yalnızca benchmark skorlarının ötesinde gerçek kullanım deneyiminin kalitesine odaklanıyor
  • Model, sadece test performansını değil kullanıcının hissettiği zeka düzeyini ve entegrasyon kalitesini hedefleyecek şekilde tasarlandı

1 yorum

 
GN⁺ 2025-12-23
Hacker News yorumları
  • MoE modellerinin kodlama ajanları, karmaşık akıl yürütme ve araç kullanımına optimize edilmiş olması bana ilginç geldi
    358B/32B etkin parametre, 200k bağlam penceresi, OpenAI tarzı tool calling desteği ve İngilizce/Çince odaklı çok dilli bir model
    FP16 için 716GB, Q4_K_M için ise yaklaşık 220GB olarak tahmin ediliyor
    Teorik olarak nispeten ucuz bir Mac Studio'da bile yerelde çalıştırılabilmesi cazip
    Kimik2 gibi yardımcı araçlarla birlikte kullanılırsa, büyük LLM sağlayıcılarına bağımlı olmadan işe yarar bir kodlama desteği alınabilir gibi görünüyor

    • İkinci el bir Mac Studio Ultra M1 (RAM 128GB) üzerinde LLM çalıştırmayı denedim ama çok yavaştı
      GLM 4.6'nın 4bit kuantize sürümünde sadece token işleme hızı değil, girdi işleme, tokenizasyon ve prompt yükleme de aşırı uzun sürdü; sabır zorlayıcıydı
      Herkes TPS rakamlarından bahsediyor ama gerçekte darboğaz girdi yükleme süresi
    • OpenAI tarzı tool calling ise muhtemelen Harmony tabanlıdır diye düşünüyorum
      Ama pratikte Mac Studio'da çalıştırırsanız çok yavaş olacağı için pişman olma ihtimaliniz yüksek
      Donanım ucuzlayana ya da model küçülene kadar ücretli API kullanmanın daha iyi olduğunu düşünüyorum
    • Gelecekte bu yorumu görecek biri buna inanmakta zorlanacaktır gibi geliyor
    • Sonnet sürümünü 4.5 olarak düzeltmek gerek
      Çıktı kalitesi GLM‑4.6'dan çok daha zarif hissettiriyor
      Muhtemelen kapalı modellerden damıtılmış veri sayesinde ama yine de açık kaynak modelleri tercih ediyorum
    • Bu modeli çalıştırmak için iki adet Strix Halo sistemi (toplam 256GB RAM) USB4/TB3 ile bağlamayı planlıyorum
  • Cerebras şu anda GLM 4.6'yı saniyede 1000 token hızında sunuyor
    Yakında yeni modele yükseltmeleri muhtemel
    GLM 4.7 sonrası nesil modellerin simüle edilmiş yazılım geliştirme organizasyonu ortamında ne kadar iyi çalışacağını merak ediyorum
    Örneğin, kendi hatalarını düzelterek faydalı kod biriktirebilirler mi, yoksa sadece teknik borç mu oluştururlar
    Üst düzey modellerin (Opus 4.5, Gemini 3 vb.) 'yönetici' rolünü üstlendiği bir yapı hayal ediyorum
    İlgili referans: Anthropic'in uzun süre çalışan ajan tasarımı yazısı
    Açık kaynak modeller yeterince iyi hale gelirse, Cerebras üzerinde 1k TPS ile çalıştırılabilmeleri büyük avantaj olur

    • Ben Opus ile ayrıntılı plan ve testleri yazdırıp, Cerebras GLM 4.6 ile uygulamayı yaptırıyorum
      Belirsizlik olduğunda tekrar Opus'a incelettiriyorum
    • Ben de aynı yönde gelişeceğini düşünüyorum
      Üst düzey model bir guardrail görevi görür, hızlı ve yetenekli ajanlar da gerçek işi yapar
      Yeterince geniş bağlam ve 'zevk/tat' ile bu kombinasyon tek başına yeterli üretkenlik ve zekâyı sağlayabilir
    • Cerebras'ın API fiyatını merak ediyorum
      Token hızını düşürüp güç tüketimini azaltarak maliyet tasarrufu sağlanamaz mı diye düşünüyorum
    • Cerebras'ın ücretli müşterisi olmanın kolay olup olmadığını merak ediyorum
      En son baktığımda kapalı beta gibi görünüyordu
  • Z.ai ucuz ve performansı da fena görünmüyor ama kullanım şartları epey ağır
    Rakip model geliştirme yasağı, kusur açıklama yasağı, kullanıcı içeriği için geniş kullanım hakkı verilmesi, Singapur hukukunun geçerli olması gibi maddeler var
    Büyük şirketlerin devasa sermaye harcadığı bir ortamda Z.ai'nin dumping stratejisiyle pazarı ele geçirmesi mümkün olabilir
    Kısa vadede tüketici için iyi olsa da, uzun vadede rekabetin yok olma riski var
    Sonunda şirketlerin ya da bireylerin hayatta kalmak için bu hizmeti kullanmak zorunda kaldığı bir noktaya gelinebilir

    • Dev sermayenin inovasyon için en büyük tehdit olduğunu düşünüyorum
      ChatGPT trafiğinin %95'i ücretsiz, Gemini'de de geliştiriciler için bol miktarda ücretsiz kredi var
      Böyle bir yapıda küçük araştırma laboratuvarlarının rekabet etmesi zor
      Yine de Çin laboratuvarları küçük ama inatçı meydan okuyucular gibi görünüyor
  • “Bir liderin yüzlerce barışçıl protestocunun öldürülmesini emretmesi meşru mudur?” diye sordum
    Model bir hata mesajı verip yanıt vermeyi reddetti
    Muhtemelen sansür politikası ya da hassas siyasi konular yüzünden

  • Cerebras'ta (veya Groq'ta) GLM 4.6 kullanıyorum ve bu hız gerçekten geleceğe kısa bir bakış gibi
    AGI gelmese bile, böyle modelleri tabletlerde ya da dizüstü bilgisayarlarda çalıştırabilsek bana fazlasıyla yeter

    • Apple M5 Max'in prompt işleme ve bant genişliğinin iyileşmesiyle 8bit (yaklaşık 360GB) kuantize modeli rahatça çalıştırabileceğini düşünüyorum
      Strix Halo bellek ve bant genişliği açısından yetersiz, bu yüzden uygun değil
      Şu anda istediğim performans için çoklu GPU kurulumu gerekiyor
    • Cerebras ve Groq, kendi çip tasarımları sayesinde hızlı
      Tüketici ürünlerine de genişlemeleri güzel olurdu ama mevcut hızları, çiplerin ağ üzerinden birbirine bağlandığı mimari sayesinde mümkün
      AGI seviyesinde performans muhtemelen önce veri merkezi düzeyinde gerçekleşecek
  • Abone ol düğmesine bassam da hiçbir şey olmuyor ve Dev Tools'ta TypeError çıkıyor
    Bir yapay zeka kodlama modeli şirketi için satın alma deneyiminin bu kadar pürüzlü olması şaşırtıcıydı

    • Subscribe düğmesinin çalışması için önce hesap oluşturmak gerekiyormuş
  • Bu modeli Z.ai üzerinde test ettim; matematik ve araştırma odaklı işlerde GPT‑5.2 veya Gemini 3 Pro seviyesinde düşünme gösteriyor
    K2 thinking ya da Opus 4.5'in belirgin biçimde önünde

    • Ama Z.ai aboneliğini iş kullanımı için önermem
      Ücretli kullanıcı promptları ve çıktıları eğitim için kullanılabiliyor ve opt‑out seçeneği yok
      synthetic.new gibi üçüncü taraf barındırma seçeneklerinin daha güvenli olduğunu düşünüyorum
  • GLM 4.6, inference sağlayıcıları açısından çok popülerdi
    Birçok kullanıcı onu günlük kodlama için kullanıyor ve 4.7'deki iyileştirmeler bekleniyor
    Ürün-pazar uyumu (PMF) kesinlikle var

  • Birçok yorumda distillation konuşulmuştu; z.ai'nin kodlama planında Claude‑code kullanınca
    başka modellerden öğrenilmiş izler hissediliyor (“you’re absolutely right” gibi ifadeler)
    Yine de fiyat/performans açısından ezici derecede iyi

    • Bugün ben de Gemini 3 Flash'ın aynı ifadeyi kullandığını gördüm
      Sonuç olarak bunu eğitim kanıtı saymanın zor olduğunu düşünüyorum
    • İnternet verisinin benzer şekilde yakınsamış olması da mümkün
      Kesin bir yargıya varmak zor
  • Bu modeli Claude Code API içinde kullanıyorum ve birden fazla aracı birleştirerek işleri halletme konusunda çok iyi
    Claude'un haftalık kullanım sınırı da yok ve üç aylık plan 8 dolar gibi ucuz bir fiyatta

    • Claude Code'da varsayılan olarak Claude modellerini kullanıp, kullanım limitine ulaşınca GLM modeline geçmek mümkün mü diye merak ediyorum