- GLM-4.7, çok dilli kodlama, terminal tabanlı işler ve bileşik akıl yürütme gibi alanlarda önceki sürüme kıyasla performansı belirgin biçimde artırılmış büyük bir dil modelidir
- SWE-bench, Terminal Bench 2.0, HLE gibi başlıca benchmark'larda sırasıyla +5.8%, +16.5%, +12.4% iyileşme kaydetti
- UI üretim kalitesi iyileştirildi; daha temiz ve modern web sayfaları ile daha doğru slayt düzenleri üretiyor
- Interleaved Thinking, Preserved Thinking, Turn-level Thinking özellikleri sayesinde karmaşık ajan görevlerinde kararlılık ve tutarlılık güçlendirildi
- Z.ai API, OpenRouter, HuggingFace vb. üzerinden dünya genelinde erişilebilir; ayrıca kodlama ajanları ve yerel dağıtımı da destekliyor
Temel performans ve özellikler
- GLM-4.7, GLM-4.6'ya kıyasla genel kodlama ve akıl yürütme yeteneklerinde iyileşme sağladı
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- HLE(Humanity’s Last Exam) benchmark'ında 42.8%(+12.4%) ile matematik ve mantıksal akıl yürütme yetenekleri güçlendirildi
- UI üretim kalitesi (Vibe Coding) iyileştirildi; daha şık web sayfaları ve slaytlar oluşturabiliyor
- Araç kullanma yeteneği geliştirilerek τ²-Bench ve BrowseComp gibi alanlarda yüksek skorlar elde edildi
- Çeşitli senaryolarda (sohbet, yaratıcı üretim, rol yapma vb.) da performans artışı doğrulandı
Benchmark karşılaştırması
- GLM-4.7, GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro gibi modellerle birlikte 17 benchmark üzerinde karşılaştırmalı olarak değerlendirildi
- Reasoning bölümü: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Coding bölümü: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Agent bölümü: BrowseComp 52.0, τ²-Bench 87.4
- Bazı kalemlerde üst seviye modellere çok yakın ya da daha iyi sonuçlar gösterdi
Thinking modu güçlendirildi
- Interleaved Thinking: Yanıt ve araç çağrısından önce düşünme adımlarından geçerek talimat uygulama ve üretim kalitesini artırır
- Preserved Thinking: Çok turlu konuşmalarda düşünme bloklarını koruyarak bilgi kaybını ve tutarsızlığı azaltır
- Turn-level Thinking: İstek karmaşıklığına göre düşünme özelliğini açıp kapatarak doğruluk ve maliyet dengesini ayarlar
- Bu özellikler, uzun süreli ve karmaşık kodlama ajanı görevleri için uygundur
Kullanım ve dağıtım
- Z.ai API platformu ve OpenRouter üzerinden GLM-4.7 modeli kullanılabilir
- Claude Code, Kilo Code, Roo Code, Cline gibi başlıca kodlama ajanlarında entegre destek sunulur
- GLM Coding Plan aboneleri otomatik olarak GLM-4.7'ye yükseltilir; mevcut ayar dosyasında yalnızca model adını değiştirmek yeterlidir
- HuggingFace ve ModelScope üzerinde model ağırlıkları yayımlandı; vLLM ve SGLang framework'leriyle yerel çıkarım desteği sunuluyor
Görsel ve yaratıcı örnekler
- Frontend web sitesi, Voxel Pagoda gibi 3D sanat çalışmaları, posterler, slaytlar ve daha fazlası için çeşitli üretim örnekleri sunuluyor
- Yüksek kontrastlı karanlık mod, animasyon efektleri, rafine yerleşimler gibi unsurlarla tasarım kalitesindeki artış görsel olarak ortaya konuyor
Varsayılan ayarlar ve test koşulları
- Genel işler: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench ve Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, bazı alanlara özel prompt düzenlemeleri uygulandı
Genel değerlendirme
- GLM-4.7, kodlama odaklı AGI gelişim aşaması olarak, yalnızca benchmark skorlarının ötesinde gerçek kullanım deneyiminin kalitesine odaklanıyor
- Model, sadece test performansını değil kullanıcının hissettiği zeka düzeyini ve entegrasyon kalitesini hedefleyecek şekilde tasarlandı
1 yorum
Hacker News yorumları
MoE modellerinin kodlama ajanları, karmaşık akıl yürütme ve araç kullanımına optimize edilmiş olması bana ilginç geldi
358B/32B etkin parametre, 200k bağlam penceresi, OpenAI tarzı tool calling desteği ve İngilizce/Çince odaklı çok dilli bir model
FP16 için 716GB, Q4_K_M için ise yaklaşık 220GB olarak tahmin ediliyor
Teorik olarak nispeten ucuz bir Mac Studio'da bile yerelde çalıştırılabilmesi cazip
Kimik2 gibi yardımcı araçlarla birlikte kullanılırsa, büyük LLM sağlayıcılarına bağımlı olmadan işe yarar bir kodlama desteği alınabilir gibi görünüyor
GLM 4.6'nın 4bit kuantize sürümünde sadece token işleme hızı değil, girdi işleme, tokenizasyon ve prompt yükleme de aşırı uzun sürdü; sabır zorlayıcıydı
Herkes TPS rakamlarından bahsediyor ama gerçekte darboğaz girdi yükleme süresi
Ama pratikte Mac Studio'da çalıştırırsanız çok yavaş olacağı için pişman olma ihtimaliniz yüksek
Donanım ucuzlayana ya da model küçülene kadar ücretli API kullanmanın daha iyi olduğunu düşünüyorum
Çıktı kalitesi GLM‑4.6'dan çok daha zarif hissettiriyor
Muhtemelen kapalı modellerden damıtılmış veri sayesinde ama yine de açık kaynak modelleri tercih ediyorum
Cerebras şu anda GLM 4.6'yı saniyede 1000 token hızında sunuyor
Yakında yeni modele yükseltmeleri muhtemel
GLM 4.7 sonrası nesil modellerin simüle edilmiş yazılım geliştirme organizasyonu ortamında ne kadar iyi çalışacağını merak ediyorum
Örneğin, kendi hatalarını düzelterek faydalı kod biriktirebilirler mi, yoksa sadece teknik borç mu oluştururlar
Üst düzey modellerin (Opus 4.5, Gemini 3 vb.) 'yönetici' rolünü üstlendiği bir yapı hayal ediyorum
İlgili referans: Anthropic'in uzun süre çalışan ajan tasarımı yazısı
Açık kaynak modeller yeterince iyi hale gelirse, Cerebras üzerinde 1k TPS ile çalıştırılabilmeleri büyük avantaj olur
Belirsizlik olduğunda tekrar Opus'a incelettiriyorum
Üst düzey model bir guardrail görevi görür, hızlı ve yetenekli ajanlar da gerçek işi yapar
Yeterince geniş bağlam ve 'zevk/tat' ile bu kombinasyon tek başına yeterli üretkenlik ve zekâyı sağlayabilir
Token hızını düşürüp güç tüketimini azaltarak maliyet tasarrufu sağlanamaz mı diye düşünüyorum
En son baktığımda kapalı beta gibi görünüyordu
Z.ai ucuz ve performansı da fena görünmüyor ama kullanım şartları epey ağır
Rakip model geliştirme yasağı, kusur açıklama yasağı, kullanıcı içeriği için geniş kullanım hakkı verilmesi, Singapur hukukunun geçerli olması gibi maddeler var
Büyük şirketlerin devasa sermaye harcadığı bir ortamda Z.ai'nin dumping stratejisiyle pazarı ele geçirmesi mümkün olabilir
Kısa vadede tüketici için iyi olsa da, uzun vadede rekabetin yok olma riski var
Sonunda şirketlerin ya da bireylerin hayatta kalmak için bu hizmeti kullanmak zorunda kaldığı bir noktaya gelinebilir
ChatGPT trafiğinin %95'i ücretsiz, Gemini'de de geliştiriciler için bol miktarda ücretsiz kredi var
Böyle bir yapıda küçük araştırma laboratuvarlarının rekabet etmesi zor
Yine de Çin laboratuvarları küçük ama inatçı meydan okuyucular gibi görünüyor
“Bir liderin yüzlerce barışçıl protestocunun öldürülmesini emretmesi meşru mudur?” diye sordum
Model bir hata mesajı verip yanıt vermeyi reddetti
Muhtemelen sansür politikası ya da hassas siyasi konular yüzünden
Cerebras'ta (veya Groq'ta) GLM 4.6 kullanıyorum ve bu hız gerçekten geleceğe kısa bir bakış gibi
AGI gelmese bile, böyle modelleri tabletlerde ya da dizüstü bilgisayarlarda çalıştırabilsek bana fazlasıyla yeter
Strix Halo bellek ve bant genişliği açısından yetersiz, bu yüzden uygun değil
Şu anda istediğim performans için çoklu GPU kurulumu gerekiyor
Tüketici ürünlerine de genişlemeleri güzel olurdu ama mevcut hızları, çiplerin ağ üzerinden birbirine bağlandığı mimari sayesinde mümkün
AGI seviyesinde performans muhtemelen önce veri merkezi düzeyinde gerçekleşecek
Abone ol düğmesine bassam da hiçbir şey olmuyor ve Dev Tools'ta TypeError çıkıyor
Bir yapay zeka kodlama modeli şirketi için satın alma deneyiminin bu kadar pürüzlü olması şaşırtıcıydı
Bu modeli Z.ai üzerinde test ettim; matematik ve araştırma odaklı işlerde GPT‑5.2 veya Gemini 3 Pro seviyesinde düşünme gösteriyor
K2 thinking ya da Opus 4.5'in belirgin biçimde önünde
Ücretli kullanıcı promptları ve çıktıları eğitim için kullanılabiliyor ve opt‑out seçeneği yok
synthetic.new gibi üçüncü taraf barındırma seçeneklerinin daha güvenli olduğunu düşünüyorum
GLM 4.6, inference sağlayıcıları açısından çok popülerdi
Birçok kullanıcı onu günlük kodlama için kullanıyor ve 4.7'deki iyileştirmeler bekleniyor
Ürün-pazar uyumu (PMF) kesinlikle var
Birçok yorumda distillation konuşulmuştu; z.ai'nin kodlama planında Claude‑code kullanınca
başka modellerden öğrenilmiş izler hissediliyor (“you’re absolutely right” gibi ifadeler)
Yine de fiyat/performans açısından ezici derecede iyi
Sonuç olarak bunu eğitim kanıtı saymanın zor olduğunu düşünüyorum
Kesin bir yargıya varmak zor
Bu modeli Claude Code API içinde kullanıyorum ve birden fazla aracı birleştirerek işleri halletme konusunda çok iyi
Claude'un haftalık kullanım sınırı da yok ve üç aylık plan 8 dolar gibi ucuz bir fiyatta