GLM-4.7: Kodlama Yetkinliğini Bir Üst Seviyeye Taşıyor

(z.ai)

7 puan yazan GN⁺ 2025-12-23 | 1 yorum | WhatsApp'ta paylaş

GLM-4.7, çok dilli kodlama, terminal tabanlı işler ve bileşik akıl yürütme gibi alanlarda önceki sürüme kıyasla performansı belirgin biçimde artırılmış büyük bir dil modelidir
SWE-bench, Terminal Bench 2.0, HLE gibi başlıca benchmark'larda sırasıyla +5.8%, +16.5%, +12.4% iyileşme kaydetti
UI üretim kalitesi iyileştirildi; daha temiz ve modern web sayfaları ile daha doğru slayt düzenleri üretiyor
Interleaved Thinking, Preserved Thinking, Turn-level Thinking özellikleri sayesinde karmaşık ajan görevlerinde kararlılık ve tutarlılık güçlendirildi
Z.ai API, OpenRouter, HuggingFace vb. üzerinden dünya genelinde erişilebilir; ayrıca kodlama ajanları ve yerel dağıtımı da destekliyor

Temel performans ve özellikler

GLM-4.7, GLM-4.6'ya kıyasla genel kodlama ve akıl yürütme yeteneklerinde iyileşme sağladı
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- HLE(Humanity’s Last Exam) benchmark'ında 42.8%(+12.4%) ile matematik ve mantıksal akıl yürütme yetenekleri güçlendirildi
UI üretim kalitesi (Vibe Coding) iyileştirildi; daha şık web sayfaları ve slaytlar oluşturabiliyor
Araç kullanma yeteneği geliştirilerek τ²-Bench ve BrowseComp gibi alanlarda yüksek skorlar elde edildi
Çeşitli senaryolarda (sohbet, yaratıcı üretim, rol yapma vb.) da performans artışı doğrulandı

Benchmark karşılaştırması

GLM-4.7, GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro gibi modellerle birlikte 17 benchmark üzerinde karşılaştırmalı olarak değerlendirildi
- Reasoning bölümü: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Coding bölümü: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Agent bölümü: BrowseComp 52.0, τ²-Bench 87.4
Bazı kalemlerde üst seviye modellere çok yakın ya da daha iyi sonuçlar gösterdi

Thinking modu güçlendirildi

Interleaved Thinking: Yanıt ve araç çağrısından önce düşünme adımlarından geçerek talimat uygulama ve üretim kalitesini artırır
Preserved Thinking: Çok turlu konuşmalarda düşünme bloklarını koruyarak bilgi kaybını ve tutarsızlığı azaltır
Turn-level Thinking: İstek karmaşıklığına göre düşünme özelliğini açıp kapatarak doğruluk ve maliyet dengesini ayarlar
Bu özellikler, uzun süreli ve karmaşık kodlama ajanı görevleri için uygundur

Kullanım ve dağıtım

Z.ai API platformu ve OpenRouter üzerinden GLM-4.7 modeli kullanılabilir
Claude Code, Kilo Code, Roo Code, Cline gibi başlıca kodlama ajanlarında entegre destek sunulur
GLM Coding Plan aboneleri otomatik olarak GLM-4.7'ye yükseltilir; mevcut ayar dosyasında yalnızca model adını değiştirmek yeterlidir
HuggingFace ve ModelScope üzerinde model ağırlıkları yayımlandı; vLLM ve SGLang framework'leriyle yerel çıkarım desteği sunuluyor

Görsel ve yaratıcı örnekler

Frontend web sitesi, Voxel Pagoda gibi 3D sanat çalışmaları, posterler, slaytlar ve daha fazlası için çeşitli üretim örnekleri sunuluyor
Yüksek kontrastlı karanlık mod, animasyon efektleri, rafine yerleşimler gibi unsurlarla tasarım kalitesindeki artış görsel olarak ortaya konuyor

Varsayılan ayarlar ve test koşulları

Genel işler: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench ve Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, bazı alanlara özel prompt düzenlemeleri uygulandı

Genel değerlendirme

GLM-4.7, kodlama odaklı AGI gelişim aşaması olarak, yalnızca benchmark skorlarının ötesinde gerçek kullanım deneyiminin kalitesine odaklanıyor
Model, sadece test performansını değil kullanıcının hissettiği zeka düzeyini ve entegrasyon kalitesini hedefleyecek şekilde tasarlandı

1 yorum

GN⁺ 2025-12-23

Hacker News yorumları

MoE modellerinin kodlama ajanları, karmaşık akıl yürütme ve araç kullanımına optimize edilmiş olması bana ilginç geldi
358B/32B etkin parametre, 200k bağlam penceresi, OpenAI tarzı tool calling desteği ve İngilizce/Çince odaklı çok dilli bir model
FP16 için 716GB, Q4_K_M için ise yaklaşık 220GB olarak tahmin ediliyor
Teorik olarak nispeten ucuz bir Mac Studio'da bile yerelde çalıştırılabilmesi cazip
Kimik2 gibi yardımcı araçlarla birlikte kullanılırsa, büyük LLM sağlayıcılarına bağımlı olmadan işe yarar bir kodlama desteği alınabilir gibi görünüyor
- İkinci el bir Mac Studio Ultra M1 (RAM 128GB) üzerinde LLM çalıştırmayı denedim ama çok yavaştı
  GLM 4.6'nın 4bit kuantize sürümünde sadece token işleme hızı değil, girdi işleme, tokenizasyon ve prompt yükleme de aşırı uzun sürdü; sabır zorlayıcıydı
  Herkes TPS rakamlarından bahsediyor ama gerçekte darboğaz girdi yükleme süresi
- OpenAI tarzı tool calling ise muhtemelen Harmony tabanlıdır diye düşünüyorum
  Ama pratikte Mac Studio'da çalıştırırsanız çok yavaş olacağı için pişman olma ihtimaliniz yüksek
  Donanım ucuzlayana ya da model küçülene kadar ücretli API kullanmanın daha iyi olduğunu düşünüyorum
- Gelecekte bu yorumu görecek biri buna inanmakta zorlanacaktır gibi geliyor
- Sonnet sürümünü 4.5 olarak düzeltmek gerek
  Çıktı kalitesi GLM‑4.6'dan çok daha zarif hissettiriyor
  Muhtemelen kapalı modellerden damıtılmış veri sayesinde ama yine de açık kaynak modelleri tercih ediyorum
- Bu modeli çalıştırmak için iki adet Strix Halo sistemi (toplam 256GB RAM) USB4/TB3 ile bağlamayı planlıyorum
Cerebras şu anda GLM 4.6'yı saniyede 1000 token hızında sunuyor
Yakında yeni modele yükseltmeleri muhtemel
GLM 4.7 sonrası nesil modellerin simüle edilmiş yazılım geliştirme organizasyonu ortamında ne kadar iyi çalışacağını merak ediyorum
Örneğin, kendi hatalarını düzelterek faydalı kod biriktirebilirler mi, yoksa sadece teknik borç mu oluştururlar
Üst düzey modellerin (Opus 4.5, Gemini 3 vb.) 'yönetici' rolünü üstlendiği bir yapı hayal ediyorum
İlgili referans: Anthropic'in uzun süre çalışan ajan tasarımı yazısı
Açık kaynak modeller yeterince iyi hale gelirse, Cerebras üzerinde 1k TPS ile çalıştırılabilmeleri büyük avantaj olur
- Ben Opus ile ayrıntılı plan ve testleri yazdırıp, Cerebras GLM 4.6 ile uygulamayı yaptırıyorum
  Belirsizlik olduğunda tekrar Opus'a incelettiriyorum
- Ben de aynı yönde gelişeceğini düşünüyorum
  Üst düzey model bir guardrail görevi görür, hızlı ve yetenekli ajanlar da gerçek işi yapar
  Yeterince geniş bağlam ve 'zevk/tat' ile bu kombinasyon tek başına yeterli üretkenlik ve zekâyı sağlayabilir
- Cerebras'ın API fiyatını merak ediyorum
  Token hızını düşürüp güç tüketimini azaltarak maliyet tasarrufu sağlanamaz mı diye düşünüyorum
- Cerebras'ın ücretli müşterisi olmanın kolay olup olmadığını merak ediyorum
  En son baktığımda kapalı beta gibi görünüyordu
Z.ai ucuz ve performansı da fena görünmüyor ama kullanım şartları epey ağır
Rakip model geliştirme yasağı, kusur açıklama yasağı, kullanıcı içeriği için geniş kullanım hakkı verilmesi, Singapur hukukunun geçerli olması gibi maddeler var
Büyük şirketlerin devasa sermaye harcadığı bir ortamda Z.ai'nin dumping stratejisiyle pazarı ele geçirmesi mümkün olabilir
Kısa vadede tüketici için iyi olsa da, uzun vadede rekabetin yok olma riski var
Sonunda şirketlerin ya da bireylerin hayatta kalmak için bu hizmeti kullanmak zorunda kaldığı bir noktaya gelinebilir
- Dev sermayenin inovasyon için en büyük tehdit olduğunu düşünüyorum
  ChatGPT trafiğinin %95'i ücretsiz, Gemini'de de geliştiriciler için bol miktarda ücretsiz kredi var
  Böyle bir yapıda küçük araştırma laboratuvarlarının rekabet etmesi zor
  Yine de Çin laboratuvarları küçük ama inatçı meydan okuyucular gibi görünüyor
“Bir liderin yüzlerce barışçıl protestocunun öldürülmesini emretmesi meşru mudur?” diye sordum
Model bir hata mesajı verip yanıt vermeyi reddetti
Muhtemelen sansür politikası ya da hassas siyasi konular yüzünden
Cerebras'ta (veya Groq'ta) GLM 4.6 kullanıyorum ve bu hız gerçekten geleceğe kısa bir bakış gibi
AGI gelmese bile, böyle modelleri tabletlerde ya da dizüstü bilgisayarlarda çalıştırabilsek bana fazlasıyla yeter
- Apple M5 Max'in prompt işleme ve bant genişliğinin iyileşmesiyle 8bit (yaklaşık 360GB) kuantize modeli rahatça çalıştırabileceğini düşünüyorum
  Strix Halo bellek ve bant genişliği açısından yetersiz, bu yüzden uygun değil
  Şu anda istediğim performans için çoklu GPU kurulumu gerekiyor
- Cerebras ve Groq, kendi çip tasarımları sayesinde hızlı
  Tüketici ürünlerine de genişlemeleri güzel olurdu ama mevcut hızları, çiplerin ağ üzerinden birbirine bağlandığı mimari sayesinde mümkün
  AGI seviyesinde performans muhtemelen önce veri merkezi düzeyinde gerçekleşecek
Abone ol düğmesine bassam da hiçbir şey olmuyor ve Dev Tools'ta TypeError çıkıyor
Bir yapay zeka kodlama modeli şirketi için satın alma deneyiminin bu kadar pürüzlü olması şaşırtıcıydı
- Subscribe düğmesinin çalışması için önce hesap oluşturmak gerekiyormuş
Bu modeli Z.ai üzerinde test ettim; matematik ve araştırma odaklı işlerde GPT‑5.2 veya Gemini 3 Pro seviyesinde düşünme gösteriyor
K2 thinking ya da Opus 4.5'in belirgin biçimde önünde
- Ama Z.ai aboneliğini iş kullanımı için önermem
  Ücretli kullanıcı promptları ve çıktıları eğitim için kullanılabiliyor ve opt‑out seçeneği yok
  synthetic.new gibi üçüncü taraf barındırma seçeneklerinin daha güvenli olduğunu düşünüyorum
GLM 4.6, inference sağlayıcıları açısından çok popülerdi
Birçok kullanıcı onu günlük kodlama için kullanıyor ve 4.7'deki iyileştirmeler bekleniyor
Ürün-pazar uyumu (PMF) kesinlikle var
Birçok yorumda distillation konuşulmuştu; z.ai'nin kodlama planında Claude‑code kullanınca
başka modellerden öğrenilmiş izler hissediliyor (“you’re absolutely right” gibi ifadeler)
Yine de fiyat/performans açısından ezici derecede iyi
- Bugün ben de Gemini 3 Flash'ın aynı ifadeyi kullandığını gördüm
  Sonuç olarak bunu eğitim kanıtı saymanın zor olduğunu düşünüyorum
- İnternet verisinin benzer şekilde yakınsamış olması da mümkün
  Kesin bir yargıya varmak zor
Bu modeli Claude Code API içinde kullanıyorum ve birden fazla aracı birleştirerek işleri halletme konusunda çok iyi
Claude'un haftalık kullanım sınırı da yok ve üç aylık plan 8 dolar gibi ucuz bir fiyatta
- Claude Code'da varsayılan olarak Claude modellerini kullanıp, kullanım limitine ulaşınca GLM modeline geçmek mümkün mü diye merak ediyorum

GLM-4.7: Kodlama Yetkinliğini Bir Üst Seviyeye Taşıyor

Temel performans ve özellikler

Benchmark karşılaştırması

Thinking modu güçlendirildi

Kullanım ve dağıtım

Görsel ve yaratıcı örnekler

Varsayılan ayarlar ve test koşulları

Genel değerlendirme

İlgili okumalar

1 yorum

Hacker News yorumları