GLM-4.5: Ajanik, Akıl Yürütme ve Kodlama (ARC) Temel Modeli

(arxiv.org)

4 puan yazan GN⁺ 2025-08-13 | 2 yorum | WhatsApp'ta paylaş

GLM-4.5, açık kaynaklı bir Mixture-of-Experts (MoE) büyük dil modeli olup ajanik davranış, akıl yürütme ve kodlama performansında öne çıkıyor
Model, 23T token ile çok aşamalı eğitim, uzman model yinelemesi ve pekiştirmeli öğrenme sayesinde geliştirildi
TAU-Bench, AIME 24, SWE-bench Verified gibi çeşitli temel benchmark'larda üst sıralarda yer aldı
Az sayıda parametreyle de verimli performans sunuyor ve başlıca ticari modellere yaklaşıyor veya onları geçiyor
GLM-4.5 ve küçük sürümü GLM-4.5-Air yayımlandı; araştırma ve yapay zeka sistemi geliştirmede kullanılabiliyor

Genel Bakış

GLM-4.5, toplam 355 milyar parametreye ve 32 milyar aktif parametreye sahip açık kaynaklı bir Mixture-of-Experts (MoE) büyük dil modelidir
Hibrit akıl yürütme yaklaşımı uygular; böylece hem derin düşünme (Thinking) modu hem de anında yanıt (Direct Response) modu desteklenir
23 trilyon token ile çok aşamalı eğitimden, uzman model yinelemesinden ve pekiştirmeli öğrenme tabanlı post-training sürecinden geçti
Bunun sonucunda ajaniklik (Agentic), akıl yürütme (Reasoning) ve kodlama (Coding·ARC) görev alanlarında yüksek sonuçlar elde etti
- TAU-Bench %70.1, AIME 24 %91.0, SWE-bench Verified %64.2
GLM-4.5, rakip modellere göre daha az parametreyle genel sıralamada 3., ajan benchmark'larında ise 2. oldu
Hem büyük model GLM-4.5 (355 milyar parametre) hem de küçültülmüş GLM-4.5-Air (106 milyar parametre) sürümü yayımlandı
Tüm kod, model ve ayrıntılı bilgiler resmi GitHub'da bulunabilir: https://github.com/zai-org/GLM-4.5

LLM Performans Değerlendirmesi: Ajaniklik, Akıl Yürütme, Kodlama Benchmark'ları

GLM-4.5 ve önde gelen küresel modeller, 12 temsilî benchmark'ta (MMLU-Pro, AIME 24, SWE-Bench Verified vb.) test edildi
GLM-4.5 genel ortalama sıralamada 3., GLM-4.5-Air ise 6. oldu
Ajaniklik puanında OpenAI o3'ün ardından 2. sırada yer aldı; kodlama benchmark'larında da Claude Sonnet 4'e yakın bir performansla 3. oldu
GLM-4.5, DeepSeek-R1'in yarısı ve Kimi K2'nin üçte biri kadar parametreyle benzer performans gösterdi
SWE-bench Verified performansına kıyasla parametre sayısı bakımından da GLM-4.5 ve GLM-4.5-Air, Pareto Frontier üzerinde konumlandı
Performans verileri 28 Temmuz 2025 itibarıyla geçerlidir

Giriş

Büyük dil modelleri (LLM), mevcut genel amaçlı veri depolarından genel amaçlı problem çözücülere hızla evriliyor
Yapay zekanın nihai hedefi olan AGI (Artificial General Intelligence), birçok alanda insan seviyesinde bilişsel yeteneklere sahip modelleri amaçlıyor
Bunun için karmaşık problem çözme, genelleme ve kendini geliştirme yeteneklerinin bütünleşik olarak gerekli olduğu belirtiliyor
Gerçek işlerde ve karmaşık uzmanlık problemlerinde önemli olan 3 temel yetenek şunlardır:
- Ajanik yetenek: araçlar ve dış dünya ile etkileşim
- Bileşik akıl yürütme: matematik/bilim gibi alanlarda karmaşık, çok aşamalı problem çözme
- İleri seviye kodlama: gerçek yazılım mühendisliği yapabilme yeteneği
Mevcut SOTA ticari modeller (OpenAI, Anthropic) belirli alanlarda uzmanlaşmış performans gösterse de açık kaynak modeller arasında bu üç alanın tamamında güçlü, kamuya açık model sayısı sınırlı

GLM-4.5 ve GLM-4.5-Air Model Tanıtımı

GLM-4.5/GLM-4.5-Air, ajaniklik, akıl yürütme ve kodlama alanlarının tümünde açık kaynak dünyasında en üst düzeye yakın performans gösteriyor
Her iki model de hibrit akıl yürütme modunu destekliyor
- Thinking Mode, karmaşık akıl yürütme ve ajaniklikte güçlü
- Non-thinking Mode, hızlı yanıtlara odaklanıyor
GLM-4.5'in başlıca sonuçları:
- Ajaniklik: TAU-Bench %70.1, BFCL v3 %77.8, BrowseComp %26.4 (rakip ticari modellere karşı üstünlük)
- Akıl yürütme: AIME 24 %91.0, GPQA %79.1, LiveCodeBench %72.9, HLE %14.4
- Kodlama: SWE-bench Verified %64.2, Terminal-Bench %37.5 (GPT-4.1 ve Gemini-2.5-pro'ya karşı üstünlük, Claude Sonnet 4'e yakın)
GLM-4.5-Air, 106 milyar parametreyle 100 milyar ölçeğindeki modeller arasında Qwen3-235B-A22B ve MiniMax-M1 ile başa baş ya da daha iyi performans gösteriyor

Benchmark Performans Durumu ve Özellikler

12 temel benchmark'ın genelinde hem GLM-4.5 hem de GLM-4.5-Air yüksek sıralar elde etti
GLM-4.5, ajaniklik, akıl yürütme ve kodlama alanlarında dengeli performans sunarken parametre verimliliğiyle de öne çıkıyor
SWE-bench Verified bazında parametre sayısına göre en verimli bölgeyi, yani Pareto Frontier'ı yakaladı
Çeşitli ticari ve açık kaynak modellerle ayrıntılı performans karşılaştırması yapıldı

Yayımlanma ve Açık Kaynak Desteği

GLM-4.5/GLM-4.5-Air modelleri Z.ai, BigModel.cn'nin yanı sıra Huggingface'de de yayımlandı: https://huggingface.co/zai-org/GLM-4.5
Benchmark yeniden üretilebilirliği için değerlendirme araç seti de açık kaynak olarak sunuluyor: https://github.com/zai-org/glm-simple-evals

Ön Eğitim

Mimari

GLM-4.5 serisi, Mixture-of-Experts (MoE) yapısını benimseyerek eğitim ve çıkarımın hesaplama verimliliğini büyük ölçüde artırıyor
MoE katmanlarında loss-free balance routing ve sigmoid gating uygulanıyor
DeepSeek-V3 ve Kimi K2'den farklı olarak modelin genişliği (hidden dimension, route expert sayısı) azaltılırken derinliği (katman sayısı) artırılıyor. Daha derin modelin akıl yürütme yeteneğinin gelişiminde daha etkili olduğu görülüyor
Self-Attention tarafında Grouped-Query Attention + partial RoPE uygulanıyor; 96 attention head ile 5120 hidden dimension üzerinde 2.5 kat attention head yapılandırması kullanılıyor
Head sayısındaki artış eğitim kaybını etkilemese de gerçek akıl yürütme ve benchmark performansına olumlu etki ediyor
Attention logit değerlerinin kararlılığını artırmak için QK-Norm uygulanıyor
Hem GLM-4.5 hem de GLM-4.5-Air, MoE katmanı tabanlı MTP (Multi-Token Prediction) katmanı ekleyerek çıkarım sırasında speculative decoding desteği sunuyor
Mimari parametre toplama sürecinde MTP katmanının parametreleri dahil edilirken word embedding ve output layer dahil edilmiyor

Sonuç ve Beklenen Etki

GLM-4.5/GLM-4.5-Air, açık kaynak yapay zeka pazarında yüksek performans, verimlilik ve genel amaçlılık sunan yeni nesil dil modelleridir
Birden çok alanda birleşik/yüksek zorluktaki problem çözme yetenekleri, ticari modellerle rekabet gücü ve parametre verimliliği bakımından öne çıkıyor
Akademi, sanayi ve geliştirici araştırmalarının genelinde açık kaynak büyük dil modelleri için yenilikçi bir temel oluşturma potansiyelini genişletiyor

2 yorum

xguru 2025-08-13

Hacker News yorumlarında da, Reddit LocalLLaMA forumunda da GLM’in oldukça iyi olduğuna dair değerlendirmeler var
GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air gerçekten inanılmaz hızlı ve tool calling yeteneği de çok iyi (yerelde değil, Open Router üzerinden test edilmiş)
GPT-5 Mini ile karşılaştırıldığında, işin türüne göre üstünlük bir o yana bir bu yana geçebiliyor
GLM 4.5V gibi diğer GLM modelleri de genel olarak iyi
Belirli görevlerde (ör. roman yazımı, kodlama) GLM, GPT’ye göre daha doğal ve daha az kısıtlayıcı

GN⁺ 2025-08-13

Hacker News görüşleri

Bu makalenin, alıştığımız tipik model duyuru blog yazılarından farklı olarak derinlikli içerik sunması gerçekten sevindirici.
Zhipu/Tsinghua ekibi yalnızca "ne"yi değil, "nasıl"ı da ayrıntılı biçimde anlattığı için, bu tür modelleri bizzat geliştirmek ya da kullanmak isteyenler açısından özellikle ilgi çekici.
Özellikle Bölüm 3’teki eğitim sonrası (post-training) metodoloji etkileyici.
Akıl yürütme/ajan/sohbet gibi alanlarda uzmanlaşmış ayrı "uzman modeller" oluşturup, ardından bu yetenekleri nihai birleşik modele distill etme yaklaşımı oldukça cazip.
Bu, birçok rolü yüzeysel biçimde yerine getiren genelci modellerin sınırlarını çok daha sistematik şekilde aşma girişimi gibi duruyor.
Yalnızca verileri karıştırmak yerine, genel modelin bir uzmanlar topluluğundan öğrenmesi sağlanmış.
RL deney sonuçlarında ilginç bir nokta da, tam 64K bağlam üzerinde tek seferde RL uygulamanın aşamalı RL’den daha iyi performans vermesi olmuş (Şekil 6’ya bakın).
Birçok ekip muhtemelen tersini beklerdi ama sonuçlar farklı.
Ayrıca fonksiyon çağırma formatında XML şablonu kullanmaları, küçük ama akıllıca bir tercih; bu sayede JSON escaping sorunlarından kurtulmuşlar (Şekil 4’e bakın).
Pratikte JSON içinde kod escape etmek gerçekten çok can sıkıcı olabiliyor.
SWE-bench performansı da oldukça güçlü; çok daha büyük ölçekli veya ticari modellerle kıyaslanabilecek düzeyde.
Bundan sonra merak ettiğim şey, bu hibrit eğitim yönteminin ARC tarzı değerlendirmelerin dışındaki ortamlarda da işe yarayıp yaramayacağı.
Örneğin gerçek iş akışlarında olduğu gibi API dokümantasyonunun eksik olduğu, hataların sık yaşandığı ve girdilerin belirsiz olduğu karmaşık workflow’larda da ajan performansını koruyup koruyamayacağını merak ediyorum.
- Bu tür post/mid-training ayarlarının, verisi ve etiketleri zaten bol ve iyi doğrulanmış belirli alan eğitimlerinde gerçekten gerekli olup olmadığını merak ediyorum.
  Küçük ekiplerin sadece güncel scale-up training stack’i iyi takip etmesi yeterli mi, yoksa bu teknikler kullanılmadığında ciddi fark mı oluşuyor, bunu bilmek isterdim.
- Belki gereksiz yere kusur arıyormuş gibi görüneceğim diye çekiniyorum ama yazının üslubu güçlü biçimde LLM hissi veriyor.
  Daha önce de aynı eleştiriyi görmüştüm bağlantı
  Bence bu tür şeyleri dile getirmek çevrimiçi ortamın sağlıklı kalmasına yardımcı olur.
GLM-4.5 kodlama modelini epey uzun süre kullandım ve performansı gerçekten çok iyi.
Geliştirmekte olduğum kodlama ajanı Octofriend’da GLM-4.5 çalıştırırken onu Claude 4 sanmışlığım bile oldu.
Benim deneyimime göre Claude, tüm kod tabanını bağlam olarak alıp sistem etkileşimlerini hesaba katması gereken durumlarda biraz daha güçlü.
Buna karşılık GLM-4.5 daha "dürüst"; Claude’un sık yaptığı gibi test kodunu değiştirerek sorunu üstünkörü geçiştirme eğilimi daha az.
İkisi de üst düzey ama GLM-4.5’in Claude 4 Sonnet ya da 4.1 Opus’un yakalayamadığı hataları bulduğu da oldu.
Sadece debugging açısından bakarsak Claude çok az farkla daha sık kazanıyor ama aradaki fark büyük değil.
GPT-5 ile karşılaştırınca ise hem Claude hem de GLM daha tutarlı.
GPT-5 bazen gerçekten etkileyici sonuçlar veriyor ama bir kez raydan çıktığında yeniden doğru yola sokmak zor ve sinir bozucu olabiliyor.
Octofriend için: https://github.com/synthetic-lab/octofriend
- Bu yorumu görünce Kilocode’da GLM-4.5’i test ettim.
  Bugün tüm gün Gemini CLI ile derleyici kodundaki zorlu bir bug’ı yakalamaya çalıştım ama başarılı olamadım.
  Buna karşılık GLM-4.5 doğrudan asıl sorunu işaret etti.
  Gemini CLI alakasız fonksiyonlardan şüphelenip yetersiz düzeltmeleri tekrar edip durdu ama sonunda bunların konuyla ilgisi olmadığı ortaya çıktı.
  GLM-4.5’in soruna odaklanma becerisi gerçekten öne çıkıyor.
- Ben de GLM-4.5’i küçük ölçekli projelerde veya kısa isteklerde olumlu deneyimledim.
  Ne yazık ki bağlam uzadıkça performansının düştüğü hissine kapıldım; şu an bu yüzden onu Sonnet 4 için yedek olarak kullanıyorum.
- aider’da architect modunu kullanıyorum.
  Deepseek R1 (üst seviye tasarım) + Qwen3 480B (düşük seviye kodlama, ya da qwen code API kullanımı) kombinasyonuyla çalışıyorum.
  Bu kurulum gerçekten çok iyi işliyor.
  Sorunların %99,99’unu tek başına çözecek seviyede.
  aider’da rol ayrımı henüz tam oturmadığı için, workflow’u iyileştiren kendi aracımı yapmayı düşünüyorum.
- İlk noktaya katılıyorum.
  Benim de gözlemim, Claude’un bağlam arttıkça daha iyi çalıştığı, GLM-4.5’in ise bu tür durumlarda daha zayıf sonuç verdiği yönünde.
GLM-4.5 serisi toplam/aktif parametre sayısını hesaplarken embedding ve output katmanlarını hariç tutup yalnızca MTP katmanlarını dahil ediyor.
Bu, benim hesapladığım değerlerle (355B A32B) örtüşüyor.
GPT OSS serisi embedding/output katmanlarının ikisini de toplam parametreye ekliyor, aktif parametreye ise yalnızca output’u dahil ediyor.
Qwen3 serisi ise hem toplam hem aktif sayımda embedding ve output’un ikisini de dahil ediyor.
Parametre hesaplama yöntemi modele göre değişiyor; neden ortak bir standart olmadığını ve hangi yöntemin daha makul olduğunu merak ediyorum.
- Toplam parametre sayısı bellek gereksinimleriyle doğrudan ilişkili olduğu için, tüm parametrelerin sayılması gerekir.
  Aktif parametrelerde ise unembedding parametreleri her token üretiminde tamamen kullanılırken embedding’de yalnızca tek bir sütun kullanılıyor; bu farkın hesaba katılması, bant genişliği ve gecikmeyle ilişkisini doğru anlamak açısından önemli.
Önümüzdeki birkaç yıl içinde, yaklaşık 2000 dolarlık bir workstation PC üzerinde Sonnet 4 düzeyinde yerel açık modellerle kodlama yapılabileceğini düşünüyorum.
Bugünün bulut tabanlı modelleri faydalı ama geliştirici deneyiminin merkezindeki bir aracın yerelde çalıştırılabilmesini istiyorum.
- Bence 2 yıl değil, bu yılın sonu bile yeterli olabilir.
- Açık kaynak açısından böyle modeller şart.
  Aksi halde açık kaynak geliştirme sürecinin kendisi sürdürülemez hale gelebilir.
  Hatta 2 yıl içinde 2000 dolarlık bir PC’de Sonnet 4’ün üstü performansı görmeyi daha olası buluyorum.
Bu model, mevcut ticari frontier modellerle neredeyse eşit düzeyde kıyaslanabilecek ilk açık model gibi hissettiriyor.
Sadece parametre verimliliğine bakmak bile eğitim yöntemlerinde gerçek bir yenilik olduğunu gösteriyor.
Aider’in LLM Leaderboard’unda bağımsız performans doğrulama sonuçlarını da merak ediyorum.
Benim gibi önce makale özetini okumak isteyenler için bağlantıyı bırakıyorum: https://www.arxiv.org/abs/2508.06471
Apache lisanslı olması da ayrı bir güzellik.
Açık kaynak modellerin sınırları sürekli zorladığını görmek gerçekten sevindirici.
Bu makalede gözlenen şey o kadar çok ki, her biri tek başına ayrı bir makale konusu olabilir.
Özellikle eğitim süreci ile veri toplama/sentezleme tarafındaki deneyim çok zengin.
Yazarların daha önce de buna benzer düzeyde etkileyici makaleler yazıp yazmadığını bilen var mı?
Makaledeki grafik metrikleri kafamı karıştırdı.
İlk grafikte Sonnet 4’ün swebench puanı yaklaşık 53 görünüyor ama sonraki grafikte 70’e yakın.
Gerçek değer 70’e daha yakın görünüyor referans
Qwen3’ün neden kodlama benchmark’larında yer almadığını ama diğer benchmark’lara dahil edildiğini merak ediyorum.
- Bölüm 4.3.2’de Qwen3-Coder yer alıyor.
- Qwen, büyük ölçekli kod tabanlarını anlama konusunda hâlâ yeterince olgun değil.