4 puan yazan GN⁺ 2025-08-13 | 2 yorum | WhatsApp'ta paylaş
  • GLM-4.5, açık kaynaklı bir Mixture-of-Experts (MoE) büyük dil modeli olup ajanik davranış, akıl yürütme ve kodlama performansında öne çıkıyor
  • Model, 23T token ile çok aşamalı eğitim, uzman model yinelemesi ve pekiştirmeli öğrenme sayesinde geliştirildi
  • TAU-Bench, AIME 24, SWE-bench Verified gibi çeşitli temel benchmark'larda üst sıralarda yer aldı
  • Az sayıda parametreyle de verimli performans sunuyor ve başlıca ticari modellere yaklaşıyor veya onları geçiyor
  • GLM-4.5 ve küçük sürümü GLM-4.5-Air yayımlandı; araştırma ve yapay zeka sistemi geliştirmede kullanılabiliyor

Genel Bakış

  • GLM-4.5, toplam 355 milyar parametreye ve 32 milyar aktif parametreye sahip açık kaynaklı bir Mixture-of-Experts (MoE) büyük dil modelidir
  • Hibrit akıl yürütme yaklaşımı uygular; böylece hem derin düşünme (Thinking) modu hem de anında yanıt (Direct Response) modu desteklenir
  • 23 trilyon token ile çok aşamalı eğitimden, uzman model yinelemesinden ve pekiştirmeli öğrenme tabanlı post-training sürecinden geçti
  • Bunun sonucunda ajaniklik (Agentic), akıl yürütme (Reasoning) ve kodlama (Coding·ARC) görev alanlarında yüksek sonuçlar elde etti
    • TAU-Bench %70.1, AIME 24 %91.0, SWE-bench Verified %64.2
  • GLM-4.5, rakip modellere göre daha az parametreyle genel sıralamada 3., ajan benchmark'larında ise 2. oldu
  • Hem büyük model GLM-4.5 (355 milyar parametre) hem de küçültülmüş GLM-4.5-Air (106 milyar parametre) sürümü yayımlandı
  • Tüm kod, model ve ayrıntılı bilgiler resmi GitHub'da bulunabilir: https://github.com/zai-org/GLM-4.5

LLM Performans Değerlendirmesi: Ajaniklik, Akıl Yürütme, Kodlama Benchmark'ları

  • GLM-4.5 ve önde gelen küresel modeller, 12 temsilî benchmark'ta (MMLU-Pro, AIME 24, SWE-Bench Verified vb.) test edildi
  • GLM-4.5 genel ortalama sıralamada 3., GLM-4.5-Air ise 6. oldu
  • Ajaniklik puanında OpenAI o3'ün ardından 2. sırada yer aldı; kodlama benchmark'larında da Claude Sonnet 4'e yakın bir performansla 3. oldu
  • GLM-4.5, DeepSeek-R1'in yarısı ve Kimi K2'nin üçte biri kadar parametreyle benzer performans gösterdi
  • SWE-bench Verified performansına kıyasla parametre sayısı bakımından da GLM-4.5 ve GLM-4.5-Air, Pareto Frontier üzerinde konumlandı
  • Performans verileri 28 Temmuz 2025 itibarıyla geçerlidir

Giriş

  • Büyük dil modelleri (LLM), mevcut genel amaçlı veri depolarından genel amaçlı problem çözücülere hızla evriliyor
  • Yapay zekanın nihai hedefi olan AGI (Artificial General Intelligence), birçok alanda insan seviyesinde bilişsel yeteneklere sahip modelleri amaçlıyor
  • Bunun için karmaşık problem çözme, genelleme ve kendini geliştirme yeteneklerinin bütünleşik olarak gerekli olduğu belirtiliyor
  • Gerçek işlerde ve karmaşık uzmanlık problemlerinde önemli olan 3 temel yetenek şunlardır:
    • Ajanik yetenek: araçlar ve dış dünya ile etkileşim
    • Bileşik akıl yürütme: matematik/bilim gibi alanlarda karmaşık, çok aşamalı problem çözme
    • İleri seviye kodlama: gerçek yazılım mühendisliği yapabilme yeteneği
  • Mevcut SOTA ticari modeller (OpenAI, Anthropic) belirli alanlarda uzmanlaşmış performans gösterse de açık kaynak modeller arasında bu üç alanın tamamında güçlü, kamuya açık model sayısı sınırlı

GLM-4.5 ve GLM-4.5-Air Model Tanıtımı

  • GLM-4.5/GLM-4.5-Air, ajaniklik, akıl yürütme ve kodlama alanlarının tümünde açık kaynak dünyasında en üst düzeye yakın performans gösteriyor
  • Her iki model de hibrit akıl yürütme modunu destekliyor
    • Thinking Mode, karmaşık akıl yürütme ve ajaniklikte güçlü
    • Non-thinking Mode, hızlı yanıtlara odaklanıyor
  • GLM-4.5'in başlıca sonuçları:
    • Ajaniklik: TAU-Bench %70.1, BFCL v3 %77.8, BrowseComp %26.4 (rakip ticari modellere karşı üstünlük)
    • Akıl yürütme: AIME 24 %91.0, GPQA %79.1, LiveCodeBench %72.9, HLE %14.4
    • Kodlama: SWE-bench Verified %64.2, Terminal-Bench %37.5 (GPT-4.1 ve Gemini-2.5-pro'ya karşı üstünlük, Claude Sonnet 4'e yakın)
  • GLM-4.5-Air, 106 milyar parametreyle 100 milyar ölçeğindeki modeller arasında Qwen3-235B-A22B ve MiniMax-M1 ile başa baş ya da daha iyi performans gösteriyor

Benchmark Performans Durumu ve Özellikler

  • 12 temel benchmark'ın genelinde hem GLM-4.5 hem de GLM-4.5-Air yüksek sıralar elde etti
  • GLM-4.5, ajaniklik, akıl yürütme ve kodlama alanlarında dengeli performans sunarken parametre verimliliğiyle de öne çıkıyor
  • SWE-bench Verified bazında parametre sayısına göre en verimli bölgeyi, yani Pareto Frontier'ı yakaladı
  • Çeşitli ticari ve açık kaynak modellerle ayrıntılı performans karşılaştırması yapıldı

Yayımlanma ve Açık Kaynak Desteği

Ön Eğitim

Mimari

  • GLM-4.5 serisi, Mixture-of-Experts (MoE) yapısını benimseyerek eğitim ve çıkarımın hesaplama verimliliğini büyük ölçüde artırıyor
  • MoE katmanlarında loss-free balance routing ve sigmoid gating uygulanıyor
  • DeepSeek-V3 ve Kimi K2'den farklı olarak modelin genişliği (hidden dimension, route expert sayısı) azaltılırken derinliği (katman sayısı) artırılıyor. Daha derin modelin akıl yürütme yeteneğinin gelişiminde daha etkili olduğu görülüyor
  • Self-Attention tarafında Grouped-Query Attention + partial RoPE uygulanıyor; 96 attention head ile 5120 hidden dimension üzerinde 2.5 kat attention head yapılandırması kullanılıyor
  • Head sayısındaki artış eğitim kaybını etkilemese de gerçek akıl yürütme ve benchmark performansına olumlu etki ediyor
  • Attention logit değerlerinin kararlılığını artırmak için QK-Norm uygulanıyor
  • Hem GLM-4.5 hem de GLM-4.5-Air, MoE katmanı tabanlı MTP (Multi-Token Prediction) katmanı ekleyerek çıkarım sırasında speculative decoding desteği sunuyor
  • Mimari parametre toplama sürecinde MTP katmanının parametreleri dahil edilirken word embedding ve output layer dahil edilmiyor

Sonuç ve Beklenen Etki

  • GLM-4.5/GLM-4.5-Air, açık kaynak yapay zeka pazarında yüksek performans, verimlilik ve genel amaçlılık sunan yeni nesil dil modelleridir
  • Birden çok alanda birleşik/yüksek zorluktaki problem çözme yetenekleri, ticari modellerle rekabet gücü ve parametre verimliliği bakımından öne çıkıyor
  • Akademi, sanayi ve geliştirici araştırmalarının genelinde açık kaynak büyük dil modelleri için yenilikçi bir temel oluşturma potansiyelini genişletiyor

2 yorum

 
xguru 2025-08-13

Hacker News yorumlarında da, Reddit LocalLLaMA forumunda da GLM’in oldukça iyi olduğuna dair değerlendirmeler var
GLM 4.5 AIR IS SO FKING GOODDD

  • GLM 4.5 Air gerçekten inanılmaz hızlı ve tool calling yeteneği de çok iyi (yerelde değil, Open Router üzerinden test edilmiş)
  • GPT-5 Mini ile karşılaştırıldığında, işin türüne göre üstünlük bir o yana bir bu yana geçebiliyor
  • GLM 4.5V gibi diğer GLM modelleri de genel olarak iyi
  • Belirli görevlerde (ör. roman yazımı, kodlama) GLM, GPT’ye göre daha doğal ve daha az kısıtlayıcı
 
GN⁺ 2025-08-13
Hacker News görüşleri
  • Bu makalenin, alıştığımız tipik model duyuru blog yazılarından farklı olarak derinlikli içerik sunması gerçekten sevindirici.
    Zhipu/Tsinghua ekibi yalnızca "ne"yi değil, "nasıl"ı da ayrıntılı biçimde anlattığı için, bu tür modelleri bizzat geliştirmek ya da kullanmak isteyenler açısından özellikle ilgi çekici.
    Özellikle Bölüm 3’teki eğitim sonrası (post-training) metodoloji etkileyici.
    Akıl yürütme/ajan/sohbet gibi alanlarda uzmanlaşmış ayrı "uzman modeller" oluşturup, ardından bu yetenekleri nihai birleşik modele distill etme yaklaşımı oldukça cazip.
    Bu, birçok rolü yüzeysel biçimde yerine getiren genelci modellerin sınırlarını çok daha sistematik şekilde aşma girişimi gibi duruyor.
    Yalnızca verileri karıştırmak yerine, genel modelin bir uzmanlar topluluğundan öğrenmesi sağlanmış.
    RL deney sonuçlarında ilginç bir nokta da, tam 64K bağlam üzerinde tek seferde RL uygulamanın aşamalı RL’den daha iyi performans vermesi olmuş (Şekil 6’ya bakın).
    Birçok ekip muhtemelen tersini beklerdi ama sonuçlar farklı.
    Ayrıca fonksiyon çağırma formatında XML şablonu kullanmaları, küçük ama akıllıca bir tercih; bu sayede JSON escaping sorunlarından kurtulmuşlar (Şekil 4’e bakın).
    Pratikte JSON içinde kod escape etmek gerçekten çok can sıkıcı olabiliyor.
    SWE-bench performansı da oldukça güçlü; çok daha büyük ölçekli veya ticari modellerle kıyaslanabilecek düzeyde.
    Bundan sonra merak ettiğim şey, bu hibrit eğitim yönteminin ARC tarzı değerlendirmelerin dışındaki ortamlarda da işe yarayıp yaramayacağı.
    Örneğin gerçek iş akışlarında olduğu gibi API dokümantasyonunun eksik olduğu, hataların sık yaşandığı ve girdilerin belirsiz olduğu karmaşık workflow’larda da ajan performansını koruyup koruyamayacağını merak ediyorum.

    • Bu tür post/mid-training ayarlarının, verisi ve etiketleri zaten bol ve iyi doğrulanmış belirli alan eğitimlerinde gerçekten gerekli olup olmadığını merak ediyorum.
      Küçük ekiplerin sadece güncel scale-up training stack’i iyi takip etmesi yeterli mi, yoksa bu teknikler kullanılmadığında ciddi fark mı oluşuyor, bunu bilmek isterdim.

    • Belki gereksiz yere kusur arıyormuş gibi görüneceğim diye çekiniyorum ama yazının üslubu güçlü biçimde LLM hissi veriyor.
      Daha önce de aynı eleştiriyi görmüştüm bağlantı
      Bence bu tür şeyleri dile getirmek çevrimiçi ortamın sağlıklı kalmasına yardımcı olur.

  • GLM-4.5 kodlama modelini epey uzun süre kullandım ve performansı gerçekten çok iyi.
    Geliştirmekte olduğum kodlama ajanı Octofriend’da GLM-4.5 çalıştırırken onu Claude 4 sanmışlığım bile oldu.
    Benim deneyimime göre Claude, tüm kod tabanını bağlam olarak alıp sistem etkileşimlerini hesaba katması gereken durumlarda biraz daha güçlü.
    Buna karşılık GLM-4.5 daha "dürüst"; Claude’un sık yaptığı gibi test kodunu değiştirerek sorunu üstünkörü geçiştirme eğilimi daha az.
    İkisi de üst düzey ama GLM-4.5’in Claude 4 Sonnet ya da 4.1 Opus’un yakalayamadığı hataları bulduğu da oldu.
    Sadece debugging açısından bakarsak Claude çok az farkla daha sık kazanıyor ama aradaki fark büyük değil.
    GPT-5 ile karşılaştırınca ise hem Claude hem de GLM daha tutarlı.
    GPT-5 bazen gerçekten etkileyici sonuçlar veriyor ama bir kez raydan çıktığında yeniden doğru yola sokmak zor ve sinir bozucu olabiliyor.
    Octofriend için: https://github.com/synthetic-lab/octofriend

    • Bu yorumu görünce Kilocode’da GLM-4.5’i test ettim.
      Bugün tüm gün Gemini CLI ile derleyici kodundaki zorlu bir bug’ı yakalamaya çalıştım ama başarılı olamadım.
      Buna karşılık GLM-4.5 doğrudan asıl sorunu işaret etti.
      Gemini CLI alakasız fonksiyonlardan şüphelenip yetersiz düzeltmeleri tekrar edip durdu ama sonunda bunların konuyla ilgisi olmadığı ortaya çıktı.
      GLM-4.5’in soruna odaklanma becerisi gerçekten öne çıkıyor.

    • Ben de GLM-4.5’i küçük ölçekli projelerde veya kısa isteklerde olumlu deneyimledim.
      Ne yazık ki bağlam uzadıkça performansının düştüğü hissine kapıldım; şu an bu yüzden onu Sonnet 4 için yedek olarak kullanıyorum.

    • aider’da architect modunu kullanıyorum.
      Deepseek R1 (üst seviye tasarım) + Qwen3 480B (düşük seviye kodlama, ya da qwen code API kullanımı) kombinasyonuyla çalışıyorum.
      Bu kurulum gerçekten çok iyi işliyor.
      Sorunların %99,99’unu tek başına çözecek seviyede.
      aider’da rol ayrımı henüz tam oturmadığı için, workflow’u iyileştiren kendi aracımı yapmayı düşünüyorum.

    • İlk noktaya katılıyorum.
      Benim de gözlemim, Claude’un bağlam arttıkça daha iyi çalıştığı, GLM-4.5’in ise bu tür durumlarda daha zayıf sonuç verdiği yönünde.

  • GLM-4.5 serisi toplam/aktif parametre sayısını hesaplarken embedding ve output katmanlarını hariç tutup yalnızca MTP katmanlarını dahil ediyor.
    Bu, benim hesapladığım değerlerle (355B A32B) örtüşüyor.
    GPT OSS serisi embedding/output katmanlarının ikisini de toplam parametreye ekliyor, aktif parametreye ise yalnızca output’u dahil ediyor.
    Qwen3 serisi ise hem toplam hem aktif sayımda embedding ve output’un ikisini de dahil ediyor.
    Parametre hesaplama yöntemi modele göre değişiyor; neden ortak bir standart olmadığını ve hangi yöntemin daha makul olduğunu merak ediyorum.

    • Toplam parametre sayısı bellek gereksinimleriyle doğrudan ilişkili olduğu için, tüm parametrelerin sayılması gerekir.
      Aktif parametrelerde ise unembedding parametreleri her token üretiminde tamamen kullanılırken embedding’de yalnızca tek bir sütun kullanılıyor; bu farkın hesaba katılması, bant genişliği ve gecikmeyle ilişkisini doğru anlamak açısından önemli.
  • Önümüzdeki birkaç yıl içinde, yaklaşık 2000 dolarlık bir workstation PC üzerinde Sonnet 4 düzeyinde yerel açık modellerle kodlama yapılabileceğini düşünüyorum.
    Bugünün bulut tabanlı modelleri faydalı ama geliştirici deneyiminin merkezindeki bir aracın yerelde çalıştırılabilmesini istiyorum.

    • Bence 2 yıl değil, bu yılın sonu bile yeterli olabilir.

    • Açık kaynak açısından böyle modeller şart.
      Aksi halde açık kaynak geliştirme sürecinin kendisi sürdürülemez hale gelebilir.
      Hatta 2 yıl içinde 2000 dolarlık bir PC’de Sonnet 4’ün üstü performansı görmeyi daha olası buluyorum.

  • Bu model, mevcut ticari frontier modellerle neredeyse eşit düzeyde kıyaslanabilecek ilk açık model gibi hissettiriyor.
    Sadece parametre verimliliğine bakmak bile eğitim yöntemlerinde gerçek bir yenilik olduğunu gösteriyor.
    Aider’in LLM Leaderboard’unda bağımsız performans doğrulama sonuçlarını da merak ediyorum.

  • Benim gibi önce makale özetini okumak isteyenler için bağlantıyı bırakıyorum: https://www.arxiv.org/abs/2508.06471

  • Apache lisanslı olması da ayrı bir güzellik.
    Açık kaynak modellerin sınırları sürekli zorladığını görmek gerçekten sevindirici.

  • Bu makalede gözlenen şey o kadar çok ki, her biri tek başına ayrı bir makale konusu olabilir.
    Özellikle eğitim süreci ile veri toplama/sentezleme tarafındaki deneyim çok zengin.
    Yazarların daha önce de buna benzer düzeyde etkileyici makaleler yazıp yazmadığını bilen var mı?

  • Makaledeki grafik metrikleri kafamı karıştırdı.
    İlk grafikte Sonnet 4’ün swebench puanı yaklaşık 53 görünüyor ama sonraki grafikte 70’e yakın.
    Gerçek değer 70’e daha yakın görünüyor referans

  • Qwen3’ün neden kodlama benchmark’larında yer almadığını ama diğer benchmark’lara dahil edildiğini merak ediyorum.

    • Bölüm 4.3.2’de Qwen3-Coder yer alıyor.

    • Qwen, büyük ölçekli kod tabanlarını anlama konusunda hâlâ yeterince olgun değil.