GLM-5.2, Artificial Analysis açık ağırlıklı modellerde 1. sıraya yükseldi
(artificialanalysis.ai)- Z ai'nin GLM-5.2 modeli, Artificial Analysis Intelligence Index v4.1'de 51 puan alarak açık ağırlıklı modeller arasında liderliğe yükseldi ve maliyet/performans açısından da Pareto frontier üzerinde yer aldı
- Model boyutu GLM-5.1 ile aynı olan 744B toplam / 40B aktif parametre düzeyinde, ancak puanı 11 puan daha yüksek; MiniMax-M3, DeepSeek V4 Pro(max) ve Kimi K2.6'nın önüne geçti
- İyileşme çoğu değerlendirmede görüldü; özellikle bilimsel akıl yürütme alanında CritPt ve HLE artışı dikkat çekti
- GDPval-AA v2'de 1524 puan alarak MiniMax-M3 ve DeepSeek V4 Pro(max)'i geride bıraktı, GPT-5.5(xhigh reasoning) ile benzer seviyeye ulaştı
- Görev başına 43k çıktı tokenı kullandığı için token verimliliği düşük tarafta kalsa da, aynı zeka seviyesindeki modeller arasında görev başına maliyeti en düşük grupta yer alıyor
Intelligence Index v4.1'de açık ağırlıklı lider
- GLM-5.2, Artificial Analysis Intelligence Index v4.1'de 51 puan alarak açık ağırlıklı modeller arasında 1. sıraya çıktı
- Başlıca açık ağırlıklı model puanları şöyle
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2, GLM-5.1 ile aynı ölçekte 744B toplam parametre / 40B aktif parametre yapısına sahip, ancak Intelligence Index v4.1 puanı 11 puan daha yüksek
Değerlendirme bazında performans artışı
- GLM-5.2, GLM-5.1'e kıyasla çoğu değerlendirmede daha yüksek puan aldı
- Özellikle bilimsel akıl yürütme ile ilgili değerlendirmelerde artış daha büyük
- CritPt: +16 puan, %21
- HLE: +12 puan, %40
- GPQA Diamond: +3 puan, %89
- Diğer değerlendirmelerde de dengeli iyileşmeler görüldü
- AA-LCR: +9 puan, %71
- tau3 banking: +15 puan, %27
- SciCode: +7 puan, %50
- TerminalBench v2.1: +16 puan, %78
GDPval-AA v2 ve ajan performansı
- GLM-5.2, gerçek dünya ajan performansı göstergesi olan GDPval-AA v2'de 1524 puan aldı
- Açık ağırlıklı modeller arasında karşılaştırıldığında en yüksek puana sahip
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- Bu sonuç, GPT-5.5(xhigh reasoning) modelinin 1514 puanıyla fiilen aynı seviyede
- GDPval-AA v2, önceki GDPval-AA'ya göre değerlendirme yöntemini değiştirdi
- Elo taban çizgisi insan performansı 1000 olarak ayarlandı
- frontier-model judge için döngüsel panel eklendi
- Daha uzun ajan izleklerini ele almak için tur sınırı 100'den 250'ye çıkarıldı
Maliyet, fiyat ve token kullanımı
- GLM-5.2, Intelligence vs Cost per Task grafiğinde Pareto frontier üzerinde bulunuyor ve aynı zeka seviyesindeki modeller arasında görev başına maliyeti en düşük tarafta yer alıyor
- Görev başına maliyet GLM-5.1'den yüksek, ancak daha yüksek Intelligence puanı dikkate alındığında maliyet/performans konumu avantajlı
- GLM-5.2: yaklaşık $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- first-party API fiyatı GLM-5.1 ile aynı seviyede
- 1M giriş tokenı başına $1.4
- 1M çıkış tokenı başına $4.4
- 1M cache hit tokenı başına $0.26
- Intelligence Index görev başına 43k çıktı tokenı kullanıyor; bunun 37k'sı reasoning tokenı
- Çıkış tokenı kullanımı, başlıca açık ağırlıklı modellere kıyasla daha yüksek tarafta
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- Aynı zeka seviyesindeki açık ağırlıklı modeller arasında token verimliliği düşük tarafta ve Intelligence vs Output Tokens grafiğinde en cazip çeyreğe girmiyor
Model ayrıntıları ve erişilebilirlik
- GLM-5.2'nin lisansı MIT
- Bağlam penceresi 1M token; bu değer GLM-5.1'deki 200K'dan yükseltilmiş durumda
- Z ai'nin first-party API'si ve çeşitli third-party sağlayıcılardan kullanılabiliyor
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2, AA-Omniscience Index'te 4 puan alarak GLM-5.1'in 2 puanının üzerine çıktı
- Doğruluk oranı %25.1 ile GLM-5.1'in %24.2'sinden yüksek
- hallucination rate %28.1 ile GLM-5.1'in %29.4'ünden düşük
- attempt rate %47 ile aynı kaldı
- Model karşılaştırması Artificial Analysis'in GLM-5.2 sayfasında görülebilir
-
1 yorum
Hacker News görüşleri
Oldukça iyi bir basamak atlama ve ön safa yaklaşmış gibi görünüyor ama artık akıl yürütme verimliliğine daha fazla odaklanmalarını isterim
LLM değerlendirmesi için Nim ile basit bir formül değerlendirme kütüphanesi yazdırdığım bir test kullanıyorum; GLM 5.2 xhigh, ilk dosyayı yazmadan önce 15 dakikadan fazla akıl yürütüp yaklaşık 45k token harcadı
https://artificialanalysis.ai/#output-tokens verilerine göre GPT 5.5 xhigh ortalama toplam 16k token, high 10k, Fable 5 33k, Opus 4.8 41k, GLM 5.2 ise 42k kullanıyor; yani GPT 5.5’in akıl yürütme verimliliği ezici biçimde daha iyi
Gerçek istek maliyetine çevrilince GLM 5.2, GPT 5.5/Opus 4.8’den daha ucuz olacaktır ama birçok kişi için hız da önemli
Makul token kullanımı isteniyorsa GLM 5.2’yi High modunda çalıştırmak gerekiyor; çoğu görevde Max’ten High’a inince kalite kaybı küçük kalırken token kullanımı 2~2,5 kat azalıyor
Sonuçta GLM 5.2, çok daha ucuz bir Opus 4.8’in küçük kardeşi gibi bir model ve Opus modelinden hiç eğitim almamış olduğuna inanmanın gerçekten zor olduğuna dair şakalar bile yapılıyor
Kişisel olarak kullandığım GLM + OpenCode kombinasyonu, işte kullanmak zorunda olduğum Claude Code + Opus’tan çok daha iyi; StackOverflow tarzı acemi hataları çok daha az yapıyor ve talimatları daha iyi izliyor
Harness kullanıcı deneyimi de ayarları yok saymaması, kafasına göre değiştirmemesi veya yanlış raporlamaması sayesinde çok daha üstün; Anthropic’in hendeği hızla ortadan kalkıyor gibi görünüyor
Sonunda durdurup “Önce kodu yaz, ilerledikçe çöz” demek zorunda kalıyorum; sanki yazar tıkanıklığının LLM karşılığı varmış gibi
Artificial Analysis’a göre K2.7 Code, zeka açısından K2.6’ya benziyor ama aynı seviyeye ulaşmak için çıktı tokenlerinin yalnızca yarısını kullanıyor
Artificial Analysis’in codingindex’ine göre model sıralaması yapan bir script hazırlayıp her gün kullanıyorum
Ana tablo sayfasından JSON alıp ilgilendiğim kodlamayla ilgili alanları parse ediyorum; eskiden bir mail listesi de vardı ama çok ilgi görmediği için kapattım
Şu anda bazı sonuçlarda Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max gibi modeller üst sıralarda; çalıştırmak için
$ curl day50.dev/art-analysis.sh | bashkullanılabiliyorDepo https://github.com/day50-dev/aa-eval-email ve şu anda açık modeller, ölçüm yöntemine bağlı olarak yaklaşık 4~7 ay geriden geliyor gibi görünüyor; bu gidişle yıl bitmeden açık ağırlıklı bir model Claude Fable 5 düzeyinde işler yapabilir
Gemma 4 31B’yi DeepSeek V4 Flash’tan yukarı koyuyor ama ikisini de çeşitli kodlama işlerinde kullanmış biri olarak her seferinde DeepSeek’i seçerim
Neden daha fazla kişinin bunu konuşmadığını bilmiyorum
Fiilen Opus 4.7 kalitesini saçma derecede düşük bir fiyata sunuyorlar; hatta ayda 50 dolara sınırsız token veren yerler bile var ve resmi ZAI API’sinden 3 kat daha düşük API ücreti alanlar da mevcut
Resmi ZAI API bile Opus’tan yaklaşık 10 kat ucuz; bu Anthropic/OpenAI/Google için büyük bir darbe, dünyanın geri kalanı içinse büyük bir zafer ve açık modellerde her şey resmi API fiyatı ile hızından ibaret değil
GLM 5.2, Opus 4.7’ye yakın olabilir ama her kontrol ettiğimde hâlâ sadece benchmark optimizasyonu yapmış ve GPT ya da Opus seviyesinde değilse, bunu artık “yalancı çoban” gibi algılamaya başlıyorum
Modelleri yanlış yapılandırmaları veya gizlice kuantize etmeleri sık görülüyor; bir süre resmi API’deki Kimi ile çoğu üçüncü taraf sağlayıcı arasında %20~40 fark vardı
3 kat daha ucuz API fiyatının nerede olduğunu merak etmiştim; Croft’un 8 bit fiyatının $0.50/$0.08/$2.20 olduğunu gördüm
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
Bu tür modelleri nasıl çalıştıracağını anlamak da zor, bir kurulum programı da yok; gerçekten çok ilgili olan %1’lik kesim dışında herkes rehber ararken onların da eski olduğunu fark ediyor
“Claude Code kurup ayda 100 dolar öde” seçeneğine kıyasla öğrenme eğrisi fazla dik; ayda 50 dolar tasarruf etmek de bu zahmete göre küçük kalıyor
Bunun nedeni tamamen kurumsal yapıdaki mühendis olmayan kişilere göre şekillenmiş olması
Artificial Analysis kodlama benchmark’ında GLM 5.1 high, çalıştırma maliyeti açısından GPT 5.5 xhigh’a epey yakın; GPT 5.5 medium ise çok daha ucuz
GPT 5.5 medium ile karşılaştırıldığında GLM 5.1 xhigh’ın maliyeti iki kat, zekâ seviyesi ise yarı düzeyinde; bu yüzden GLM 5.2 henüz olmasa bile kapatılması gereken fark büyük
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE kişisel deneyimimle de oldukça örtüşüyor; bu yüzden internette açık modellere yönelik koparılan gürültünün ne kadar haklı olduğunu sorguluyorum
Ön safa yakın bir model istiyorsanız, şu anda Opus, Fable ve GPT5.5 demek daha dürüstçe görünüyor
https://z.ai/blog/glm-5.2
OpenAI, Google ve Anthropic aboneliklerinde böyle bir gizlilik seçeneği yok; ayrıca bağlantıya bakınca GPT 5.5’in Cursor CLI’da 7. sıradayken Codex CLI’da 3. sıraya çıkması da ilginç
Açık modeller Codex’te test edilmediği için bunun saf bir model benchmark’ı olduğunu kesin söylemek zor; açık modeller SWE agent harness’ında zayıf olabilir ama en basit açıklama bu gibi görünmüyor
O ölçüte göre GPT-5.5 hâlâ token verimliliğinde, hızda ve dolar başına zekâda kral
https://deepswe.datacurve.ai/
Fable 5 de iyi ama henüz GPT-5.6’yı görmedim
DeepSeek V4’ten kolayca 4 kat daha pahalı ama sonucun o kadar daha iyi olduğunu hissetmedim; sonradan GPT 5.5 in Codex ile gözden geçirince de epey dağınık kısım vardı
Maliyet/performans açısından MiniMax M3 daha iyi geldi
GLM 5.1/5.2’nin bir vision modeli olmaması şaşırtıcıydı
Artık bu oldukça nadir; OpenAI/Anthropic/Gemini modellerinin hepsi görüntü alıyor ve Gemma 4, Qwen 3.6, Kimi 2.x gibi başlıca açık ağırlık aileleri de görüntü girdisini destekliyor
GLM, web tasarımı gibi işlerde puanı yüksek bir model; bu yüzden görüntü girdisi olsaydı ekran görüntüsü alıp HTML+CSS üretmede işe yarardı, yani burada net bir boşluk var
“Her şeyi yapan tek model” şart değil
Gemma 31B vision işlerinde oldukça iyi ve günde 1500 istek pratikte neredeyse sınırsız gibi
UX/UI işleri gibi kullanım alanları var ama onun dışında çok gerekli değil; en ön saftaki modeller bile gerçek görüntüleri aynen kopyalayamıyor, benim deneyimime göre ancak yaklaşık sonuç veriyorlar
Bir vision modeli olsaydı daha kullanışlı olurdu
Son 24 saatte bu modeli epey kullandım ve oldukça yetkin olduğunu doğruladım
Yine de biraz geveze; düşünce izinde yön belirlemeden önce 3-4 kez yeniden değerlendirdiğini gördüm ve karmaşık, soyut gereksinimleri ele alma becerisi GPT5.5 seviyesinde değil
Buna rağmen çoğu kişiye Z.AI aboneliği + aylık 20 dolarlık OpenAI aboneliği kombinasyonunu önerebilecek durumdayım; GLM’in yazıp GPT’nin review/debug yaptığı akış, aylık 200 dolarlık planda sadece GPT kullanmaktan çok az daha kötü ama neredeyse sınırsızmış gibi hissettiriyor
Muhtemelen gevezeliğin nedeni bu
Programlama biliyorsanız artık modele gereken işi yaptıracak kadar bilgi verebildiğiniz bir aşamaya geldiğimizi düşünüyorum
Buna karşılık yazıda nüans çok fazla olduğu için modeller burada hâlâ ciddi şekilde zorlanıyor ama gerçekten giderek daha iyi oluyorlar
Günde bir kez kodu ücretsiz Claude Sonnet’e kopyalayıp gerçekten okunabilir hâle getiriyorum
Opus 4.8, DeepSeek 4.0 ya da Kimi 2.7’nin sendeleyip başarısız olduğu yerlerde başarılı olan daha güçlü bir kodlama agent’ı; ama konuşma tarzındaki retorik süsler giderek daha rahatsız edici geliyor ve bazen bastırıp sormadıkça bilerek muğlak konuştuğu ya da gerçeği sakındığı hissi veriyor; bu da aboneliği yeniden düşünmeme neden oluyor
GLM 5.2, test ettiğimiz modeller içinde Opus 4.6 ile açıkça aynı seviyede ya da daha iyi olan ilk model
Yine de zayıf test metodolojisi kullanan diğer benchmark’lara kıyasla biz GLM 5.2’ye ve çoğu Çin modeline biraz daha düşük puan veriyoruz
Veriler https://gertlabs.com/rankings adresinde
Bu tür modelleri nasıl çalıştıracağını pek bilmiyorum ama orta ve büyük ölçekli şirketlerin modeli yerelde tutmak için donanım almaya başlamasına ne kadar kaldığını merak ediyorum
Pahalı ve en ön saftaki modeller kadar yetenekli değil ama gizlilik ve kontrol açısından avantajı epey büyük
Bu iş Kimi K2 civarında ciddi şekilde hızlandı ama böyle bir donanımı satın alıp barındırmak zaman alıyor
Her şirket ticari sırlarını OpenAI ya da Anthropic’e göndermek istemiyor; ayrıca bazıları bunu hukuken de yapamıyor
AlexNet gibi iyi görsel modellerin çıktığı dönemde, özellikle OCR tarafında şirketler bulut ile GPU’ları kendi barındırmaları arasında seçim yapmak zorundaydı
Sonuçta mesele kullanım deseni; belirli saatlerde, mesai içinde kullanım yığılırken geri kalan zamanda GPU’lar boşta kalıyor
Gecikmeye duyarlı işlerde bu onlarca yıllık bir trade-off ve yalnızca LLM’lere özgü bir sorun değil
Bunu ancak oldukça kararlı bir orta ölçekli şirketin üstleneceği hissi var
Delil keşfi süreçlerinde devasa metin yığınlarını aramak için en üst seviye modellere gerek yok ama tam gizlilik şart
r/localllama’da çoklu GPU kurulumlarıyla övünen epey avukat var; üstelik gereken bütçe de onlarda mevcut
“GLM-5.2, zekâya karşı görev başına maliyet Pareto frontier’ında yer alıyor ve aynı zekâ seviyesindeki modeller arasında görev başına maliyeti en düşük model” deniyor ama aynı zamanda GLM-5.2’nin görev başına yaklaşık $0.46, GLM-5.1’in $0.25, Kimi K2.6’nın $0.31, MiniMax-M3’ün $0.18, DeepSeek V4 Pro max’in ise $0.05 olduğu yazıyor; acaba bir şeyi mi kaçırıyorum diye düşündüm
5.2’ye zekâ metriğinde yakın başka modelleri seçmek yerine, daha aşağı segmentten birkaç açık modeli koymuş gibiler
Çıkarım maliyeti için toplam parametre ve aktif parametre sayısı daha iyi ölçütlerdir
Mythos’u görünce hata tabanlı benchmark’a GLM 5.2’yi ekledim; GLM 5.1’den daha iyi ama hâlâ birçok modelin gerisinde ve en doğrudan Qwen 3.7 Max ile karşılaştırılabilir görünüyor
Gemma 4 ve Qwen 3.6 gibi daha küçük, kendi kendine barındırılabilen açık modeller de 9 hatanın 3’ünü buldu; GLM 5.2 ise bir hatanın yerini doğru saptadı ama hatanın kendisini biraz yanlış anladığı için yalnızca kısmi puan aldı
Aynı çalıştırmada eklenen Kimi K2.7-code da 2.6 performansına kıyasla tutarlı biçimde iyi değildi; bu özel benchmark’ta daha iyi ve daha ucuz modeller var
https://swelljoe.com/post/will-it-mythos/
Bu küçük benchmark tek başına bir şeyi kanıtlamaz ama modelin kod içindeki epey karmaşık problemler üzerinde akıl yürütebildiğini hızlıca ölçmek için kullanışlıdır