GLM-5.2, Artificial Analysis açık ağırlıklı modellerde 1. sıraya yükseldi

(artificialanalysis.ai)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Z ai'nin GLM-5.2 modeli, Artificial Analysis Intelligence Index v4.1'de 51 puan alarak açık ağırlıklı modeller arasında liderliğe yükseldi ve maliyet/performans açısından da Pareto frontier üzerinde yer aldı
Model boyutu GLM-5.1 ile aynı olan 744B toplam / 40B aktif parametre düzeyinde, ancak puanı 11 puan daha yüksek; MiniMax-M3, DeepSeek V4 Pro(max) ve Kimi K2.6'nın önüne geçti
İyileşme çoğu değerlendirmede görüldü; özellikle bilimsel akıl yürütme alanında CritPt ve HLE artışı dikkat çekti
GDPval-AA v2'de 1524 puan alarak MiniMax-M3 ve DeepSeek V4 Pro(max)'i geride bıraktı, GPT-5.5(xhigh reasoning) ile benzer seviyeye ulaştı
Görev başına 43k çıktı tokenı kullandığı için token verimliliği düşük tarafta kalsa da, aynı zeka seviyesindeki modeller arasında görev başına maliyeti en düşük grupta yer alıyor

Intelligence Index v4.1'de açık ağırlıklı lider

GLM-5.2, Artificial Analysis Intelligence Index v4.1'de 51 puan alarak açık ağırlıklı modeller arasında 1. sıraya çıktı
Başlıca açık ağırlıklı model puanları şöyle
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2, GLM-5.1 ile aynı ölçekte 744B toplam parametre / 40B aktif parametre yapısına sahip, ancak Intelligence Index v4.1 puanı 11 puan daha yüksek

Değerlendirme bazında performans artışı

GLM-5.2, GLM-5.1'e kıyasla çoğu değerlendirmede daha yüksek puan aldı
Özellikle bilimsel akıl yürütme ile ilgili değerlendirmelerde artış daha büyük
- CritPt: +16 puan, %21
- HLE: +12 puan, %40
- GPQA Diamond: +3 puan, %89
Diğer değerlendirmelerde de dengeli iyileşmeler görüldü
- AA-LCR: +9 puan, %71
- tau3 banking: +15 puan, %27
- SciCode: +7 puan, %50
- TerminalBench v2.1: +16 puan, %78

GDPval-AA v2 ve ajan performansı

GLM-5.2, gerçek dünya ajan performansı göstergesi olan GDPval-AA v2'de 1524 puan aldı
Açık ağırlıklı modeller arasında karşılaştırıldığında en yüksek puana sahip
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
Bu sonuç, GPT-5.5(xhigh reasoning) modelinin 1514 puanıyla fiilen aynı seviyede
GDPval-AA v2, önceki GDPval-AA'ya göre değerlendirme yöntemini değiştirdi
- Elo taban çizgisi insan performansı 1000 olarak ayarlandı
- frontier-model judge için döngüsel panel eklendi
- Daha uzun ajan izleklerini ele almak için tur sınırı 100'den 250'ye çıkarıldı

Maliyet, fiyat ve token kullanımı

GLM-5.2, Intelligence vs Cost per Task grafiğinde Pareto frontier üzerinde bulunuyor ve aynı zeka seviyesindeki modeller arasında görev başına maliyeti en düşük tarafta yer alıyor
Görev başına maliyet GLM-5.1'den yüksek, ancak daha yüksek Intelligence puanı dikkate alındığında maliyet/performans konumu avantajlı
- GLM-5.2: yaklaşık $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
first-party API fiyatı GLM-5.1 ile aynı seviyede
- 1M giriş tokenı başına $1.4
- 1M çıkış tokenı başına $4.4
- 1M cache hit tokenı başına $0.26
Intelligence Index görev başına 43k çıktı tokenı kullanıyor; bunun 37k'sı reasoning tokenı
Çıkış tokenı kullanımı, başlıca açık ağırlıklı modellere kıyasla daha yüksek tarafta
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
Aynı zeka seviyesindeki açık ağırlıklı modeller arasında token verimliliği düşük tarafta ve Intelligence vs Output Tokens grafiğinde en cazip çeyreğe girmiyor

Model ayrıntıları ve erişilebilirlik

GLM-5.2'nin lisansı MIT
Bağlam penceresi 1M token; bu değer GLM-5.1'deki 200K'dan yükseltilmiş durumda
Z ai'nin first-party API'si ve çeşitli third-party sağlayıcılardan kullanılabiliyor
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2, AA-Omniscience Index'te 4 puan alarak GLM-5.1'in 2 puanının üzerine çıktı
  - Doğruluk oranı %25.1 ile GLM-5.1'in %24.2'sinden yüksek
  - hallucination rate %28.1 ile GLM-5.1'in %29.4'ünden düşük
  - attempt rate %47 ile aynı kaldı
  - Model karşılaştırması Artificial Analysis'in GLM-5.2 sayfasında görülebilir

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

Oldukça iyi bir basamak atlama ve ön safa yaklaşmış gibi görünüyor ama artık akıl yürütme verimliliğine daha fazla odaklanmalarını isterim
LLM değerlendirmesi için Nim ile basit bir formül değerlendirme kütüphanesi yazdırdığım bir test kullanıyorum; GLM 5.2 xhigh, ilk dosyayı yazmadan önce 15 dakikadan fazla akıl yürütüp yaklaşık 45k token harcadı
https://artificialanalysis.ai/#output-tokens verilerine göre GPT 5.5 xhigh ortalama toplam 16k token, high 10k, Fable 5 33k, Opus 4.8 41k, GLM 5.2 ise 42k kullanıyor; yani GPT 5.5’in akıl yürütme verimliliği ezici biçimde daha iyi
Gerçek istek maliyetine çevrilince GLM 5.2, GPT 5.5/Opus 4.8’den daha ucuz olacaktır ama birçok kişi için hız da önemli
- GLM 5.2 Max’in düşünme biçimi Opus 4.8 Max ile aynı gibi görünüyor; düşünce zinciri ve çıktı token kullanımı da çok benzer
  Makul token kullanımı isteniyorsa GLM 5.2’yi High modunda çalıştırmak gerekiyor; çoğu görevde Max’ten High’a inince kalite kaybı küçük kalırken token kullanımı 2~2,5 kat azalıyor
  Sonuçta GLM 5.2, çok daha ucuz bir Opus 4.8’in küçük kardeşi gibi bir model ve Opus modelinden hiç eğitim almamış olduğuna inanmanın gerçekten zor olduğuna dair şakalar bile yapılıyor
- “Ön safa yaklaştı”dan ziyade onu zaten geçtiğini düşünüyorum
  Kişisel olarak kullandığım GLM + OpenCode kombinasyonu, işte kullanmak zorunda olduğum Claude Code + Opus’tan çok daha iyi; StackOverflow tarzı acemi hataları çok daha az yapıyor ve talimatları daha iyi izliyor
  Harness kullanıcı deneyimi de ayarları yok saymaması, kafasına göre değiştirmemesi veya yanlış raporlamaması sayesinde çok daha üstün; Anthropic’in hendeği hızla ortadan kalkıyor gibi görünüyor
- Opus’ta da benzer şekilde fazla uzun düşünüp “Bir dakika, ya şöyleyse...” diye tekrar etme sorunu var
  Sonunda durdurup “Önce kodu yaz, ilerledikçe çöz” demek zorunda kalıyorum; sanki yazar tıkanıklığının LLM karşılığı varmış gibi
- https://en.wikipedia.org/wiki/Portia_(spider) aklıma geliyor
- Moonshot’ın Kimi K2.7 Code için yaptığı son çalışmaların diğer açık model laboratuvarlarına da yayılmasını isterim
  Artificial Analysis’a göre K2.7 Code, zeka açısından K2.6’ya benziyor ama aynı seviyeye ulaşmak için çıktı tokenlerinin yalnızca yarısını kullanıyor
Artificial Analysis’in codingindex’ine göre model sıralaması yapan bir script hazırlayıp her gün kullanıyorum
Ana tablo sayfasından JSON alıp ilgilendiğim kodlamayla ilgili alanları parse ediyorum; eskiden bir mail listesi de vardı ama çok ilgi görmediği için kapattım
Şu anda bazı sonuçlarda Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max gibi modeller üst sıralarda; çalıştırmak için $ curl day50.dev/art-analysis.sh | bash kullanılabiliyor
Depo https://github.com/day50-dev/aa-eval-email ve şu anda açık modeller, ölçüm yöntemine bağlı olarak yaklaşık 4~7 ay geriden geliyor gibi görünüyor; bu gidişle yıl bitmeden açık ağırlıklı bir model Claude Fable 5 düzeyinde işler yapabilir
- Artificial Analysis’in kodlama endeksi, yalnızca Terminal-Bench Hard ve SciCode adlı iki benchmark’tan oluştuğu için bunun iyi bir kodlama endeksi olup olmadığından şüpheliyim
  Gemma 4 31B’yi DeepSeek V4 Flash’tan yukarı koyuyor ama ikisini de çeşitli kodlama işlerinde kullanmış biri olarak her seferinde DeepSeek’i seçerim
- Harika bir proje ama kaynağı bilinmeyen Bash’i öylece çalıştırmayı istemek bence oldukça kötü bir pratik
Neden daha fazla kişinin bunu konuşmadığını bilmiyorum
Fiilen Opus 4.7 kalitesini saçma derecede düşük bir fiyata sunuyorlar; hatta ayda 50 dolara sınırsız token veren yerler bile var ve resmi ZAI API’sinden 3 kat daha düşük API ücreti alanlar da mevcut
Resmi ZAI API bile Opus’tan yaklaşık 10 kat ucuz; bu Anthropic/OpenAI/Google için büyük bir darbe, dünyanın geri kalanı içinse büyük bir zafer ve açık modellerde her şey resmi API fiyatı ile hızından ibaret değil
- Çin açık modellerini birkaç kez kullandım; fena değiller ama iddia ettikleri benchmark seviyesine ulaşamadılar
  GLM 5.2, Opus 4.7’ye yakın olabilir ama her kontrol ettiğimde hâlâ sadece benchmark optimizasyonu yapmış ve GPT ya da Opus seviyesinde değilse, bunu artık “yalancı çoban” gibi algılamaya başlıyorum
- Resmi olmayan sağlayıcılara karşı dikkatli olmak gerek
  Modelleri yanlış yapılandırmaları veya gizlice kuantize etmeleri sık görülüyor; bir süre resmi API’deki Kimi ile çoğu üçüncü taraf sağlayıcı arasında %20~40 fark vardı
- OpenRouter’a bakınca daha ucuz seçeneklerin bazılarının kuantize modeller olduğu görülüyor; kuantizasyonun zekayı ne kadar düşürdüğü ise net değil
  3 kat daha ucuz API fiyatının nerede olduğunu merak etmiştim; Croft’un 8 bit fiyatının $0.50/$0.08/$2.20 olduğunu gördüm
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- Seçenek o kadar fazla ki, bir insanın bunu takip etmesi bile hesaplama açısından pahalı
  Bu tür modelleri nasıl çalıştıracağını anlamak da zor, bir kurulum programı da yok; gerçekten çok ilgili olan %1’lik kesim dışında herkes rehber ararken onların da eski olduğunu fark ediyor
  “Claude Code kurup ayda 100 dolar öde” seçeneğine kıyasla öğrenme eğrisi fazla dik; ayda 50 dolar tasarruf etmek de bu zahmete göre küçük kalıyor
- Bizim organizasyonda herkes Claude’a aşırı sabitlenmiş durumda; sanki tek LLM oymuş gibi davranılıyor
  Bunun nedeni tamamen kurumsal yapıdaki mühendis olmayan kişilere göre şekillenmiş olması
Artificial Analysis kodlama benchmark’ında GLM 5.1 high, çalıştırma maliyeti açısından GPT 5.5 xhigh’a epey yakın; GPT 5.5 medium ise çok daha ucuz
GPT 5.5 medium ile karşılaştırıldığında GLM 5.1 xhigh’ın maliyeti iki kat, zekâ seviyesi ise yarı düzeyinde; bu yüzden GLM 5.2 henüz olmasa bile kapatılması gereken fark büyük
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE kişisel deneyimimle de oldukça örtüşüyor; bu yüzden internette açık modellere yönelik koparılan gürültünün ne kadar haklı olduğunu sorguluyorum
Ön safa yakın bir model istiyorsanız, şu anda Opus, Fable ve GPT5.5 demek daha dürüstçe görünüyor
- Z.ai’nin kendi çalıştırmasında GLM 5.2, DeepSWE’de 46.2 puan aldı ve konumu Opus 4.7 xhigh ile Opus 4.8 medium arasında
  https://z.ai/blog/glm-5.2
- Açık model kullanırsanız Codex ile aynı maliyete gizlilik sağlayan bir abonelik alabiliyorsunuz
  OpenAI, Google ve Anthropic aboneliklerinde böyle bir gizlilik seçeneği yok; ayrıca bağlantıya bakınca GPT 5.5’in Cursor CLI’da 7. sıradayken Codex CLI’da 3. sıraya çıkması da ilginç
  Açık modeller Codex’te test edilmediği için bunun saf bir model benchmark’ı olduğunu kesin söylemek zor; açık modeller SWE agent harness’ında zayıf olabilir ama en basit açıklama bu gibi görünmüyor
- DeepSWE, Artificial Analysis endeksi ya da diğer kodlama benchmark’larından daha “doğru” bir benchmark gibi hissettiriyor
  O ölçüte göre GPT-5.5 hâlâ token verimliliğinde, hızda ve dolar başına zekâda kral
  https://deepswe.datacurve.ai/
  Fable 5 de iyi ama henüz GPT-5.6’yı görmedim
- Dün OpenRouter’da GLM 5.2’yi denedim; genel olarak iyiydi ama görece yavaş bir 30 dakikalık işte token maliyeti 5 dolar çıktı
  DeepSeek V4’ten kolayca 4 kat daha pahalı ama sonucun o kadar daha iyi olduğunu hissetmedim; sonradan GPT 5.5 in Codex ile gözden geçirince de epey dağınık kısım vardı
  Maliyet/performans açısından MiniMax M3 daha iyi geldi
GLM 5.1/5.2’nin bir vision modeli olmaması şaşırtıcıydı
Artık bu oldukça nadir; OpenAI/Anthropic/Gemini modellerinin hepsi görüntü alıyor ve Gemma 4, Qwen 3.6, Kimi 2.x gibi başlıca açık ağırlık aileleri de görüntü girdisini destekliyor
GLM, web tasarımı gibi işlerde puanı yüksek bir model; bu yüzden görüntü girdisi olsaydı ekran görüntüsü alıp HTML+CSS üretmede işe yarardı, yani burada net bir boşluk var
- Kodlama harness’ında alt agent’lar tanımlayıp böyle işler için herhangi bir vision modeli ile yeni bir alt oturum başlatabilir, sonra sonucu ana modele geri verebilirsiniz
  “Her şeyi yapan tek model” şart değil
- Google AI Studio’yu ücretsiz bir vision bridge olarak kullanıyorum
  Gemma 31B vision işlerinde oldukça iyi ve günde 1500 istek pratikte neredeyse sınırsız gibi
- Bu bana o kadar büyük bir boşluk gibi görünmüyor
  UX/UI işleri gibi kullanım alanları var ama onun dışında çok gerekli değil; en ön saftaki modeller bile gerçek görüntüleri aynen kopyalayamıyor, benim deneyimime göre ancak yaklaşık sonuç veriyorlar
- DeepSeek V4 için de tepkim aynıydı
  Bir vision modeli olsaydı daha kullanışlı olurdu
Son 24 saatte bu modeli epey kullandım ve oldukça yetkin olduğunu doğruladım
Yine de biraz geveze; düşünce izinde yön belirlemeden önce 3-4 kez yeniden değerlendirdiğini gördüm ve karmaşık, soyut gereksinimleri ele alma becerisi GPT5.5 seviyesinde değil
Buna rağmen çoğu kişiye Z.AI aboneliği + aylık 20 dolarlık OpenAI aboneliği kombinasyonunu önerebilecek durumdayım; GLM’in yazıp GPT’nin review/debug yaptığı akış, aylık 200 dolarlık planda sadece GPT kullanmaktan çok az daha kötü ama neredeyse sınırsızmış gibi hissettiriyor
- Bugün öğrendim ki varsayılan akıl yürütme gücü max olarak ayarlı
  Muhtemelen gevezeliğin nedeni bu
- Şu an benim için en önemli şey modelin ne kadar iyi yazdığı
  Programlama biliyorsanız artık modele gereken işi yaptıracak kadar bilgi verebildiğiniz bir aşamaya geldiğimizi düşünüyorum
  Buna karşılık yazıda nüans çok fazla olduğu için modeller burada hâlâ ciddi şekilde zorlanıyor ama gerçekten giderek daha iyi oluyorlar
- Benim iş akışım da böyle
  Günde bir kez kodu ücretsiz Claude Sonnet’e kopyalayıp gerçekten okunabilir hâle getiriyorum
- Fable 5’i tattıktan sonra Opus 4.8 bile artık yeterli gelmiyor
  Opus 4.8, DeepSeek 4.0 ya da Kimi 2.7’nin sendeleyip başarısız olduğu yerlerde başarılı olan daha güçlü bir kodlama agent’ı; ama konuşma tarzındaki retorik süsler giderek daha rahatsız edici geliyor ve bazen bastırıp sormadıkça bilerek muğlak konuştuğu ya da gerçeği sakındığı hissi veriyor; bu da aboneliği yeniden düşünmeme neden oluyor
GLM 5.2, test ettiğimiz modeller içinde Opus 4.6 ile açıkça aynı seviyede ya da daha iyi olan ilk model
Yine de zayıf test metodolojisi kullanan diğer benchmark’lara kıyasla biz GLM 5.2’ye ve çoğu Çin modeline biraz daha düşük puan veriyoruz
Veriler https://gertlabs.com/rankings adresinde
Bu tür modelleri nasıl çalıştıracağını pek bilmiyorum ama orta ve büyük ölçekli şirketlerin modeli yerelde tutmak için donanım almaya başlamasına ne kadar kaldığını merak ediyorum
Pahalı ve en ön saftaki modeller kadar yetenekli değil ama gizlilik ve kontrol açısından avantajı epey büyük
- Avrupa’daki birçok şirket bunu bir süredir zaten 70B modellerle yapıyordu ve yeni çıkan 700B~1T sınıfı modelleri çalıştırmak için donanımlarını yükseltiyor
  Bu iş Kimi K2 civarında ciddi şekilde hızlandı ama böyle bir donanımı satın alıp barındırmak zaman alıyor
  Her şirket ticari sırlarını OpenAI ya da Anthropic’e göndermek istemiyor; ayrıca bazıları bunu hukuken de yapamıyor
- Yeni bir durum değil
  AlexNet gibi iyi görsel modellerin çıktığı dönemde, özellikle OCR tarafında şirketler bulut ile GPU’ları kendi barındırmaları arasında seçim yapmak zorundaydı
  Sonuçta mesele kullanım deseni; belirli saatlerde, mesai içinde kullanım yığılırken geri kalan zamanda GPU’lar boşta kalıyor
  Gecikmeye duyarlı işlerde bu onlarca yıllık bir trade-off ve yalnızca LLM’lere özgü bir sorun değil
- Yaklaşık 750B model olduğu için muazzam miktarda VRAM gerekiyor
  Bunu ancak oldukça kararlı bir orta ölçekli şirketin üstleneceği hissi var
- Tam gizlilik gerektiren başlıca kullanım alanı şimdiye kadar hukuk işleri gibi görünüyor
  Delil keşfi süreçlerinde devasa metin yığınlarını aramak için en üst seviye modellere gerek yok ama tam gizlilik şart
  r/localllama’da çoklu GPU kurulumlarıyla övünen epey avukat var; üstelik gereken bütçe de onlarda mevcut
- Gerçek bir ulusal güvenlik kaygısı yoksa, mevcut birkaç sağlayıcıyla gizlilik koruması içeren ticari sözleşmeler müzakere etmek daha iyi olur
“GLM-5.2, zekâya karşı görev başına maliyet Pareto frontier’ında yer alıyor ve aynı zekâ seviyesindeki modeller arasında görev başına maliyeti en düşük model” deniyor ama aynı zamanda GLM-5.2’nin görev başına yaklaşık $0.46, GLM-5.1’in $0.25, Kimi K2.6’nın $0.31, MiniMax-M3’ün $0.18, DeepSeek V4 Pro max’in ise $0.05 olduğu yazıyor; acaba bir şeyi mi kaçırıyorum diye düşündüm
- Sanırım karşılaştırma grubu yanlış seçilmiş
  5.2’ye zekâ metriğinde yakın başka modelleri seçmek yerine, daha aşağı segmentten birkaç açık modeli koymuş gibiler
- Pareto frontier üzerinde olmak en ucuz olmak demek değil
- Bazı modeller yoğun şekilde sübvanse ediliyor
  Çıkarım maliyeti için toplam parametre ve aktif parametre sayısı daha iyi ölçütlerdir
Mythos’u görünce hata tabanlı benchmark’a GLM 5.2’yi ekledim; GLM 5.1’den daha iyi ama hâlâ birçok modelin gerisinde ve en doğrudan Qwen 3.7 Max ile karşılaştırılabilir görünüyor
Gemma 4 ve Qwen 3.6 gibi daha küçük, kendi kendine barındırılabilen açık modeller de 9 hatanın 3’ünü buldu; GLM 5.2 ise bir hatanın yerini doğru saptadı ama hatanın kendisini biraz yanlış anladığı için yalnızca kısmi puan aldı
Aynı çalıştırmada eklenen Kimi K2.7-code da 2.6 performansına kıyasla tutarlı biçimde iyi değildi; bu özel benchmark’ta daha iyi ve daha ucuz modeller var
https://swelljoe.com/post/will-it-mythos/
Bu küçük benchmark tek başına bir şeyi kanıtlamaz ama modelin kod içindeki epey karmaşık problemler üzerinde akıl yürütebildiğini hızlıca ölçmek için kullanışlıdır

GLM-5.2, Artificial Analysis açık ağırlıklı modellerde 1. sıraya yükseldi

Intelligence Index v4.1'de açık ağırlıklı lider

Değerlendirme bazında performans artışı

GDPval-AA v2 ve ajan performansı

Maliyet, fiyat ve token kullanımı

Model ayrıntıları ve erişilebilirlik

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

İlgili okumalar

1 yorum

Hacker News görüşleri