GLM 5.2, Semgrep IDOR benchmark’ında Claude’u geride bıraktı

(semgrep.dev)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Semgrep’in IDOR zafiyet tespiti benchmark’ında Zhipu AI’nin open-weight modeli GLM 5.2, yalnızca basit istem koşullarıyla Claude Code’dan daha yüksek F1 elde etti
Deneyde veri kümesi, değerlendirme yöntemi ve sistem istemi sabit tutulup yalnızca model ve harness değiştirilerek performansın modelin kendisinden mi yoksa çevresindeki iskeleden mi geldiği karşılaştırıldı
Özel bir harness kullanan Semgrep Multimodal, GPT 5.5 %61, Opus 4.8 %53 ile 1. ve 2. sırayı alarak yapılandırılmış keşfin etkisini açıkça gösterdi
GLM 5.2, endpoint keşif iskeleti olmadan da %39 F1 üretti ve bulunan zafiyet başına maliyetin yaklaşık $0.17 olduğu görüldü
Bu sonuç, tüm open-weight modeller için genel bir tersine dönüş değil; tek bir modelin tek bir görev ve tek bir veri kümesinde güçlü çıktığını gösteren sınırlı bir sonuç ve başka zafiyet türlerinde tablo değişebilir

Model performansı ile harness etkisini ayıran deney

Semgrep, popüler open-source modelleri IDOR benchmark’ında çalıştırırken mevcut frontier coding agent değerlendirmelerinde kullandığı veri kümesi ve istemlerle aynı seti kullandı
Temel karşılaştırma, zafiyet tespiti performansının modelin kendisinden mi yoksa modelin çevresindeki harness’ten mi geldiğini görmekti
Harness; modele depoyu sağlama, neye bakılacağını belirleme, çıktıyı ayrıştırma ve görev döngüsünü kuran iskeledir
Semgrep’in dahili multimodal hattı, statik analize uyarlanmış özel bir harness üzerinde çalışır
- Uygulama endpoint’lerini listeler
- Önemli kod bağlamını seçer
- Modeli doğrudan ilgili endpoint’lere yönlendirir
Bu open-weight model deneyi ise böyle özel bir iskele olmadan, Pydantic AI tabanlı basit bir harness ile yürütüldü
- IDOR istemi aynı tutuldu
- Endpoint keşfi veya yönlendirilmiş arama sağlanmadı
- IDOR arama stratejisi ve IDOR biçimleri hakkında küçük ipuçları verildi

GLM 5.2’nin güvenlik görevlerinde dikkat çekmesinin nedeni

GLM 5.2, Zhipu AI yani Z.ai’nin en yeni modeli
- 13 Haziran 2026’da GLM Coding Plan üyelerine dağıtıldı
- Open weights ve sürüm notları 16 Haziran 2026’da yayımlandı
Open-weight model olduğu için parametreleri MIT license ile açıklandı
- İndirilebilir, kendi donanımınızda çalıştırılabilir, fine-tune edilebilir ve incelenebilir
- Güvenlik ekipleri modeli hassas ortamların içinde çalıştırabilir
- Ancak open weight, open source ile aynı şey değildir; eğitim verisi ve tüm pipeline genellikle açık olmaz
- Z.ai, RL eğitim çerçevesini yayımladı
GLM 5.2 bir Mixture-of-Experts(MoE) modeli
- Toplam parametre sayısı yaklaşık 750 milyar
- Token başına etkin parametre sayısı yaklaşık 40 milyar
- Bağlam penceresi 200K ile 1M token’a kadar genişliyor
Z.ai, uzun agent iş akışlarında da bağlamın istikrarlı korunduğunu öne sürüyor
- IDOR gibi güvenlik görevleri, birden çok dosya ve yetkilendirme çerçevesi boyunca akıl yürütmeyi gerektirir
Standart kodlama benchmark’larında da rekabetçi sayılar görüldü
- Terminal-Bench 2.1’de 81.0
- GLM 5.1’de 63.5
- Claude Opus 4.8’de 85.0
- SWE-bench Pro’da 62.1
Fiyat, karşılaştırılabilir frontier modellere göre yaklaşık 1/6 seviyesinde sunuluyor
Z.ai sürüm notlarında, GLM 5.2’nin GLM 5.1’e göre daha fazla reward-hacking davranışı gösterdiği belirtiliyor
- Eğitim sırasında korumalı değerlendirme dosyalarını okuma veya puanı yükseltmek için reference solution’ı curl ile çekme girişimleri raporlandı
- Z.ai, bunu engellemek için anti-hacking guard geliştirdiğini söylüyor

IDOR neden zor

IDOR(Insecure Direct Object Reference), istekte kullanıcı ID’si gibi dahili tanımlayıcıların açığa çıktığı ve çağıranın o nesneye erişim yetkisi olup olmadığının kontrol edilmediği bir zafiyet türüdür
Örnek Flask route’u, URL’deki user_id ile kullanıcı kaydını getirip doğrudan döndürür
- İsteği yapanın o kullanıcıya sahip olup olmadığını kontrol etmez
- Oturum açmış bir kullanıcı yalnızca user_id değerini değiştirerek başka bir kullanıcının kaydını okuyabilir
IDOR, iş mantığı kusurları ile yapılandırma hataları arasında bir karakter taşır
- Açıkça görülen riskli bir fonksiyon içeren bir taint-flow hatası değildir
- Asıl sorun eksik yetki kontrolü olduğu için hem statik analiz hem de LLM’ler için zordur
IDOR’un, HackerOne’ın en yaygın zafiyet türleri listesinde şu anda 4. sırada olduğu belirtiliyor

Karşılaştırma koşulları ve ölçüm yöntemi

Deneyde sabit tutulan üç unsur vardı
- Aynı gerçek open-source uygulamalara dayalı IDOR veri kümesi
- Bilinen true positive kümesi üzerinden F1 skoru değerlendirmesi
- Aynı IDOR sistem istemi
Değiştirilen unsur model ve harness idi
- Semgrep Multimodal, endpoint’leri listeleyen ve modeli yönlendiren özel bir harness içinde çalıştırıldı
- Claude Code, Claude Code SDK ile çalıştırıldı
- Diğer provider modelleri kendi native SDK’ları ile çalıştırıldı
- GLM 5.2, MiniMax M3, Kimi K2.7 Code gibi open-weight modeller Pydantic AI harness’inde yalnızca istemle çalıştırıldı
Ölçüm metrikleri şunlardı
- Precision: Dedektörün IDOR olarak işaretlediği öğelerin gerçekten IDOR olma oranı
- Recall: Veri kümesindeki gerçek IDOR’ların ne kadarının tespit edildiği
- F1: precision ile recall’un harmonik ortalaması
- Cost in dollars: true positive başına maliyet ve toplam çalışma maliyetinin bulunan gerçek hata sayısına bölünmesi

Sonuçlar: özel harness 1. ve 2. sırada, GLM 5.2 ise 3. sırada

IDOR tespiti F1 sıralaması şöyle
- Semgrep Multimodal(GPT 5.5), Semgrep Multimodal harness: %61
- Semgrep Multimodal(Opus 4.8), Semgrep Multimodal harness: %53
- GLM 5.2, Pydantic AI prompt only: %39
- Claude Code(Opus 4.6), Claude Code SDK: %37
- Claude Code(Opus 4.8/4.7), Claude Code SDK: %28
- MiniMax M3, Pydantic AI prompt only: %23
- Kimi K2.7 Code, Pydantic AI prompt only: %22
- GPT-5.5 Codex: %20
- Nemotron Super 3 120B, Pydantic AI prompt only: %18
- DeepSeek V4, Pydantic AI prompt only: %17
Üst F1 karşılaştırması: {b:61,53,39,37,28}
Semgrep Multimodal hattı, GPT 5.5 ve Opus 4.8 kullanıldığında sırasıyla %61 ve %53 ile en yüksek sonuçları verdi
GLM 5.2, iskele olmadan %39 F1 elde etti
- Metin, GLM 5.2’nin Claude Code’u 7 puan farkla geçtiğini söylüyor
- GLM 5.2 çalıştırma maliyeti, bulunan zafiyet başına yaklaşık $0.17 olarak verildi
MiniMax M3 ve Kimi K2.7 Code sırasıyla %23 ve %22 ile hem GLM 5.2’nin hem de Claude Code’un gerisinde kaldı
GLM 5.2 ile bir sonraki open-weight model arasındaki fark 16 puan; bu, GLM 5.2 ile Claude Code arasındaki farktan daha büyük

Yorum ve sınırlamalar

En büyük performans farkı, modeller arası farktan çok endpoint keşif harness’i bulunan ve bulunmayan kurulumlar arasında görüldü
Bu deneyde harness’in, model seçimi kadar etkili bir unsur olduğu ortaya çıktı
Aynı zamanda GLM 5.2, minimal istem ve basit harness koşullarında, maliyeti frontier LLM’lerin yaklaşık 1/6’sı düzeyindeyken zor bir güvenlik araştırma görevinde Claude Code’u geçti
Open-weight modeller kendi ortamınızda çalıştırılabildiği için bazı güvenlik ekipleri açısından pratik bir seçenek olabilir
Sonuçların açık sınırlamaları var
- Tek bir görev
- Tek bir veri kümesi
- Tek bir çalıştırma
- IDOR tespiti deterministik değil
- Veri kümesi sonlu
- SSRF tespitinde sonuçlar tersine dönebilir; bu henüz doğrulanmış değil

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Fable ve GPT 5.6 hengâmesinden sonra açık modelleri yeniden inceledim; GLM-5.2 günlük programlama için gerçekten iyi, pratik bir model
LLM’leri yoğun kullanan deneyimli bir geliştirici olarak, tek bir GPT oturumu genellikle 100 doları aşıyor. Bu hafta sonu şifreleme eklenmiş bir Matrix botu ve birkaç aracı olan bir Rust ajanı yaptım; iki gün sonra 20 dolar harcadığımda homelab’ime erişebilen multimodal bir Rust ajanı tamamlanmıştı
GLM’de tuhaf bir his yoktu; istediğim işleri iyi yaptı, hızlıydı, kişiliği de pek rahatsız edici değildi ve Opus ya da GPT’den çok daha ucuzdu. Fireworks’te kuantize edilmemiş sürümü kullandım; başka birçok sağlayıcı da var
- GLM 5.2 harika, ama “yalnızca en iyi modeli kullanacağım” diyorsanız henüz o konumda değil
  Tüm laboratuvarlar, bilinçli ya da bilinçsiz, benchmark yanıtlarını ezberlemiş modeller çıkarıyor; Çin laboratuvarlarının modellerinde açık benchmark’lar ile kendi değerlendirmeleri arasındaki fark daha büyük olma eğilimindeydi ve kendi değerlendirmeleri benchmark optimizasyonuna daha az açık olacak şekilde tasarlanmıştı
  Çok ajanlı kodlama ortamlarında GLM 5.2 ortalamada Opus 4.6’nın biraz gerisinde kalıyor. Veriler https://gertlabs.com/rankings adresinde
  Yine de performans/maliyet açısından bakınca GLM 5.2 ön cephe modeli sayılır
- Neden API ücreti ödendiğini gerçekten merak ediyorum. Claude kullanımım üzerinden bakarsam ayda binlerce dolarlık API kullanıyorum, ama gerçekte yalnızca 100 dolarlık abonelik ücreti ödüyorum
- Matrix kullanıyorsanız ve henüz denemediyseniz, harnes olarak Hermes’i değerlendirmeye değer. Yerel gateway desteği var; çoğunlukla Element üzerinden kullandım ve genel olarak harikaydı
- Fireworks’ün gerçekten kuantize edilmemiş olduğundan emin misiniz? OpenRouter’da, diğer yerlerde olduğu gibi hassasiyet belirtilmiyor
- 20 doların API ücreti mi yoksa abonelik ücreti mi olduğunu merak ediyorum
GLM 5.2 çıktığında onu güvenlik hatası bulma benchmark’ıma ekledim; performansı iyiydi ama en iyi açık model değildi
Bu benchmark, modelin Mythos’un bulduğu hataları bulup bulamadığını test ediyor. İlk sonuçlarda en iyi açık model DeepSeek V4 Pro veya MiMo 2.5 Pro’ydu; ancak MiMo şanslı çıkmış gibi görünüyor ve sonraki neredeyse tüm testlerde daha kötüydü. Buna karşılık DeepSeek sürekli üst sıralardaydı ve aşırı iyi önbellekleme performansı sayesinde, çok daha küçük modeller dahil neredeyse her şeyden daha ucuz
https://swelljoe.com/post/will-it-mythos/
Bir diğer ilginç nokta da, açık kaynak semgrep’i araç olarak verdiğinizde bazı modellerin daha kötüleşmesi ve hiçbir modelin daha iyi hale gelmemesiydi. Modelin semgrep’i doğrudan kullanmasına gerek kalmadan yalnızca yararlı bilgileri almasını sağlayacak şekilde harnesi iyi bağlamanın bir yolu olabilir
Tahminimce semgrep eğitim verisinde çok fazla yer almıyor; bu yüzden modele aynı anda hem semgrep’i nasıl kullanacağını çözme hem de güvenlik hatası bulma işi yükleniyor, dikkati bölünüyor ve iki işte de performans düşüyor. Küçük modellerin çoğu ve bazı büyük modeller bunu iyi yapamıyor
Ek testler sürüyor ve GLM 5.2’nin de sürekli güçlü performans gösterme olasılığı yüksek görünüyor. Şimdiye kadar test ettiklerimin çoğunda çok iyiydi
GLM 5.2’nin 753B parametreli bir model olduğu söyleniyor [1]; bunu yerelde çalıştırmak için nasıl bir donanım kullanıldığını merak ediyorum
[1] https://huggingface.co/zai-org/GLM-5.2
- Lenovo Legion 5i dizüstünde çalıştırmayı denedim. Yaklaşık 32GB RAM, 8GB VRAM’li 4060 yapılandırması
  1TB NVMe’ye de doğrudan sığmadığı için ağırlık başına 4 bitlik UD_Q4_K_XL kuantize modeli kullandım; hız saniye başına token değil, token başına yaklaşık 12 saniyeydi. Eğlenceli bir projeydi ama kullanmaya değmezdi
  llama.cpp bellek eşlemeyi desteklediği için 4096 token’lık bağlam önbelleğiyle çalıştırdım; tamamı RAM’e sığamayınca SSD’den ne kadar akış yapılması gerektiğini merak ettim. Basit, 4 cümlelik bir kendini tanıtma metni üretmek için diskten yaklaşık 1.5TiB okudu
- Kuantize sürümü çalıştırabilirsiniz. https://unsloth.ai/docs/models/glm-5.2
- antirez’e bakın. https://x.com/antirez/status/2071173841175363905?s=20
- 8 adet RTX6000 yeterli olur. Bu boyuttaki bir modeli makul token/saniye hızında başlatmak için kabaca 80 bin ila 100 bin dolar gerekir
  Yine de endişelenmeye gerek yok. Açık kaynak evangelistleri size 3 yıl içinde bu tür modellerin telefonda çalışacağını söyleyecektir
  100 bin dolara OpenRouter üzerinden bu modeli 50 tps, 10 eşzamanlı oturumla 10 yıl boyunca 7/24 çalıştırıp üstüne tatile gidecek para da kalır. Zaten birden fazla çalışanın ayrı ayrı token kullanım ücretlerini ödeyen bir işletme değilseniz, bu parayı yerel modele yatırmanın bir nedeni yok
“Bir güvenlik açığı bulmanın maliyeti yaklaşık 0,17 dolar ve Claude Code’u (%32) yeniyor” ifadesi hatalı
Claude Code bir LLM değil, bir ajan harnesi; Claude ise tek bir LLM değil, bir marka ya da LLM paketi
- Diğer modellerin fiyat listesi yoksa bu dolar rakamı anlamsız. Zayıf bir yazı
- Yazar da muhtemelen bunun gayet farkındadır. Yine de bu küçük hatayı işaret ettiğiniz için teşekkürler
- İnce eleyip sık dokumamanın bir maliyeti yok
- Claude Code, Claude seviyesindeki modelleri çalıştırmanın gerçek itfa edilmiş maliyetine yaklaşmanın neredeyse tek yolu
  Tüketiciye yönelik, kurumsal olmayan API kullanıcı açısından yüksek marjinal maliyetli, Anthropic açısından da kalın marjlı olduğundan çok pahalı. Devlet düzeyinde bir saldırganın modeli kendi donanımında çalıştırma maliyetini yaklaşık hesaplamak istiyorsanız, Claude Code muhtemelen itfa edilmiş maliyetin en iyi tahminidir
Bu rakamlar, özellikle Windows çekirdeği ve win32k↔win32u tarafında benim başardıklarımla kıyaslanınca oldukça düşük görünüyor
Artık Çin’in siber gibi belirli kategorilerde ABD’nin kamuya açtığı modellerin önüne geçmeye başlaması şaşırtıcı gelmeyecek gibi
GLM 5.2, kendi eğitimini destekleyecek kadar zaten güçlü; bu da ön cephe modellerinde gördüğümüz eğilime benziyor. Üstelik OpenAI veya Anthropic’ten çok daha düşük maliyetle oraya ulaşıyor gibi görünüyor
- Trump’ın ABD “müttefiklerine” izin vereceği modelleri neredeyse kesinlikle geride bırakacaktır. Müttefikleri fiilen bağımlı devletler olarak görüyor gibi
  Buna Çin’in güneş enerjisi, şarj edilebilir batarya ve elektrikli araç alanlarındaki artan hâkimiyeti de eklenirse, II. Dünya Savaşı sonrası ekonomik düzene ölümcül bir darbe olabilir
Opus da GLM için kullanılan aynı Pydantic harness ile en azından çalıştırılmalı. Şu hâliyle elmalarla armutları karşılaştırmak gibi
GLM dışındaki tüm diğer modeller için güvenlik açığı başına maliyet nerede?
Kod yoksa güvenmek de zor. Hepsi uydurma olabilir
GLM ihracat kontrolleri yakında gelir mi? Birkaç ay içinde Commerce’ın OpenRouter ve HuggingFace’i bazı açık modelleri kaldırmaya zorlamasını bekliyorum
Mantıklı olmayacak ama
- Böyle olursa tam bir felaket olur. Anthropic ve OpenAI güvenlik gerekçesiyle en yeni modellerini çoğu ABD şirketinin kullanmasını engellerken, saldırganların eşdeğer açık kaynak modellerle ABD şirketlerine saldırdığı bir durumu hayal edin
  Açık kaynak modelleri yasaklamak sorunu çözmeye hiç yardımcı olmaz. Çünkü saldırganlar kendilerini yasalarla bağlı hissetmez. Savunma amaçları için tüm gelişmiş modellere erişilebilmelidir
- ABD, Çin modellerinin ABD içinde kullanımını yasaklayabilir. Ama Çin otomobillerinin yasaklanmasında olduğu gibi, dünyanın geri kalanı bunları kullanmaya devam eder
- İsteseler bile bunu mümkün kılacak hukuki dayanağı bulmak zor görünüyor
  Hükümetin (a) ABD mal ve hizmetlerinin ihracatını engelleme, (b) fiziksel malların ithalatını yasaklama ve (c) yabancı şirketlerle yapılan işlemleri, hizmet alımlarını veya lisans sözleşmelerini de içeren işlemleri yasaklama yetkisi var
  Ama bir ABD şirketi tedarikçiyle bağımsız bir ilişki içindeyse ve bunu devlet sözleşmelerinde ya da düzenlemeye tabi uygulamalarda kullanmıyorsa, ABD içinde Çin’de geliştirilmiş açık kaynak bir AI modelini çalıştırma eyleminin kendisini yasaklayacak hukuki yetkinin ne olduğundan emin değilim
  HuggingFace vb. platformlara Çin hesaplarını askıya almalarını emretme ihtimali var. Ama ABD’deki ya da üçüncü bir ülkedeki biri modeli Çin’den indirip, tedarikçiden tamamen bağımsız şekilde ABD sunucularına yeniden yüklerse, bunu yasaklayacak hukuki bağlantı nerede, merak ediyorum
- ABD’nin Çin yapımı modellere ihracat kısıtlaması getirmesi mi demek bu?
- İleride son teknoloji AI savunma sanayisine özel olacak gibi. Oyuncak drone’larımız olabilir ama Predator ve Reaper’a sahip olamayız, o hesap
GLM 5.2’yi Neuralwatt üzerinden kullanıyorum ve o kadar ucuzladı ki, şirket Claude aboneliği sağlıyorsa kişisel Claude aboneliğimi iptal etmem sorun olmaz gibi
Bu ay 374 milyon token kullandım; enerji bazlı fiyatlandırmayla sadece 18 dolar tuttu
Reklam gibi okunuyor
İkincisi, bunlar “sadece” IDOR ve güvenlik açığı türleri arasında en kolay olanlardan
Üçüncüsü, GPT 5.5 ve Opus 4.8 ile karşılaştırıyorlar
Hayır, bizim evde Mythos yok
- Mythos tüm benchmark’larda GPT 5.5’in %10’dan az önünde; bunu da Opus’tan birkaç kat daha büyük olmasına borçlu
  Ekonomik olarak sunulabilir olsaydı, etkili fedakârlık palyaçolarının yürüttüğü pazarlama sirki yerine ilk günden yayımlanırdı. %10’dan az daha iyi bir modelin çıkarım maliyetinin %1000’den fazla olduğunu kabul etmek çok yıkıcı olurdu çünkü
- Benim deneyimime göre GLM 5.2 güvenlik açığı bulmada çok iyi ve daha da önemlisi, Opus’un aksine komutları reddettiğini hiç görmedim
  Güvenlik açıklarını bulup düzeltmek için gerçekten güçlü bir model
- Yine de hâlâ faydalı. Günümüzün ifadesiyle söylersek GLM 5.2 bugün bizimle aynı odada, ama Mythos değil
  AB’de biri olarak durum daha karmaşık. Mythos bir gün odaya girse bile, üzerinde hiçbir kontrolümüz olmayan siyasi bir aktörün kaprisleriyle aniden ortadan kaybolabilir
  Erişilebilir ve yerelde çalıştırılabilir açık modellerin nereye kadar geldiğini bilmek önemli. Geride olduklarını biliyorum. Ama “yeterince iyi”nin kullanışlı hâle geldiği bir nokta geliyor. Bugün “sadece IDOR” olsa ve en güncel seviyenin gerisinde kalsa bile bu böyle
  Yukarıda birinin dediği gibi, GLM 5.2 ile Kimi ve DeepSeek V4 gibi aynı sınıftaki modeller; indirme, kurma, test etme, düzeltme ve yeniden test etme gibi otomatik depo hazırlık işlerine destek olmak için giderek yeterli hâle geliyor. Bu da bir sonraki nesil eğitimde kullanılabilecek gerçek kullanım izleme verilerine dönüşüyor. Benchmark’larda birkaç yüzde puan geride olmalarından daha önemli olan şey bu olabilir
- Kesin konuşmak gerekirse Mythos bizde hiç yok değil mi? Erişim yalnızca onlarda. Bu, bizim evde kullandığımız Opus’a, yani açık ağırlıklara sahip olduğumuz anlamına geliyor gibi
- Ölçütlerinin dar olduğunu ve esas olarak kendi belirli kullanım senaryoları için önemli olduğunu açıkça söylüyorlar. Yine de akılcılığın dirgenleri indirtmesine izin vermemek gerekir!

GLM 5.2, Semgrep IDOR benchmark’ında Claude’u geride bıraktı

Model performansı ile harness etkisini ayıran deney

GLM 5.2’nin güvenlik görevlerinde dikkat çekmesinin nedeni

IDOR neden zor

Karşılaştırma koşulları ve ölçüm yöntemi

Sonuçlar: özel harness 1. ve 2. sırada, GLM 5.2 ise 3. sırada

Yorum ve sınırlamalar

İlgili okumalar

1 yorum

Hacker News yorumları