Yapay zeka siber güvenliğinde yeni sınır: Mythos sonrası gerçeklik

(aisle.com)

2 puan yazan GN⁺ 18 일 전 | 1 yorum | WhatsApp'ta paylaş

Anthropic’in Claude Mythos modeli büyük ölçekli zero-day açıklarını otomatik olarak tespit ettikten sonra, küçük açık modeller de aynı açıkları tespit etmeyi başardı
3.6B~5.1B parametre sınıfındaki modeller, FreeBSD ve OpenBSD hatalarını yeniden üretirken, bazıları Mythos’tan farklı yaratıcı exploit yolları sundu
Deney sonuçlarına göre model boyutu ile performans arasındaki ilişki doğrusal değil ve bazı görevlerde küçük modeller büyük modellerden daha doğru
Yapay zeka güvenlik yetenekleri düzgün biçimde ölçeklenmiyor, daha çok ‘inişli çıkışlı’ ve gerçek rekabet avantajı modelde değil, sistem tasarımı ile doğrulama pipeline’ında bulunuyor
Bu nedenle güvenliğin hendeği model değil sistemdir ve uzman bilgisinin gömülü olduğu orkestrasyon yapısı yapay zeka güvenliğinin çekirdeğini oluşturur

Hendek sistemdir, model değil

7 Nisan 2026’da Anthropic, Claude Mythos Preview ve Project Glasswing’i duyurarak Mythos modelini kullanıp büyük yazılımlardaki güvenlik açıklarını otomatik tespit edip yamalayacak bir konsorsiyum kurdu
- 100 milyon dolarlık kullanım kredisi ve 4 milyon dolarlık açık kaynak güvenlik kuruluşu bağışı sözü verdi
- Mythos, binlerce zero-day açığı buldu; OpenBSD’de 27 yıllık hata, FFmpeg’de 16 yıllık hata, FreeBSD uzaktan kod çalıştırma açığı gibi örnekleri otonom biçimde tespit edip exploit üretti
AISLE ise aynı açıkları küçük, ucuz ve açık ağırlıklı modellerle yeniden üretti
- 8 modelin 8’i de FreeBSD exploit’ini tespit etti
- 3.6B parametreli model (token başına $0.11) bile tespitte başarılı oldu
- 5.1B model, OpenBSD hatasının temel zincirini yeniden kurdu
- Bazı görevlerde küçük açık modeller büyük modellerden daha iyi performans gösterdi
Sonuç olarak yapay zeka güvenlik yetenekleri doğrusal değil, inişli çıkışlı (jagged)
- Belirli bir model tüm görevlerde üstün değil
- Güvenlik rekabetçiliğinin özü model değil sistem ve merkezde uzman bilgisi gömülü bir orkestrasyon yapısı var

Yapay zeka güvenliğinin bugünkü konumu

AISLE, 2025’in ortasından itibaren yapay zeka tabanlı açık tespit ve yama sistemlerini gerçek hedeflere uyguluyor
- OpenSSL’de 15 CVE, curl’de 5 CVE olmak üzere toplam 180’den fazla dış doğrulamadan geçmiş CVE buldu
- OpenSSL CTO’su, “rapor kalitesi ve işbirliği süreci çok iyi” değerlendirmesinde bulundu
Çeşitli modeller kullanıldı ancak Anthropic modelleri her zaman en iyi sonucu vermedi
- Göreve göre en uygun model değiştiği için model agnostik yaklaşım benimsendi

Yapay zeka güvenlik pipeline’ının bileşenlerine ayrılması

Gerçek yapay zeka güvenliği, tek bir modelden değil çok aşamalı bir pipeline’dan oluşuyor
- Geniş kapsamlı tarama, açık tespiti, doğrulama ve sınıflandırma, yama üretimi, exploit oluşturma gibi aşamaların her birinin ölçeklenme özellikleri farklı
Anthropic ilk girdiyi, yani model zekasını, en üst düzeye çıkarırken AISLE; token başına maliyet, hız ve güvenlik uzmanlığı gibi çeşitli unsurlara eşit ağırlık veriyor

Sonuç: Hendek sistemdir

Mythos’un teknik gönderisinde geçen container çalıştırma, dosya tarama, ASan doğrulaması, önceliklendirme değerlendirmesi gibi yapılar AISLE sistemine benziyor
Değerin merkezi model değil; hedefleme, doğrulama ve güven inşası süreci
Küçük modelleri büyük ölçekte paralel dağıtmak, tüm kodu geniş çapta tarayarak ekonomiklik ve tespit verimliliğini aynı anda sağlıyor
Mythos kategoriyi kanıtladı ancak operasyon ölçeği ve güvenilirliği sağlama hâlâ çözülmesi gereken bir konu

Deney sonuçları: inişli çıkışlı güvenlik yetenekleri

Mythos duyurusundaki temsilî açıklar üzerinde küçük ve düşük maliyetli modellerle deneyler yapıldı
- FreeBSD NFS hatası, OpenBSD SACK hatası, OWASP yanlış pozitif testi
  - Sonuçta model boyutu, nesil, fiyat ve performans arasındaki ilişki doğrusal değil
  - FreeBSD tespitinde tüm modeller başarılı oldu, OpenBSD’de yalnızca bazıları başarılı oldu, OWASP’ta ise küçük modeller büyüklerden daha doğru çıktı
  - FreeBSD tespiti: 8 modelin tamamı buffer overflow’u tespit etti
  - 3.6B model bile doğru hesaplama yaparak RCE olasılığı değerlendirmesi yaptı
  - DeepSeek R1, gerçek stack yapısıyla uyuşan hesaplamalar gerçekleştirdi
  - Exploit mantığında da tüm modeller ROP chain stratejisi sundu
  - Bazı modeller, Mythos’tan farklı yaratıcı çözümler önerdi; örneğin kernel mode yerine user mode’da root yükseltme
  - OpenBSD SACK hatası: 5.1B model tüm zinciri yeniden kurup doğru yamayı önerdi
  - Qwen3 32B, FreeBSD’de kusursuzken burada “güvenli” diyerek yanlış değerlendirme yaptı
  - Model bazlı performans sıralaması görevden göreve tamamen tersine döndü
OWASP yanlış pozitif testi: basit Java kodunda küçük modeller büyük modellerden daha doğru
- GPT-OSS-20b, DeepSeek R1 ve OpenAI o3, “şu anda güvenli ama zafiyet potansiyeli var” diyerek doğru değerlendirme yaptı
- Anthropic ve birçok GPT-4.x türevi ise yanlış SQL injection tespiti yaptı

Yama tanıma testi (9 Nisan 2026 güncellemesi)

FreeBSD’nin yamalanmış sürüm kodu üzerinde hata tespiti ve düzeltmeyi tanıma yetenekleri karşılaştırıldı
- Tüm modeller yamalanmamış hatayı tespit etti ancak yama sonrası kodda çok sayıda yanlış pozitif oluştu
- Yalnızca GPT-OSS-120b iki yönde de doğruydu
- Modellerin çoğu, oa_length işaret yorumlama hatası nedeniyle yanlış zafiyet iddiasında bulundu
Bu, duyarlılığın (tespit gücü) yüksek ama özgüllüğün (doğruluk) düşük olduğunu gösteriyor ve
model dışı doğrulama ve triaj sistemlerinin zorunlu olduğunu vurguluyor

Exploit oluşturmanın sınırları

Mythos’un çok aşamalı tarayıcı sandbox kaçışı, kernel ROP chain gibi örnekleri son derece gelişmiş vakalar
Açık modeller, exploit olasılığı, teknikleri ve bypass stratejilerini mantıksal biçimde açıklayabiliyor ancak
kısıtlı ortamlarda yaratıcı teslim mekanizmaları konusunda henüz yetersiz
Ancak savunma odaklı workflow’larda, tam exploit’ten çok tespit ve yama güvenilirliği daha önemli

Makro bakış

Mythos duyurusu, yapay zeka güvenliğinin gerçekliğini ve endüstriyel önemini kanıtladı
- Açık kaynak güvenliğine yönelik fon ve ilgi arttı
Ancak “bu yetenek yalnızca belirli bir kapalı modele özgü” iddiası abartılı
- Gerçekte tespit ve analiz aşaması zaten geniş ölçüde erişilebilir durumda
- Güvenlik uzmanlığı, sistem tasarımı ve güven inşası asıl darboğaz
Şu anda gereken şey model değil, sistem inşası
- Scaffold, pipeline, işbirliği yapısı ve geliştirme workflow’larıyla entegrasyon
- Modeller zaten yeterince hazır durumda

Sınırlamalar ve dikkat noktaları

Test kapsamı sınırlı: Modellere zafiyetli fonksiyon ve ipuçları doğrudan verildi; tamamen otonom keşif yapılmadı
Araç erişimi yok: Kod çalıştırma, döngüler ve sandbox ortamları kullanılmadı
Model güncellemeleri yansıtıldı: Bazı güncel Anthropic modelleri daha sonra iyileşti
İddia kapsamı netleştirildi: Mythos’un yetenekleri reddedilmiyor;
tespit yeteneğinin tekelleştiği iddiasının abartıldığı belirtiliyor

Ek özet

FreeBSD tespiti alıntısı
- Kimi K2: “oa_length, doğrulama olmadan kopyalanıyor; bu da overflow’a yol açabilir”
- Gemma 4: “128 baytlık stack buffer aşılabilir”
Görev bazlı performans karşılaştırma tablosu
- FreeBSD tespitinde tüm modeller başarılı, OpenBSD’de yalnızca bazıları başarılı, OWASP’ta küçük modeller önde
Yamalı kod testi
- Modellerin çoğu oa_length işaret hatası nedeniyle yanlış pozitif üretti
- Yalnızca GPT-OSS-120b tamamen doğruydu
- Sonuç:
- Yapay zeka güvenliğinde temel rekabet avantajı modelin boyutu ya da tekel niteliği değil,
- uzman bilgisinin gömülü olduğu sistemsel tasarım ve güvenilir operasyon yapısıdır.
- Küçük modeller de fazlasıyla güçlü ve bunlardan yararlanan büyük ölçekli otomatik savunma sistemleri kurmak artık mümkün.

1 yorum

GN⁺ 18 일 전

Hacker News yorumları

Anthropic'in Mythos Preview yazısına göre OpenBSD'de şimdiye kadarki en kritik güvenlik açığını bulmuşlar.
Bin çalıştırmanın toplam maliyeti 20 bin doların altındaymış ve bunlardan birinde 50 doların altında bir maliyetle hatayı bulmuşlar.
Ancak bunun yalnızca sonradan bakınca anlamlı bir rakam olduğu, pratikte hangi çalıştırmanın başarılı olacağını önceden bilmenin mümkün olmadığı vurgulanıyor.
Mythos'un adeta bir kıtayı altın madeni arar gibi taradığı benzetmesi yapılıyor; aynı deney FreeBSD'nin tüm kod tabanında yürütülse gürültünün çok artacağı tahmin ediliyor.
- Mythos'un scaffolding yapısı aslında bir bash döngüsüyle tüm dosyaları dolaşıp modele açık buldurma yönteminden ibaretti.
  Anthropic'in false positive oranını açıklayıp açıklamadığı merak ediliyor.
  Xitter'da başka açık modellerle deney yapan kişilerin, Mythos'un bulduklarının yalnızca bir kısmını yeniden üretebildiğine dair yorumlar görülmüş.
  Mythos'un mevcut modellere kıyasla kademeli ama büyük bir iyileşme gösterdiği, aynı zamanda karmaşıklığının da arttığı düşünülüyor.
  “Açıklanamayacak kadar güçlü” tarzı pazarlamanın, aslında “tüm kod tabanını döndürmek 20 bin dolara mal oluyor” gerçeğini paketlemek gibi göründüğü söyleniyor.
  Nicholas Carlini'nin sunumunda da Opus kullanılmıştı; güvenlik zaten uzun süredir Anthropic'in odaklandığı bir alan.
- Mythos da çok sayıda uydurma güvenlik açığı üretti, ama bunların bir kısmı gerçekten test edilerek doğrulandı.
  Asıl mesele, daha küçük modellerin de bu doğrulama adımını yapıp yapamayacağı ve bunu daha ucuza gerçekleştirip gerçekleştiremeyeceği.
- Buna karşılık bazı başka araştırmaların fazla uç bir yaklaşım izlediği düşünülüyor.
  Yalnızca savunmasız fonksiyon ayrılıp modele verilerek değerlendirme yapılmış; bu da “altının saklı olduğu odayı doğrudan göstermek” gibi.
  Oysa gerçekte zor olan, o odayı tüm kıta içinde bulmak.
- OpenBSD'de tek bir DoS açığı bulmak için 20 bin dolar harcamak verimsiz görünüyor.
  Mythos'un bir tür kupa gibi ele alındığı, ama bunun yerine OpenBSD vakfına bağış yapmanın daha iyi olacağı düşünülüyor.
- Eğer aynı açık daha küçük bir modelle de bulunabiliyorsa, o şirketin bunu neden zaten daha önce bulamadığı sorgulanıyor.
Küçük açık modellerin Mythos'un FreeBSD açıklarının 8'de 8'ini tespit ettiğini söyleyen bir araştırma vardı.
Ancak test yalnızca ilgili kod ayrıştırılarak yapıldığı için bunun gerçek kullanım senaryosundan farklı olduğu düşünülüyor.
Gerçek değer, tüm kod tabanını verip taratabilmekte.
- Araştırma ekibi de sınırlamaları kendisi kabul etmiş.
  Modele doğrudan savunmasız fonksiyon ve ipuçları verildiği için bunun tam otonom keşfin yalnızca üst sınırı olduğu söyleniyor.
  Yine de iyi tasarlanmış bir scaffolding bu bağlamı otomatik üretebildiğinden, esas mesele model değil sistem (moat) deniyor.
- Anthropic'in teknik yazısına göre yapı; konteyner başlatma, modelin dosyaları tarayıp hipotez kurması ve bunları ASan ile doğrulaması şeklinde işliyor.
  Yani işin büyük kısmını framework (harness) yapıyor, model ise değiştirilebilir deniyor.
- Daha küçük modellerle de tüm dosyalara veya fonksiyonlara tekrar tekrar prompt gönderen bir otomatik harness kurulabilir.
  Tutarlı biçimde açık olarak işaretlenen bölümler daha sonra daha büyük bir modelle yeniden doğrulanabilir.
  Sonuçta önemli olan model değil harness.
- Neticede fark sadece harness; ben de kodu fonksiyon bazında bölüp analiz ajanına veren bir harness kurabilirim.
Heartbleed örneğinde olduğu gibi, savunmasız kodu ayrı gösterirsen herkes hatayı bulabilir.
Ama büyük bir kod tabanında o kısmı bulmak asıl zor olan şey.
Aisle'ın böyle bir yazı yazmış olması şaşırtıcı bulunuyor.
- Yazı reklam kokuyor olabilir, ama HN'de üst sıralara çıkmasının nedeni insanların “demek ki yeni model de o kadar büyük bir şey değilmiş” hissine oynaması olabilir.
- Büyük projelerde bazen kısa bir ara verip geri dönünce insan kendi yazdığı kodu bile dağınık bulabiliyor.
  Bağlamı koruma zorluğu, hataların temel nedenlerinden biri.
- İnsanlar tekrarlayan ve ince işlerde zayıf kalıyor.
  Buna karşılık makineler sıkılmadan kodu tekrar tekrar tarayabiliyor.
  “Yeterince göz varsa tüm hatalar yüzeyseldir” sözü gerçekte pek doğru değil.
- O halde “yakından bakma” süreci otomatikleştirilebilir.
  Kod tabanını dolaşıp LLM'ye tekrar tekrar “bu kodda bir açık varsa bul” diye prompt veren bir araç yapılabilir.
  Yani LLM'yi akıllı yapan asıl şey araç (harness).
- Bunun, problem çözmeyle doğrulamayı birbirine karıştırmak gibi olduğu da söyleniyor.
  “Birisi sana asal çarpanlara ayırmayı söyleseydi PKI kırmak kolay olurdu” benzetmesi yapılıyor.
Bu yazının metodolojisinin tamamen yanlış bir karşılaştırma olduğu düşünülüyor.
Savunmasız fonksiyonu ve ipuçlarını doğrudan vermek bambaşka bir görev.
Gerçekte kod parçalarını bölüp küçük modellere vermenin, büyük model seviyesinde sonuç üretmeye yetmeyeceği savunuluyor.
Basit bir shell script pipeline ile Redis'te çok sayıda hata bulunabildiği söyleniyor.
Zayıf modellerle bunun başarılamadığı, bunu bizzat deneyince farkın görüldüğü belirtiliyor.
Ayrıca küçük model yüzde 80'ini bulsa bile kalan yüzde 20 için daha güçlü bir model gerekiyor.
- Anthropic'in de bulduğu açıkların yüzde 1'inden azını açıkladığı söyleniyor.
  Açık modellere eski bir Linux ortamı verilip ne kadar bulduklarının denenmesi ilginç olurdu.
- Ama başkaları bu yaklaşımın makul olduğunu düşünüyor.
  Küçük modellerin false positive'leri iyi elediği ve uygun bir harness ile büyük modellere yakın sonuç verebildiği söyleniyor.
  Küçük modeller hızlı ve ucuz olduğu için, deneyimli kullanıcıların elinde çok daha verimli olabilir.
  Gelecekte bu tür hafif model + harness kombinasyonlarının öne çıkacağı düşünülüyor.
- “Thanks Dario, very cool!” diyerek alaycı tepki verenler de olmuş.
Birçok yorum “kod ayrıldığı için geçersiz” diyor, ama Anthropic de modeli aynı şekilde dosya bazında çalıştırmıştı.
Mythos'un harness yapısı her dosyaya bir önem puanı veriyor ve ardından o dosyaya odaklanan Claude Code instance'ları oluşturuyordu.
Dolayısıyla kodu ayırmak tek başına sonucu geçersiz kılmıyor.
Nicholas Carlini'nin sunum videosunda da aynı teknik anlatılıyor.
LLM'yi her seferinde tek bir dosyaya odaklanacak şekilde detaylı inceleme yaptırmak etkili oluyor.
Mythos'un “yeniliği” aslında bu basit dosya bazlı prompt otomasyonuydu.
Maliyetin 20 bin dolara kadar çıkmasının nedeni de büyük ölçüde bu olabilir.
Benzer yöntemin Opus 4.6 ve GPT 5.4 ile denendiğinde çok daha kapsamlı inceleme yaptığı söyleniyor.
Yani tek bir oturumu tek dosyaya odaklayınca model çok daha derin analiz yapıyor.
- Ancak bu durumda dosyalar arası etkileşimden doğan açıklar kaçabilir.
“Küçük model aynı analizi yeniden üretti” ifadesi nicelleştirilmediği için güven vermiyor.
Açık doğrulaması PoC ile net biçimde ölçülebilir; dolayısıyla böyle kanıtlar gerekli.
Ayrıca “ilgili kodun önceden verilmesi” adil bir karşılaştırma sayılmıyor.
False positive oranı açıklanmazsa analiz anlamsız kalır.
Her satırda hata var dersen tespit oranı yüzde 100 olur ama bunun faydası olmaz.
Anthropic ve OpenAI da bu tür rakamları açıklamadığı için güven vermekte zorlanıyor.
- Buna karşı, doğrulanabilir bir oracle varsa false positive'lerin göz ardı edilebileceği yönünde itiraz da var.
- Gerçekten de küçük model false positive testinde doğruyu bulurken Opus yanlış sonuç vermiş.
  Ama Mythos seviyesinde bir exploit doğrulamasına kadar gidilememiş.
  Deepseek R1'in sonuçları oldukça ikna edici görünse de gerçekten çalışıp çalışmadığı belirsiz.
- En azından Anthropic'in ulaştığı kapsama düzeyine erişmek gerektiği söyleniyor.
Asıl nokta, ilgili kodun ayrıştırılmış olması.
Karmaşık zero-day açıklar çoğu zaman birden çok dosyanın etkileşiminden doğar; bu nedenle bu yaklaşımın sınırları var.
- Ama bazıları Mythos'un da sonuçta aynı şekilde dosya bazlı analiz yaptığını savunuyor.
- Mythos'un gerçekten dosyalar arası açık bulup bulmadığı ise belirsiz.
Mythos tüm kod tabanını değerlendirdi, ama bu araştırma yalnızca savunmasız kodu ayırıp test etti.
Bu, “ormanda top bulan köpek” ile “topun olduğu bölge söylenmiş köpek” arasındaki fark gibi anlatılıyor.
- Hatta topa koku sürüp, köpeğe o kokuyu alıştırıp dar bir alana salmak kadar ileri bir benzetme yapılıyor.
- Mythos tüm kodu tek seferde veremeyeceği için, muhtemelen birden çok alt ajan arasında işi bölmüştü.
  Sonuçta önemli olan model değil, harness (araç sistemi).

Yapay zeka siber güvenliğinde yeni sınır: Mythos sonrası gerçeklik

Hendek sistemdir, model değil

Yapay zeka güvenliğinin bugünkü konumu

Yapay zeka güvenlik pipeline’ının bileşenlerine ayrılması

Sonuç: Hendek sistemdir

Deney sonuçları: inişli çıkışlı güvenlik yetenekleri

FreeBSD NFS hatası, OpenBSD SACK hatası, OWASP yanlış pozitif testi

OWASP yanlış pozitif testi: basit Java kodunda küçük modeller büyük modellerden daha doğru

Yama tanıma testi (9 Nisan 2026 güncellemesi)

Exploit oluşturmanın sınırları

Makro bakış

Şu anda gereken şey model değil, sistem inşası

Sınırlamalar ve dikkat noktaları

Ek özet

FreeBSD tespiti alıntısı

Görev bazlı performans karşılaştırma tablosu

Yamalı kod testi

İlgili okumalar

1 yorum

Hacker News yorumları