1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Project Glasswing, güçlü yapay zeka modelleri kötüye kullanılmadan önce kritik yazılımları korumayı amaçlayan ortak bir proje; yaklaşık 50 ortak katılıyor
  • Claude Mythos Preview, ortakların kodlarında 10 binden fazla yüksek ve kritik önem düzeyinde zafiyet buldu; bazı ortaklarda keşif hızı 10 kattan fazla arttı
  • 1.000'den fazla açık kaynak projede 23.019 zafiyet tahmin edildi; doğrulanan 1.752 bulgunun %90,6'sının gerçek pozitif olduğu teyit edildi
  • Darboğaz, zafiyet keşfinden doğrulama, raporlama, yama ve dağıtıma kaydı; yüksek ve kritik hatalarda yamaya kadar geçen süre ortalama 2 hafta
  • Anthropic, Mythos düzeyindeki modeli henüz genel kullanıma açmadı; geliştiriciler ve savunma ekiplerinin yama döngülerini kısaltması ve temel güvenlik kontrollerini güçlendirmesi gerekiyor

İlk sonuçlar ve açıklama ilkeleri

  • Project Glasswing, daha güçlü yapay zeka modelleri kötüye kullanılmadan önce dünya çapında kritik öneme sahip yazılımları korumaya yönelik bir ortak çalışma projesidir
  • Anthropic ve yaklaşık 50 ortak, Claude Mythos Preview ile kritik yazılımlarda önem derecesi yüksek veya kritik olan 10 binden fazla zafiyet tespit etti
  • Yazılım güvenliğindeki darboğaz, yeni zafiyetleri bulma hızından, yapay zekanın bulduğu büyük sayıdaki zafiyeti doğrulama, açıklama ve yamalama hızına kaydı
  • Zafiyet açıklama yöntemi

    • Genel zafiyet açıklama pratiği, yeni bir zafiyet keşfedildikten 90 gün sonra açıklama yapmak ya da 90 günden önce bir yama hazırsa yama sağlandıktan yaklaşık 45 gün sonra açıklamaktır
    • Anthropic'in Coordinated Vulnerability Disclosure policy politikası da bu yaklaşımı izliyor; amaç, son kullanıcıların saldırıdan önce güncelleme yapabilmesi için zaman tanımak
    • Mythos Preview'un ortaklarda bulduğu zafiyetlerin ayrıntılarını erken açıklamak son kullanıcıları riske atabileceğinden, şu an için paylaşım temsili örnekler ve toplu istatistikler ile sınırlı
    • Yamalar geniş çapta dağıtıldıktan sonra daha ayrıntılı teknik içerik yayımlanacak

Ortaklarda ve dış değerlendirmelerde görülen performans

  • Project Glasswing'in ilk ortakları, internetin ve kritik altyapının çalışması için temel önemde olan yazılımları geliştiriyor ve sürdürüyor
  • Bu kodlardaki kusurların giderilmesi, ilgili yazılıma bağımlı çok sayıda kurumun ve milyarlarca son kullanıcının riskini azaltıyor
  • Proje başladıktan bir ay sonra ortakların çoğu kendi başına yüzlerce kritik veya yüksek önem düzeyinde zafiyet buldu ve toplam keşif sayısı 10 bini aştı
  • Birden fazla ortakta hata bulma hızı 10 kattan fazla arttı
  • Cloudflare, kritik yol sistemlerinde 2.000 hata buldu; bunların 400'ü yüksek veya kritik önem düzeyindeydi ve yanlış pozitif oranının insan test uzmanlarından daha iyi olduğunu değerlendirdi
  • Dış testler ve benchmark'lar

    • Birleşik Krallık AI Security Institute, Mythos Preview'u kendi iki siber menzilinde, yani çok aşamalı siber saldırı simülasyonlarını baştan sona ilk kez çözebilen model olarak değerlendirdi
    • Mozilla, Firefox 150 testinde 271 zafiyet bulup düzeltti; bu sayı, Firefox 148'de Claude Opus 4.6 ile bulunanların 10 katından fazla
    • Bağımsız güvenlik platformu XBOW, Mythos Preview'un web exploit benchmark'ında önceki tüm modellere kıyasla “önemli bir sıçrama” gösterdiğini ve token başına “eşi görülmemiş hassasiyet” sunduğunu belirtti
    • ExploitBench ve ExploitGym, exploit geliştirme yeteneğini ölçen yakın dönem akademik benchmark'lardır; Mythos Preview en güçlü performansı gösterdi
  • Yama dağıtım hızındaki değişim

    • Palo Alto Networks'ün son sürümünde normalden 5 kattan fazla yama yer aldı
    • Microsoft, yeni yama sayısının “bir süre daha artış eğiliminde kalacağını” açıkladı
    • Oracle, ürünleri ve bulut genelinde zafiyetleri öncekine göre katbekat daha hızlı bulup düzeltiyor
    • Mythos Preview yalnızca zafiyet tespitinde değil, başka güvenlik görevlerinde de kullanıldı; Glasswing ortaklarından bir bankada, tehdit aktörlerinin müşteri e-posta hesaplarını ele geçirip sahte aramalar da kullandıktan sonra denediği 1,5 milyon dolarlık sahtekârlık amaçlı para transferinin tespit edilip engellenmesine katkı sağladı

Açık kaynak tarama sonuçları

  • Anthropic, son aylarda Mythos Preview ile internetin ve kendi altyapısının önemli bir bölümünü ayakta tutan 1.000'den fazla açık kaynak projeyi taradı
  • Mythos Preview bu projelerde toplam 23.019 zafiyet tahmin etti; bunların 6.202'sini yüksek veya kritik önem düzeyinde değerlendirdi
  • Doğrulanan zafiyet metrikleri

    • Yüksek veya kritik önem düzeyinde değerlendirilen zafiyetlerden 1.752'si, 6 bağımsız güvenlik araştırma şirketi ya da bazı durumlarda Anthropic tarafından dikkatle incelendi
    • Bunların %90,6'sı, yani 1.587'si, gerçek pozitif olarak doğrulandı
    • Bunların %62,4'ü, yani 1.094'ü, yüksek veya kritik önem düzeyinde kesinleştirildi
    • Mevcut sonradan sınıflandırma ölçütlerine göre gerçek pozitif oranı uygulanırsa, Mythos Preview artık yeni zafiyet bulmasa bile açık kaynak kodlarda yaklaşık 3.900 yüksek veya kritik önem düzeyinde zafiyetin ortaya çıkması bekleniyor
    • Anthropic, açık kaynak kod taramasını bir süre daha sürdüreceğini belirtiyor; bu nedenle bu sayının artması bekleniyor
  • wolfSSL zafiyeti örneği

    • wolfSSL, güvenliğiyle tanınan bir açık kaynak kriptografi kütüphanesidir ve dünya çapında milyarlarca cihazda kullanılır
    • Mythos Preview, saldırganların sertifika sahteciliği yapmasına imkân veren bir exploit oluşturdu
    • Bu zafiyet, saldırganların banka ya da e-posta sağlayıcısı gibi görünen sahte web siteleri işletmesine olanak tanıyor; son kullanıcı açısından site normal görünse de aslında saldırganın kontrolünde oluyor
    • İlgili zafiyet zaten yamalandı ve CVE-2026-5194 atandı
    • Tam teknik analiz önümüzdeki birkaç hafta içinde yayımlanacak

Doğrulama, açıklama ve yama darboğazı

  • Mythos Preview ile zafiyet keşfi büyük ölçüde kolaylaştı, ancak darboğaz artık hataları sınıflandırma, raporlama, yama tasarlama ve dağıtma için gereken insan kapasitesinde
  • Anthropic, taranan açık kaynak zafiyet panosunu yayımlayarak koordineli açıklama sürecinin her aşamasını ve ilerlemeyi izliyor
  • Her aşamada sayıların ciddi biçimde düşmesi, her bir zafiyetin doğrulanması ve düzeltilmesi için gereken insan emeğini yansıtıyor
  • Anthropic veya dış güvenlik şirketleri, Mythos'un bulduğu sorunları yeniden üretip önem düzeyini tekrar değerlendiriyor, daha önce düzeltilip düzeltilmediğini kontrol ediyor ve bakımcıya gönderilecek ayrıntılı raporlar hazırlıyor
  • Açık kaynak bakımcıları, mevcut bakım yüklerine ek olarak düşük kaliteli yapay zeka üretimi hata raporlarının seliyle de baş etmeye çalışıyor
  • Birçok bakımcının işleme kapasitesi ciddi biçimde sınırlı; bazıları yamaları tasarlamak için zamana ihtiyaç duyduklarını söyleyerek açıklama hızının düşürülmesini istedi
  • Mythos Preview'un bulduğu yüksek veya kritik önem düzeyindeki hatalarda yamaya kadar ortalama süre 2 hafta
  • Açıklama ve yama durumu

    • Bakımcıların talebi doğrultusunda, ek değerlendirme olmadan hataların doğrudan açıklandığı durumlar da oluyor
    • Şu ana kadar doğrulanmamış 1.129 hata doğrudan raporlandı; bunların 175'i, Mythos Preview tarafından yüksek veya kritik önem düzeyinde tahmin edildi
    • Şu ana kadar bakımcılara açıklanan yüksek veya kritik önem düzeyindeki hata sayısının yaklaşık 530 olduğu tahmin ediliyor
    • Buna ek olarak doğrulanmış 827 zafiyet bulunuyor; bunlar da aynı şekilde yüksek veya kritik önem düzeyinde tahmin edildi ve mümkün olan en kısa sürede açıklanacak
    • Raporlanan yüksek veya kritik önem düzeyindeki 530 hata içinden 75'i yamalandı; bunların 65'ine kamuya açık güvenlik duyurusu atandı
    • Coordinated Vulnerability Disclosure policy kapsamındaki 90 günlük pencere henüz erken aşamada olduğundan, ileride daha fazla yama bekleniyor
    • Bazı zafiyetler kamuya açık güvenlik duyurusu olmadan yamandığı için, yama sayısı Claude ile doğrudan tarama yapılmadan görülemeyebilir; bu nedenle mevcut sayı düşük hesaplanmış olabilir
    • Zafiyet keşfinin kolaylaşıp düzeltmenin yavaş kalması arasındaki bu dengesizlik, siber güvenlikte büyük bir sorun olarak öne çıkıyor; iyi yönetilirse yazılımlar eskisine göre çok daha güvenli hale gelebilir

Siber güvenlikte yeni döneme yanıt

  • Mythos Preview'a benzer siber güvenlik kabiliyetine sahip modellerin yakında daha yaygın şekilde erişilebilir olması bekleniyor
  • Yazılım sektörünün genelinde, bu modellerin üreteceği büyük hacimli bulguları yönetmek için daha büyük ölçekli çabalara ihtiyaç var
  • Zafiyet keşfi, yama yazımı ve yamaların son kullanıcılara yaygın biçimde ulaşması arasında bugün de çoğu zaman uzun gecikmeler bulunuyor
  • Mythos düzeyindeki modeller, zafiyetleri bulmak ve istismar etmek için gereken zaman ve maliyeti ciddi biçimde düşürerek bu gecikmelerin yarattığı riski büyütüyor
  • Uzun vadede Mythos düzeyindeki modeller, dağıtımdan önce hataları yakalayarak geliştiricilerin çok daha güvenli yazılımlar üretmesine yardımcı olabilir
  • Ancak zafiyetlerin hızla keşfedilip yamaların yavaş ilerlediği bu ara dönemde yeni riskler ortaya çıkıyor
  • Yazılım geliştiriciler için gerekli adımlar

    • Geliştiriciler yama döngülerini kısaltmalı ve güvenlik düzeltmelerini mümkün olduğunca hızlı sağlamalı
    • Halka açık yapay zeka modellerinin dikkatli kullanımı bu konuda yardımcı olabilir
    • Kullanıcıların en güncel sürümde kalmasını sağlamak için güncelleme kurulumunu mümkün olduğunca kolaylaştırmak gerekiyor
    • Bilinen zafiyetlere sahip yazılımları çalıştırmayı sürdüren kullanıcılara, mümkün olan yerlerde daha ısrarcı biçimde güncelleme yönlendirmesi yapılmalı
  • Ağ savunucuları için gerekli adımlar

    • Ağ savunucuları, yama test ve dağıtım takvimlerini kısaltmalı
    • National Institute of Standards and Technology ile Birleşik Krallık National Cyber Security Centre tarafından önerilen temel kontroller, belirli bir yamanın zamanında uygulanmasına bağlı olmadan güvenliği artırdığı için daha da önemli hale geliyor
    • Buna temel ağ yapılandırmasının sıkılaştırılması, çok faktörlü kimlik doğrulamanın zorunlu tutulması ve tespit ile müdahale için kapsamlı log'ların tutulması gibi önlemler dahil

Açık yapay zeka modelleriyle savunma araçları

  • Genel erişime açık birçok model, en karmaşık zafiyetleri bulma veya Claude Mythos Preview kadar etkili şekilde istismar etme konusunda yeterli olmasa da, hâlihazırda çok sayıda yazılım zafiyeti bulabiliyor
  • Project Glasswing, birden fazla kuruluşun genel kullanıma açık modellerle kendi kod tabanlarını incelemesini teşvik etti; Anthropic de bunu kolaylaştırmak için çalışmalar yürütüyor
  • Claude Security

    • Claude Security, Claude Enterprise müşterilerine açık beta olarak sunuldu
    • Ekiplerin kod tabanlarındaki zafiyetleri taramasına ve önerilen düzeltmeler üretmesine yardımcı olan bir araç
    • Yayına alındıktan sonraki 3 hafta içinde Claude Opus 4.7, 2.100'den fazla zafiyetin yamalanmasında kullanıldı
    • Şirketler kendi kodlarını düzeltirken, açık kaynak düzeltmeleri genellikle koordineli açıklama süreci ve gönüllü bakımcılar gerektirir; bu yüzden Claude Security ile yama hızı, yukarıda sözü edilen açık kaynak yamalarından daha yüksek oldu
  • Cyber Verification Program

    • Cyber Verification Program, güvenlik uzmanlarının Anthropic modellerini meşru siber güvenlik amaçları için kullanabilmesini sağlıyor
    • Zafiyet araştırması, penetrasyon testi ve red team faaliyetleri gibi kullanım alanlarında, siber kötüye kullanımı önlemeye yönelik bazı korumalar olmadan model kullanılabiliyor
  • Mythos Preview ile birlikte kullanılan araçlar

    • Anthropic ve ortaklarının Mythos Preview ile birlikte kullandığı araçlar, uygun niteliklere sahip müşteri güvenlik ekiplerine talep üzerine sağlanıyor
    • Amaç, karmaşık kurulum gerektirmeden güçlü halka açık modellerin performansından daha iyi yararlanılmasına yardımcı olmak
    • skills: Anthropic ve ortaklarının oluşturup paylaştığı, tekrarlayan görevler için özel yönergeler
    • harness: Claude'un kod tabanını haritalamasına, tarama alt ajanları başlatmasına, bulguları sınıflandırmasına ve rapor yazmasına yardımcı olan yapılandırma
    • Tehdit modeli oluşturucu: Kod tabanını haritalayıp potansiyel saldırı hedeflerini belirliyor ve model çalışmalarında önceliklendirme yapıyor
    • Cisco, Project Glasswing ortaklarından biri; diğer savunucuların Cisco benzeri değerlendirme sistemleri kurabilmesi için yakın zamanda Foundry Security Spec açık kaynak olarak yayımlandı

Ekosistem desteği ve sonraki adımlar

  • Anthropic, bakımcıların hata raporlarını işleme ve sınıflandırma çalışmalarını desteklemek için Open Source Security Foundation'ın Alpha-Omega projesiyle ortaklık kurdu
  • Anthropic, frontier yapay zeka modellerinin exploit geliştirme yeteneğini zaman içinde izleyebilecek yeni benchmark'lar ExploitBench ve ExploitGym geliştirilmesini destekliyor
  • Bu benchmark'lara ilişkin ayrıntılar Frontier Red Team blog içinde ayrıca ele alınıyor
  • External Researcher Access Program aracılığıyla başka yüksek kaliteli nicel benchmark'ların geliştirilmesi de destekleniyor
  • Claude for Open Source, bakımcıları ve katkı sağlayanları destekliyor; Anthropic ayrıca gelecekte kendi benimsediği tüm açık kaynak paketlerini tarayacağını açıkladı
  • Yapay zekadaki ilerleme hızı göz önüne alındığında, Mythos Preview kadar güçlü modellerin yakında birden fazla yapay zeka şirketi tarafından geliştirileceği öngörülüyor
  • Şu anda Anthropic dahil hiçbir şirket, bu tür modellerin kötüye kullanılıp ciddi zarar vermesini önleyecek kadar güçlü korumalar geliştirmiş değil
  • Bu nedenle Anthropic, Mythos düzeyindeki modelleri henüz genel kullanıma açmıyor
  • Project Glasswing, benzer kabiliyetteki modeller yeterli korumalar olmadan yayımlanırsa, kusurlu yazılımları istismar etmenin dünyanın neredeyse her yerindeki insanlar için çok daha ucuz ve kolay hale gelebileceği endişesiyle başlatıldı
  • Glasswing, sistem açısından en kritik siber savunucuların asimetrik üstünlük kazanmasına yardımcı oluyor; ancak mümkün olduğunca çok sayıda kuruluşun savunmasını güçlendirmesine yönelik acil bir ihtiyaç var
  • Anthropic, ABD ve müttefik ülkelerin hükümetleri dahil temel ortaklarla birlikte çalışarak Project Glasswing'i yeni ortaklarla genişletmeyi planlıyor
  • Gerekli, çok daha güçlü korumalar geliştirildikten sonra yakın gelecekte Mythos düzeyindeki modelleri genel kullanıma sunulacak bir biçimde sağlamayı hedefliyor
  • Uzun vadeli amaç, kritik kodların bugünkünden çok daha güçlü korunması ve hack olaylarının çok daha seyrek yaşandığı bir ortam oluşturmak

1 yorum

 
GN⁺ 3 시간 전
Hacker News yorumları
  • Codex Security’yi deneme amaçlı açtık, bir hafta bile geçmeden tüm ekip için zorunlu bir araç haline geldi
    Doğruluğu şaşırtıcı derecede yüksekti, mevcut kodda çok sayıda güvenlik sorunu buldu ve her commit’te yakalamaya devam etti
    Bizim ölçütlerimize göre yaklaşık %90 doğruluk gösteriyor ve “Low” olarak işaretlenen maddeler bile derine inince gerçekten istismar edilebilir çıkan çok örnek oldu
    Bu tür hatalar, junior’dan senior’a herkesin yaptığı bir bug türü olduğu için, bundan sonra yapay zekayla kod yazma, yapay zekayla review yapma ve yapay zekayla zafiyet bulmanın geliştirme yaşam döngüsünün sıradan bir parçası haline geleceğini düşünüyorum

    • Yani yapı şu mu: Claude Code güvenlik bug’ları üretiyor, Claude Security bunları buluyor, Claude Code düzeltme önerileri hazırlarken token harcıyor ve böylece gelir yaratılıyor?
    • https://blog.chuanxilu.net/en/posts/2026/05/dual-pass-review...
      Tasarımdan kodlamaya kadar geliştirmenin her aşamasında sorunları ve bug’ları irdeleyen yinelenen döngüler kullanarak, ortaya çıkan yazılımın gerçekten amaçlandığı gibi çalışıp çalışmadığını doğrulayan bir yöntem denedim
    • Ben de benzer bir deneyim yaşadım
      Arayüz biraz kafa karıştırıcı; “5 tarama” yazıyor ama 1 tarama, deponun varsayılan branch’ini sürekli izlemek anlamına geliyor
      Yüksek etkili bulguların neredeyse hepsi doğruydu ve özellikle dokümantasyon kalitesi ile düzeltme önerilerinin dar kapsamlı ama isabetli olması etkileyiciydi
      Codex normalde gerekenden epey fazla kod üretmeye meyilliydi, ama güvenlik modelinin düzeltmeleri çoğu zaman 10 satırın altında oluyor ve tam doğru noktayı hedefliyordu
      Beta bitince oldukça pahalı olabilir ama şirket açısından bakınca hemen almak isteyeceğim kadar iyi
    • LLM’lerde gördüğüm sorunlardan biri, “güvenlik” bahanesiyle gereksiz kod eklemeleri ve eskiden faydalı olsa da bugün standart kütüphanenin düzgünce hallettiği şeyleri kendinden emin biçimde bolca üretmeleri
      Kodda az olanın daha iyi olduğunu düşünen taraftayım, o yüzden bu eğilim oldukça can sıkıcı
      Bu tuzaktan nasıl kaçıyorsunuz?
    • gpt-5.5-cyber’i orkestratör olarak kullanıp deepseek-v4-flash ya da başka hızlı ve ucuz modelleri worker model olarak kullanmanızı öneririm
      Bu kurulumla oldukça iyi sonuçlar alıyoruz
  • Anthropic’in güncellemesini ve buradaki biraz abartılı bazı tepkileri, curl bakımcısı Daniel Steinberg’in yakın tarihli değerlendirmesiyle nasıl bağdaştıracağımı pek bilmiyorum
    “Bu kurulumun [Mythos], Mythos öncesi başka araçlara kıyasla sorunları belirgin biçimde daha yüksek ya da daha ileri bir seviyede bulduğunu gösteren bir kanıt görmüyorum. Bu model biraz daha iyi olabilir ama öyle olsa bile kod analizinde anlamlı bir fark yaratacak kadar iyi görünmüyor.”
    https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...

    • Doğru bir nokta ve geçerli bir veri noktası
      Ama Birleşik Krallık hükümeti raporu da bir veri noktası, Firefox raporu da bir veri noktası ve bunlar mevcut nesil modellere göre gerçekten belirgin biçimde daha iyi olduğuna işaret ediyor
      Belki de curl çoğu projeye göre çok daha sertleştirilmiş bir koda sahiptir
      Zaten çok da önemli değil çünkü Anthropic’in de kabul ettiği gibi sıradaki seviye modeller geliyor ve Mythos bunlardan sadece biri
      Mevcut nesil modeller bile karmaşık sistemlerde veri akışını izleme konusunda şimdiden iyi ve bu yeteneğin sınırına gelindiğini düşünmek için bir neden yok
      Bir yıl içinde zafiyetleri ucuza bulabilen birden fazla ticari modelin ortaya çıkması oldukça olası görünüyor
      Buna karşılık bu tür sorunların çözüm tasarımı tarafında çok daha az ilerleme var gibi duruyor
    • Bence bazıları Daniel’in ana fikrini yanlış okuyor ama tüm yazının bağlamında daha net hale geliyor
      Genel olarak araçlar güvenlik bug’larını bulmada çok daha iyi hale geliyor ve Daniel’in kullanım deneyimi tek başına Mythos’un devasa bir sıçrama olup olmadığını netleştirmese de, Mythos nesli LLM’lerin kesinlikle öyle olduğunu düşünüyor gibiyim
      Yalnız Daniel Mythos’u biraz dolaylı kullandı
      Mythos tartışmasından çıkardığım sonuç şu: a) Anthropic’in GPU kıtlığı nedeniyle Mythos erişimini kısıtlamak zorunda kalmış olması muhtemel, bu da genel kullanıma açma hesaplarını etkilemiş olabilir, b) Mythos ya da benzer modellerle bug bulmak hâlâ pahalı
      curl üzerinde 20 bin dolarlık ya da 100 bin dolarlık bir Mythos çalıştırması yapılsaydı, Firefox gibi başka projelerde görülen seviyede sorunlar çıkmış olabilirdi ama Daniel’e böyle bir erişim verilmedi
      Bugün LinkedIn’de paylaştığı genel güncelleme daha geniş bağlamı gösteriyor
      https://www.linkedin.com/feed/update/urn:li:activity:7463481...
      “Bu curl yayın döngüsünün yarısına bile gelmedik ama şimdiden doğrulanmış 11 zafiyet var, değerlendirme bekleyen 3 tane daha kaldı ve yeni bildirimler günde 1’den fazla hızla gelmeye devam ediyor.”
      “Tek bir yayında 11 CVE duyurmak, 2016’daki Cure 53 ilk güvenlik denetiminden beri bir rekor.”
      “Hatırladığım kadarıyla curl tarihindeki en yoğun dönem.”
    • curl daha fazla göz tarafından incelenmiş, daha fazla araçla taranmış, yazılımların %99’undan daha iyi test edilmiş ve muhtemelen daha iyi geliştirilmiş durumda
      Hiç tipik bir örnek değil, dolayısıyla böyle etkenler rol oynamış olabilir
      Tabii gerçekten bir yanlılık olup olmadığından emin olamayız, Daniel de doğrudan haklı olabilir
    • Farklı insanların farklı deneyimler yaşaması bir çelişki değil
      curl kaynak kodu zaten baştan beri oldukça temiz olabilir
    • Daniel, aylarca hatta belki yıllarca güvenlik araştırmacılarından ve çeşitli otomatik araçlardan ne kadar fazla doğrulama baskısı aldığını yazıp duruyor
      curl’ün Mythos için ortalama bir örnek olmasını beklemem
  • Mythos hakkında “sadece mevcut açık modellerin güvenlik kilitleri sökülmüş hali” gibi alaycı yorumlar çoktu ama bu rakamlar başka bir şey söylüyor
    “Yüksek veya kritik dereceli 1.752 zafiyet, 6 bağımsız güvenlik araştırma şirketi ya da bazı durumlarda kendi değerlendirmemiz tarafından dikkatle incelendi. Bunların %90,6’sı (1.587) geçerli gerçek pozitif olarak doğrulandı ve %62,4’ünün (1.094) yüksek veya kritik ciddiyette olduğu teyit edildi.”
    Opus, Codex ya da açık kaynak modellerle zafiyet taraması yapmış olan herkes, gerçek pozitif oranı ile bulunan miktarın bariz bir seviye atlaması olduğunu bilir[0]
    Glasswing’in yaklaşık 50 partnerinin çoğu, daha önce başka modellerle de harness çalıştırmıştı ve genel tepki “vay, bu farklı” oldu
    Şimdi mesele 2. ve 3. aşama erişimin nasıl görüneceği ve önce hangi sistem ailelerinin korunacağı
    Router’lar, firewall’lar, SaaS, ERP, fabrika kontrol cihazları, SCADA, zero trust VPN gateway’leri, telekom ekipmanları ve ağları, tıbbi cihazlar... yapılacak çok şey var
    Bu yüzden Mythos’un bir süre daha kapalı kalacağını düşünüyorum
    Korunması gereken saldırı yüzeyi çok geniş ve sınıflandırılması, düzeltilmesi, dağıtılması gereken çok şey var
    Bu Anthropic için de mantıklı olabilir çünkü kapalı modeli dışarıdan distill etmek mümkün değil
    Ayrıca keşif, sınıflandırma ve düzeltme verilerinden model iyileştirmesine giden bir ivmelenme etkisi var
    Muhtemelen şimdiye kadar toplanmış en güçlü biçimde kürasyon yapılmış saldırı veri külliyatı haline gelmiş durumda ve daha da iyi olacak
    Çinli şirketlerin yakında ya da hiçbir zaman erişim alacağı bir tablo pek gözümde canlanmıyor
    Yakında CISA denetimleri zorunlu kılabilir ve Mythos’a dayanabilen VPN gateway’leri ya da ev router’ları almak için ABD yapımı[1] ürün alma zorunluluğu doğabilir
    [0] Genel denetim araçlarındaki yaklaşık %30 seviyesiyle kıyaslandığında
    [1] ya da müttefik ülkelerde üretilmiş

    • Keşif, sınıflandırma ve düzeltme veri külliyatına ABD şirketleri olsun olmasın tüm rakipler erişebilir
      Bunun kopyalanamayacağını söylemek bana pek inandırıcı gelmiyor
      CVE’ler ve yamalar gibi açıklamalı veri zaten bolca var, Mythos sayesinde daha da artıyor; bu senaryoya göre pekiştirmeli öğrenme yapılırsa Mythos erişimi olmadan da zafiyet tespit performansı artırılabilir diye düşünüyorum
    • Mythos erişimi olan bir ABD güvenlik şirketine işi dışarı vermemek için bir neden görmüyorum
    • Bana GPT-2 dönemini hatırlatıyor
      OpenAI ilk kez “insanlık buna henüz hazır değil” diyerek model erişimini sınırlamıştı ama modelin yaptığı şey daha çok şiir yazmak gibi şeylerdi
      Sonrasında OAI/Anthropic model duyurularında buna benzer ifadelerin kullanılmadığı pek bir örnek hatırlamıyorum
      Sızdırıldığı söylenen model duyurusu da pazarlama, tehlikeli olduğu söylemi de pazarlama, dünyanın hazır olmadığı söylemi de pazarlama
      Erişim alanların “vay be” demesi de ister inan ister inanma, pazarlama
      Aynı sonuçları zaten genel erişime açık ilk 5-10 modelle elde edebilirsiniz
      Mythos, önceki fikirler demokratikleştikten sonra Anthropic’in yeni fikir satma yöntemi
    • Kapalı bir model dışarıdan distill edilemese bile içeride edilebilir
      Sonnet 4.8 için büyük beklentiye girmek mümkün görünüyor
  • Eğer bir kod tabanında hâlâ statik analiz ve linter kullanılmıyorsa, neden pahalı LLM araçlarına yönelindiğini önce sormak gerekir
    Bu, bu araçların statik araçların yakalayamadığı zafiyetleri bulamayacağı anlamına gelmiyor; bence bulabilirler
    Ama biz zaten yaygın zafiyetlerin geniş bir bölümünü otomatik olarak yakalama kabiliyetine sahibiz ve bunu maliyet gibi nedenlerle tercih etmedik
    Hâlihazırda birden çok analiz ve lint katmanını kullanan ekipler bunun üstüne bir de bunu eklemek istiyorsa, buna tamamen katılırım

    • Çünkü sorunların çoğu iş mantığında ve statik analiz araçları bunları yakalayamıyor
    • Statik analiz size baştan sona çalışan bir tek tık istismar üretmez
      FAANG’de çalışıyor olmama rağmen, bizim statik analiz araçlarımız bile gerçekten erişilebilir kaç sorun olduğunu belirlemede harika değil
      İdeal olan ikisini de kullanmak
      Statik analizi harness’in bir parçası olarak kullanan ve her potansiyel bulguyu değerlendiren bir yapay zeka modeli iyi bir yaklaşım
    • Statik analiz çoğu zaman çok fazla yanlış pozitif gösteriyor
      Daha zeki araçlar, sınırlı mühendislik zamanını boşa harcamamaya yardımcı olabilir
    • Çok sayıda geliştirici arasında en dürüst cevabın downvote alıp hatta flag’lenmiş olması oldukça hoşuma gitti
      Şu an bunu yapanların çoğu, statik analiz araçlarını gereksiz ek yük olarak gördükleri için zaten kullanmıyordu
  • Şu anda düzeltilmesini istediğim tek zafiyetler, GitHub’dan çalınan 3.800 depodaki olanlar
    “İnterneti inşa eden yazılımlardaki zafiyetler”den ziyade, “interneti inşa eden yazılımların release üretmek için kullandığı platform” dürüst olmak gerekirse daha yüksek öncelik taşıyor
    O iç depoları satın alan kişiler GitHub’a sızıp yazılım release’lerini kesmenin ya da uzaktan GitHub Actions’ı kirletmenin bir yolunu bulursa herkes çok ciddi bir durumun içine girer
    O 3.800 depo arasında büyük ihtimalle npmjs.org’un kendisi de var, bunu unutmayalım

  • Tüketiciye açık frontier modellerle hukuk teknolojisi alanında bizim “lexploits” dediğimiz şeyler geliştiriyoruz ve bunlar entegre pipeline genelindeki bug’ları bulma konusunda inanılmaz derecede iyi
    Önlem üretme konusunda da şaşırtıcı biçimde iyiler
    Güvenlik zafiyetleri önemli ama hukuk alanında ayrıca ajanların hukuki bağlama sadakatini koruyan bilgi güvenliği diye bir kavram da ortaya koyuyoruz
    Yazılım bug’ları yazılım mühendisleri tarafından yönetildiği için çok daha yönetilebilir görünüyor; bizim bulduğumuz pipeline “zafiyetleri” ise öyle değil
    Hukuk belgelerinin göründüğünden farklı olduğu bir yol hakkında burada biraz yazdım: https://tritium.legal/blog/noroboto
    Şu anda açıkta olan bilgi alanları muhtemelen bunun gibi çok sayıda ve çoğu personel eksikliği çekiyor, ayrıca teknik olmayan kişilerce yönetildiği için daha da kaygı verici
    Mythos’a bile gerek yok

  • “Sıradaki adım olarak ABD ve müttefik ülke hükümetleri dahil olmak üzere temel ortaklarla çalışıp Project Glasswing’i ek ortaklara genişleteceğiz” ifadesi, genel erişimden önce büyük para kazanacağız anlamına geliyor gibi
    İyi strateji

  • Buna inanmak zor
    Bu aracın bulduklarının önemli bir kısmı düpedüz yanlış ve kodun üst/alt katmanları yüzünden gerçek zafiyet olarak istismar edilme olasılığı ortadan kalkmış olsa bile doğruymuş gibi raporlanabiliyor
    Bu aynı zamanda performans ile güvenlik arasındaki bir tradeoff meselesi ve hep de öyleydi
    Ek kontroller ve başka önlemler gerçekten güvenlik amacıyla uygulanmalı
    Pazarlama her zaman iyidir ama birçok kişinin bu pembe bakışı bana biraz vekâleten tatmin gibi geliyor

    • Yazıda, tüm zafiyetlerin gerçekten uçtan uca istismar edilebilir olduğu ve 1.000’den fazlasının bağımsız olarak kritik düzeyde olduğu doğrulandığı anlatılıyor
      Yani erişilemeyen zafiyetlerden söz edilmiyor
    • Tam olarak ne bulunduğunu https://red.anthropic.com/2026/cvd/ adresinde görebilirsiniz
    • Özellikle de bu, yıllardır OAI/Anthropic’in alışıldık yöntemi olduğunda daha da öyle
  • “Bu tür bug’ları düzeltmedeki darboğaz, onları sınıflandıracak, raporlayacak ve patch tasarlayıp dağıtacak kişilerin kapasitesidir. Mythos Preview sayesinde ilk keşif aşaması çok daha basit hale geldi.”
    Darboğaz zaten hep buydu
    Otomasyon araçları zafiyet işaretlemeyi sever ama neredeyse hepsi yanlış pozitif çıkar ve insanın sınıflandırıp değerlendirmesi gerekir
    Yine de sorun değil
    Tamamen gözden kaçırmaktansa dikkatli bir incelemeden sonra yanlış pozitifleri kapatmak daha iyidir
    İnsana darboğaz demek pek uygun değil
    İnsan sürecin zorunlu unsurudur ve Mythos da bu sürecin katalizörü olacaktır

    • 10 yıl önce zafiyetlerin çoğunu ortadan kaldırmada insanın düzeltme emeğinin darboğaz olduğu açıkça doğru değildi
      Zafiyeti kanıtlamak, çözmekten çok daha zordu
  • Bugün oldukça eğlenceli bir gündü
    AF_ALG kapalı, nscd açık sistemlerde Dirty Frag ile root yetkisi almak için patch’ler üretmesini deepseek-v4-flash alt ajanlarına istedim
    Başta yayımlanan exploit çalışmıyordu ama patch’lenmiş hali gayet iyi çalıştı
    Yeterli zekâ seviyesindeki 100 alt ajanla Mythos’la aynı sonuçların alınabileceğine hâlâ inanıyorum
    Bir gün Mythos’u doğrudan kullanıp bu fikrimin çürütülmesine de hazırım; burada başkalarının da Mythos’u kullanmış olduğunu varsayıyorum

    • Mümkün olabilir ama 100 alt ajan dediğiniz yapı saatte 100 dolarlık bir kurulum ve söylenen, Mythos’un tek bir zafiyet bulmak için 20 bin dolar harcadığı
      Dolayısıyla soru “daha aptal modeller de bunu yapabilir mi” değil; eğer Mythos muhakemesiyle tek bir exploit bulmanın maliyeti 5.000 GPU saati ise, daha aptal modellerle bunun kaç GPU saati tutacağıdır