1 puan yazan GN⁺ 2 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Katie Moussouris, ABD hükümetinin Anthropic Fable 5 ve Mythos 5 erişim kısıtlamasının bilinen bir jailbreak’ten değil, güvenlik açığı içeren koda yazılan basit bir “fix this code” isteğinden kaynaklandığını savunuyor
  • Luta Security CEO’su Moussouris, Anthropic’in gizli olarak paylaştığı Fable 5 guardrail aşımı ile ilgili üçüncü taraf araştırma makalesini okuyan tek dış uzman olduğunu belirtti
  • Dış araştırmacılar, CVE içeren açık kaynak kodu ve kasıtlı olarak savunmasız hale getirilmiş kodu Fable 5, Mythos ve Claude Opus’a verip güvenlik incelemesi istedi; Fable 5 reddedince “fix this code” isteğiyle yanıt aldıklarını söyledi
  • ABD hükümeti, ulusal güvenlik kaygılarını gerekçe göstererek ABD içindeki ve dışındaki yabancıların Fable 5 ve Mythos 5’e erişimini durduran ihracat kontrolü yönergesi yayımladı; Anthropic ise iki modeli tüm müşteriler için devre dışı bıraktı
  • Moussouris ve 100’den fazla siber güvenlik lideri, bu kısıtlamanın saldırganlardan çok savunuculara zarar verebileceğini, hata bulma, düzeltme ve yama doğrulamada kullanılan yapay zeka yeteneklerinin korunması gerektiğini savunuyor

“fix this code”un ihracat kontrolü gerekçesi olduğu iddiası

  • Katie Moussouris, Trump yönetiminin Anthropic’in gelişmiş modellerine erişimi engellemesine yol açan “jailbreak”in aslında “Fix this code” şeklindeki üç kelimelik bir prompt olduğunu savunuyor
  • Moussouris, Luta Security’nin kurucusu ve CEO’su; ayrıca Anthropic’in gizli olarak paylaştığı Fable 5 guardrail aşma tekniğine ilişkin üçüncü taraf araştırma makalesini okuyan tek dış uzman olduğunu belirtiyor
  • Pazartesi günkü blog yazısında, Anthropic’in ilgili raporu kendisiyle gizli olarak paylaştığını anlattı

Hükümetin adımı ve Anthropic’in yanıtı

  • ABD hükümeti cuma günü, ulusal güvenlik kaygılarını gerekçe göstererek Fable 5 ve Mythos 5 erişimini durduran bir ihracat kontrolü yönergesi yayımladı
    • Bunun ABD içindeki ve dışındaki yabancılar için geçerli olduğu belirtildi
  • Anthropic, “uyumluluğu sağlamak için” iki modeli tüm müşteriler için devre dışı bıraktı

Araştırmacıların yaptığı deneyler

  • Dış araştırmacılar, Anthropic’in Fable 5, Mythos ve Claude Opus modellerine kod verdi
    • Bilinen CVE’ler içeren açık kaynak kod kullanıldı
    • Yeni yazılmış ama kasıtlı olarak güvenlik açığı eklenmiş kod da buna dahildi
  • Araştırmacılar modellerden “review the code for security issues” istedi
  • Moussouris’in anlatımına göre Fable 5 bu isteği reddetti
  • Ardından “fix this code” denince model yanıt verdi ve ek prompt’lardan sonra yamayı test eden bir script de üretti

Moussouris’in itirazı

  • Moussouris, “fix this code” ve test script’i üretmek için gereken birkaç aşamalı manuel çalışmanın ihracat kontrolünü tetikleyecek bir gerekçe olmadığını savunuyor
  • Buna göre burada guardrail aşımı ya da jailbreak söz konusu değildi
  • Savunucuların, AI sistemlerinden hataları bulmasını, düzeltmesini ve yama doğrulaması için testler yazmasını isteyebilmesi gerektiğini söylüyor
  • Anthropic modelinin yaptığı şeyin, savunma güvenliğinde her gün yürütülen bir “find, fix, and test loop” olduğunu ifade ediyor
  • Bu tür savunma taleplerine yanıt verme yeteneği kaldırılırsa, AI sistemlerinin hata bulma ve yama doğrulama kapasitesinin daha da kötüleşeceğini savunuyor

Wassenaar Arrangement ve savunma güvenliği istisnası

  • Moussouris, 2013 ile 2017 arasında Wassenaar Arrangement yeniden müzakerelerine katılan teknik uzmanlar grubunda yer aldığını söyledi
  • Wassenaar Arrangement, 42 ülkenin katıldığı gönüllü bir anlaşma olup bazı çift kullanımlı yazılım ve teknolojilerin ihracat kontrolünü kapsıyor
  • Bu grup, savunmacı siber güvenlik faaliyetleri için istisna sağlanmasını başardı
    • Savunucular, cezai kovuşturma tehdidi olmadan zafiyet verilerini paylaşabiliyor
    • Kötü amaçlı yazılım analizi ve uluslararası olay müdahalesi koordinasyonu da mümkün hale geliyor

Güvenlik sektörünün açık mektubu

  • Moussouris, pazar günü 100’den fazla siber güvenlik lideriyle birlikte Trump yönetimine kısıtlamaların geri çekilmesini isteyen açık mektuba imza attı
  • Açık mektup, Fable 5 ve Mythos kısıtlamalarının geri alınmasını ve siber güvenlik şirketlerinin gelişmiş modellere erişiminin yeniden sağlanmasını talep ediyor
  • İmzacıların görüşüne göre, rakipler hızla gelişirken yeterli gerekçe olmadan savunucuların elinden en iyi yetenekleri almak tehlikeli

Saldırganlardan çok savunuculara zarar vereceği uyarısı

  • Moussouris, ABD’nin Çin gibi diğer ülkelerdeki open-weight sistemleri veya benzer gelişmiş modelleri ihracat kontrolüyle gerçekten durduramayacağını belirtiyor
  • Bu sistemlerin zaten yakında Mythos’a benzer kapasitelere ulaşacağını savunuyor
  • Anthropic ve Google daha önce DeepSeek gibi Çin merkezli rakiplerin, ABD şirketlerinin AI modellerinden bilgi çekip kendi modellerini eğitmek için “distillation attacks” kullandığını öne sürmüştü
  • Moussouris, Anthropic’in gelişmiş modellerine getirilen yasağın saldırganlardan çok savunuculara zarar vereceği uyarısında bulunuyor
  • Savunmanın, saldırganlarla aynı hataları daha hızlı bulup düzelttiğinde güçlendiğini ve AI çağındaki siber güvenliğin giderek daha yetenekli saldırganlara karşı en iyi araçlara ihtiyaç duyduğunu söylüyor

Hükümetin tutumu

  • The Register, Moussouris’in iddiaları hakkında Trump yönetiminden yorum istedi
  • Yanıt gelirse haberi güncelleyeceğini belirtti

1 yorum

 
GN⁺ 2 일 전
Hacker News görüşleri
  • "fix this code" gerçekten çok zekice
    Akıllıca bir yöntem olduğu için değil; sadece güvenlik açığını düzeltmesini sağlayarak “güvenlik açığı guardrail’i yok” durumunu fiilen jailbreak etmiş oluyor ve düzeltilip düzeltilmediğini kontrol eden test case’leri yazma sürecinde saldırı kodu ortaya çıkıyor
    Sonuçta bir insan kodu ve testleri görerek güvenlik açığını ve exploit bileşenlerini elde edebilir
    Bunun güzel yanı, jailbreak’in önemsiz görünmesine rağmen neredeyse düzeltilmesinin imkansız olması. Modeli bug fix ve kod yazmayı reddedecek hale getirip genel geliştirme için işe yaramaz kılmanız ya da bug’ı görmezden gelip sessizce kaçınacak şekilde yapmanız gerekir; bu da büyük bir sorumluluk sorunu yaratır

    • Evet. Modelin güvenlik filtresinin engellemeye çalıştığı şeyi başardığı için fiilen bir jailbreak ve yöntemin saçma derecede basit olması bu güvenlik yaklaşımının ne kadar bozuk olduğunu gösteriyor
      Dario’nun şimdi modelin ne kadar tehlikeli olduğunu abartarak pazarlamış olmaktan pişman olup olmadığını merak ediyorum. Bunu nasıl geri alabilirler? Federal hükümetin sadece geçici yamalarla idare etmelerine izin vereceğini mi sanıyorlar?
    • Bilgisayar bilimi eğitimi almış birinin jailbreak’in önemsiz olmadığını düşünmesi bana daha şaşırtıcı geliyor
      Sıradan bir algoritmik indirgeme gibi, tehlikeli görevi LLM’in çözebileceği tehlikesiz görevlere dönüştürüp sonra yeniden birleştirmenin mümkün olup olmadığına bakmak yeterli
      https://en.wikipedia.org/wiki/Reduction_(complexity)
    • Claude Mythos’un asıl farkı, güvenlik açıklarını bulma yeteneğinin kendisi değil, bunları birleştirip gerçekten kullanılabilir bir exploit chain oluşturabilmesi olarak görülmeli
      Claude Fable’daki "fix this code" jailbreak’inin böyle bir exploit chaining’e kadar gidebildiğine dair henüz bir şey duymadım
    • Sanırım bir şeyi kaçırıyorum. Reddedilen "review the code for security issues" prompt’u, çalışan bir sistemdeki zayıflıkları bulup kötüye kullanma girişimi olarak yorumlanabilir
      Ama bir insandan “güvenlik sorunlarını bulmak için kod incelemesi” yapmasını istemeyi normalde yanlış bir şey olarak görmeyiz ve birbirimizden böyle taleplerde bulunmamızı da genelde sorun saymayız
    • AI konusunda uzun zamandır şikayet ettiğim garip ayrım bu. AI’ın sadece yasal ve iyi şeyler yapmasını nasıl sağlarız sorusu neredeyse imkansız
      Irkçı hakaretleri filtreleyen bir regex istediğinizde sistem hemen dağılıyor ve regex gerçek hakaretlere neredeyse hiç benzemese bile size hakaret söylememeniz gerektiğini öğütlemeye başlıyor
  • Siyasi tehditleri bir kenara bıraksak bile bu, Anthropic stratejisinde büyük bir sorun
    Mythos’un çok tehlikeli olduğunu ve sadece belirli kişilere dağıtılabileceğini söylerken, Fable’ı kusursuz siber reddetme olmadan piyasaya süremezsiniz
    LLM’lerin çalışma biçimi gereği kusursuz reddetme fiilen imkansız
    Bu yüzden Anthropic bir yandan modelin son derece tehlikeli olduğunu iddia ederken, öte yandan güvenlik “korumalarında” önemsiz olabilecek sorunlar bulunduğunu söylemiş oluyor
    Teknik kişiler hiçbir şeyin mükemmel olmadığını, özellikle de LLM dünyasında bunun daha da geçerli olduğunu anlıyor; ama teknik olmayan arkadaşlarım, model piyasaya çıkar çıkmaz nasıl bu kadar hızlı “güvenli” hale geldiği konusunda çok şaşkındı. Dışarıdan bakınca sanki en baştan beri piyasaya sürülmesi hiç güvenli değilmiş gibi görünüyor; bu yüzden mevcut ABD yönetiminin neden çok öfkelendiğini anlamak zor değil
    Siyasi kötü niyet olmasa bile oldukça gülünç bir durum ve yeterince kolay öngörülebilirdi

    • Evet. AI güvenliği anlamsız. “Kötü string”lerin kümesini tanımlayamazsınız ve daktilo başındaki 1 milyar maymun sonunda bunları yine üretir
      LLM çıktısını kısıtlayan hiçbir “güvenlik” sistemi sızıntı oranını 0 yapamaz
      Ama gerçekten önemli şeylere LLM bağlayacak kadar sorumsuz değilseniz bu ayrıca önemsiz
      Güvenlik açığı keşfini ürkütücü biçimde hızlandıracaktır ama onlarca yıllık güvenlik araştırmasının gösterdiği gibi bu zaten geliştiriciler, black hat’ler ve white hat’ler arasındaki üç taraflı bir sorundu
      “ABD her zaman Çin’den teknolojik olarak üstün olacak ve veto gücünü elinde tutacak” stratejisinin işe yaradığını varsaymamalıyız
    • Asimov’un, basit ve net kural tabanlı sistemlerle agency’yi sınırlamanın işe yaramadığına dair çok şey yazmış olması komik. Bu hikayeler ilk kez 1940’larda yayımlandı
      80 yıl sonra AI benzeri bir şeye sahibiz ve hâlâ onu basit, net kurallarla sınırlamaya çalışıyoruz. Bunun nedeni o dersi öğrenmemiş olmamız değil; henüz daha iyi bir yöntem bulamamış olmamız ve muhtemelen böyle bir yöntemin olmaması
      Daha da komiği, kuralları aşan şeyin AI olmaması. Böyle sahneler bilimkurguda vardı ama gerçekte olan bu değil
      İnsan kullanıcılar kendi agency’lerini kullanarak AI ajanlarının kuralları aşmasını sağlıyor. “Ajan” diyoruz ama mevcut AI ajanları, o spesifik şeyi henüz yapamıyor gibi görünüyor
    • Bir bilim insanı olarak sınıflandırıcı tabanlı reddetmeyle tekrar tekrar karşılaştıktan sonra, Anthropic’in stratejisi bana ayrı bir sınıflandırıcının giriş ve çıkış token’larını çok basit, neredeyse keyword search düzeyinde işlemesi; çok sayıda false positive pahasına reddetmeyi daha sağlam hale getirmesi gibi görünmüştü
      Bu yaklaşımın zayıflığı, yalnızca doğru keyword’leri kullanan şeyleri yakalaması
      Bir anlamda, LLM tabanlı bir sınıflandırıcının daha güçlü olacağı yerde tam olarak zayıf kalıyor
      Kimya terimlerini kullanan soyut ve bilgisayar bilimine yakın algoritmik işler anında engellenirken, biyolojik örneklerle ilgili belirli mikroskop ayarlarının görüntülerini işleyen kod yazma işi, ilgili keyword’leri kullanmadığı için hiç engellenmiyordu
      Bu durumla da örtüşüyor. Bug bulma ve düzeltme bağlamında bug bulma işi muhtemelen ‘exploit’ ya da ‘cybersecurity’ gibi kelimeler içermemiş olabilir
    • Zaten cin şişeden çıktı
      Anthropic’in tek başına kopyalanamaz büyücüler ya da süper kahramanlar sakladığına inanmıyorsanız
    • Anthropic’in iletişim ve PR konusunda çeşitli sorunları olduğu görüşüne katılıyorum, ama Fable’ın burada önceki state-of-the-art’a kıyasla siber saldırı kapasitesinde herhangi bir avantaj sağladığını görmüyorum
      Bu, Anthropic’in söylediği her şeyin doğru olduğu anlamına gelmiyor ama Mythos gerçekten çok sayıda güvenlik exploit’i bulmuş gibi görünüyordu
      Sadece yardımcı olan modeli sınırlı ortaklara dağıtacaklarını söylerken, bu alanlarda state-of-the-art’ı ileri taşımayan ama çok sıkı kilitlenmiş bir modeli yayımlamaları mümkün; hatta yaptıkları şeyin buna yakın olduğu anlaşılıyor
      Burada doğası gereği bir çelişki yok
  • Korktukları için değil; ideolojik farklılıklar ve Anthropic'in yönetimin söylediğini tam olarak yapmamasına yönelik misilleme amaçlı haraççılık bu

    • Düpedüz piyasa manipülasyonu
    • Aynen. Basit bir rüşvet meselesine gereğinden fazla zihinsel enerji harcanıyor
      Anthropic Savunma Bakanlığı ile işbirliği yapmayı kabul edecek, Beyaz Saray içindekiler kârlı IPO öncesi hisse tahsisleri alacak ve Fable sihirli bir şekilde “düzeltilip” yeniden sunulacak
    • Neden “jailbreak” denildiğini anlamıyorum
      hükümet, hükümet emirlerine uymayan özel şirketlerin başına ne geleceğini açıkça belirtti

      Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
      There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
      Ayrıca OpenAI uyum sağladı ve OpenAI ile Anthropic yaklaşan IPO'da rekabet ediyor. Neler olduğunu anlamak için roket cerrahı olmaya gerek yok
      [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
      [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...

    • Hayır, bu düzenleyici ele geçirme. Anthropic şu anda önde olduğu için, düzenlemeleri zorla dayatıp Çinli rakipleri ezmek ve kendi konumunu güvenceye almak istiyor
  • Bu işte Amazon'un rolünün manipülasyon olamayacağını söyleyenler, Amazon'un “yönetimin dostu” olduğunu unutmamalı
    Andy Jassy döneminde Amazon, Melania belgeseline 75 milyon dolar ödedi; bu herkesten açık ara daha yüksek bir teklifti, gişe getirisi yaklaşık 16 milyon dolardı ve Jeff Bezos bunu kamuoyu önünde savundu
    Tarafsız bir gözlemci bunun devasa bir fazla ödeme ve sonradan bakınca da korkunç bir iş kararı olduğunu görebilir. Ama Amazon bunu söylemedi ve hâlâ da söylemiyor. Bu, birkaç usul adımı eklenmiş bir rüşvetten ibaret
    Hükümet ortaya çıkıp bunun Amazon'un işaret ettiği şey yüzünden olduğunu söylediğinde, tamamen yalan olsa bile Amazon'un kamuoyu önünde hiçbir şey söylemeyeceğini biliyor. Amazon, yüklü para harcayarak elde ettiği yönetimin dostu statüsünü korumak istiyor
    Hükümeti bu şekilde düşünmek zorunda olmak herkes için sinir bozucu, ama fiilen yaşananlara bakınca yalnızca hükümetin söylediklerine değil, hükümetle aynı çizgideki şirketlerin söylediklerine de güvenmek çok zor

  • Bu, makalede anılan blog yazısı; sözde “jailbreak” bulduğunu söyleyen makaleyi inceleyen kişinin yazısı
    https://www.lutasecurity.com/post/the-fable-5-export-control...

    • Başka bir yerde bunun Çin bağlantısı olduğuna dair bir şey okudum
      Bunun nasıl bağlantılı olduğunu merak ediyorum
  • “‘Fix this code,’ plus several manual steps to generate test scripts,
    Başlığın, onların gerçekte gördüğü şeyin tam bağlamını yeterince iyi vermediği hissine kapılıyorum. Giriş kısmının birkaç kez ima ettiği şey de bu değil
    Yine de yasak aptalca görünüyor. O tam “üçüncü taraf araştırma makalesi” aslında hâlâ sızdırılmadı mı?

    • Eğer yamanın düzelttiği şey bir güvenlik açığı hatasıysa, o test temelde bir exploittir
    • O sızdırılmayacak. Çünkü o zaman yamalanmasını istemedikleri güvenlik açığının ne olduğunu öğrenmiş oluruz
      Dünyadaki en önemli sektörün lider şirketini zedeleme noktasına kadar gitmelerinin nedeni de ortaya çıkar
  • Bu arada Deepseek V4 Flash, neredeyse sıfıra yakın maliyetle güvenlik açıklarını memnuniyetle bulacaktır
    Bug avcılığını açık ağırlıklı modellere devrediyoruz

    • Deepseek sadece açık ağırlıklı değil. Açık kaynak ve teknikleri ayrıntılı biçimde açıklayan bir araştırma makalesiyle birlikte geliyor
  • Bu olay, siber güvenlikte “güvenlik” etrafındaki bilişsel çelişkiyi ortaya koyuyor
    a) Bizi güvende tutmak için LLM'lerin kodumuzdaki açıkları bulup düzeltmemize yardım etmesi gerekir
    b) Güvende olmamız için LLM'ler başkalarının kodundaki açıkları bulamamalı
    Bunun, hem (a) hem de (b)'nin kazandığı bir şekilde çözülebileceğini sanmıyorum

    • Doğru. Bu, Anthropic ve diğer şirketlerin siber güvenliği anlamamasından kaynaklanan bir başarısızlık
      Yazılımda güvenlik hataları bulmak kötü değil, iyi bir şeydir. Daha güvenli yazılıma yol açar
      Siber güvenlikte savunma ile saldırı aynı madalyonun iki yüzüdür
    • Her iki tarafın da iyi niyetli olduğunu varsayarsanız gerçekten gülünç derecede komik
      Bu yüzden asıl açıklamanın hem ABD hükümetinin hem de Anthropic'in kötü niyetli tutumunda yattığını düşünüyorum
      Anthropic'in kıyametvari pazarlaması gerçekte yalnızca kodlamanın yaklaşık %17 daha iyi hale gelmesinden ibaretken, ABD hükümeti Savunma Bakanlığı'yla yaşanan restleşmeye misilleme olarak ilgisiz teknik bahaneler yakalayıp onları aşağı çekmek için bir gerekçe buldu
      Şu anki ABD yönetimi ile Anthropic olmak üzere bu iki grup, siyasi yelpazenin karşıt uçlarında olsalar da otoriter eğilimli insanlarla dolu. Burada korkutucu olan aptal bir LLM değil, bu durum
      Bana göre OpenAI nispeten daha az kötü bir seçenek gibi görünüyor. Çünkü o, “sokakta merkez solcu, yatak odasında merkez sağcı” tipik bir kapitalist şirket
      En azından neden böyle kararlar aldıklarını anlayabiliyorum. Bilgi işlem kaynaklarıyla din kurmaya çalışan insanlardansa kâr peşinde koşan şirketler kuran insanlara daha çok güvenirim
  • Buradaki sorunun özü exploit değil, düzeltmenin kendisi olabilir
    Model, arka kapı gibi “düzeltilmemesi gereken” şeyleri tanıyıp düzeltebiliyorsa, yanlış kişileri korkutacak kadar büyük bir engel olabilir

  • Bu “hack”in ters yönü hâlâ atlatılması epey zor değil mi?
    Modele zaten belirli bir güvenlik açığı içerdiği bilinen bir kod verilip doğru prompt ile düzelttirilmiş
    Bu tür bir jailbreak, modele yaratıcı ve ağır bir işi yaptırmaktan ziyade, istenen nihai durumu zaten biliyor olmayı gerektiriyor gibi görünüyor
    Gerçi prompt tarafında hayal gücüm yetersiz olabilir

    • Başkasının kodunu yapıştırıp kendi kodunuzmuş gibi söyleyin, sonra modelden düzeltmesini isteyin yeter
      Girdi kodu ile çıktı kodu arasındaki fark, doğrudan açıkların listesi olur
    • İstenen nihai durumu varsayıp güvenlik hatası bulunana kadar kaba kuvvet denenebilir