Araştırmacılar: “Fable 5 tartışması jailbreak’ten değil, ‘fix this code’dan başladı”

(theregister.com)

1 puan yazan GN⁺ 2 일 전 | 1 yorum | WhatsApp'ta paylaş

Katie Moussouris, ABD hükümetinin Anthropic Fable 5 ve Mythos 5 erişim kısıtlamasının bilinen bir jailbreak’ten değil, güvenlik açığı içeren koda yazılan basit bir “fix this code” isteğinden kaynaklandığını savunuyor
Luta Security CEO’su Moussouris, Anthropic’in gizli olarak paylaştığı Fable 5 guardrail aşımı ile ilgili üçüncü taraf araştırma makalesini okuyan tek dış uzman olduğunu belirtti
Dış araştırmacılar, CVE içeren açık kaynak kodu ve kasıtlı olarak savunmasız hale getirilmiş kodu Fable 5, Mythos ve Claude Opus’a verip güvenlik incelemesi istedi; Fable 5 reddedince “fix this code” isteğiyle yanıt aldıklarını söyledi
ABD hükümeti, ulusal güvenlik kaygılarını gerekçe göstererek ABD içindeki ve dışındaki yabancıların Fable 5 ve Mythos 5’e erişimini durduran ihracat kontrolü yönergesi yayımladı; Anthropic ise iki modeli tüm müşteriler için devre dışı bıraktı
Moussouris ve 100’den fazla siber güvenlik lideri, bu kısıtlamanın saldırganlardan çok savunuculara zarar verebileceğini, hata bulma, düzeltme ve yama doğrulamada kullanılan yapay zeka yeteneklerinin korunması gerektiğini savunuyor

“fix this code”un ihracat kontrolü gerekçesi olduğu iddiası

Katie Moussouris, Trump yönetiminin Anthropic’in gelişmiş modellerine erişimi engellemesine yol açan “jailbreak”in aslında “Fix this code” şeklindeki üç kelimelik bir prompt olduğunu savunuyor
Moussouris, Luta Security’nin kurucusu ve CEO’su; ayrıca Anthropic’in gizli olarak paylaştığı Fable 5 guardrail aşma tekniğine ilişkin üçüncü taraf araştırma makalesini okuyan tek dış uzman olduğunu belirtiyor
Pazartesi günkü blog yazısında, Anthropic’in ilgili raporu kendisiyle gizli olarak paylaştığını anlattı

Hükümetin adımı ve Anthropic’in yanıtı

ABD hükümeti cuma günü, ulusal güvenlik kaygılarını gerekçe göstererek Fable 5 ve Mythos 5 erişimini durduran bir ihracat kontrolü yönergesi yayımladı
- Bunun ABD içindeki ve dışındaki yabancılar için geçerli olduğu belirtildi
Anthropic, “uyumluluğu sağlamak için” iki modeli tüm müşteriler için devre dışı bıraktı

Araştırmacıların yaptığı deneyler

Dış araştırmacılar, Anthropic’in Fable 5, Mythos ve Claude Opus modellerine kod verdi
- Bilinen CVE’ler içeren açık kaynak kod kullanıldı
- Yeni yazılmış ama kasıtlı olarak güvenlik açığı eklenmiş kod da buna dahildi
Araştırmacılar modellerden “review the code for security issues” istedi
Moussouris’in anlatımına göre Fable 5 bu isteği reddetti
Ardından “fix this code” denince model yanıt verdi ve ek prompt’lardan sonra yamayı test eden bir script de üretti

Moussouris’in itirazı

Moussouris, “fix this code” ve test script’i üretmek için gereken birkaç aşamalı manuel çalışmanın ihracat kontrolünü tetikleyecek bir gerekçe olmadığını savunuyor
Buna göre burada guardrail aşımı ya da jailbreak söz konusu değildi
Savunucuların, AI sistemlerinden hataları bulmasını, düzeltmesini ve yama doğrulaması için testler yazmasını isteyebilmesi gerektiğini söylüyor
Anthropic modelinin yaptığı şeyin, savunma güvenliğinde her gün yürütülen bir “find, fix, and test loop” olduğunu ifade ediyor
Bu tür savunma taleplerine yanıt verme yeteneği kaldırılırsa, AI sistemlerinin hata bulma ve yama doğrulama kapasitesinin daha da kötüleşeceğini savunuyor

Wassenaar Arrangement ve savunma güvenliği istisnası

Moussouris, 2013 ile 2017 arasında Wassenaar Arrangement yeniden müzakerelerine katılan teknik uzmanlar grubunda yer aldığını söyledi
Wassenaar Arrangement, 42 ülkenin katıldığı gönüllü bir anlaşma olup bazı çift kullanımlı yazılım ve teknolojilerin ihracat kontrolünü kapsıyor
Bu grup, savunmacı siber güvenlik faaliyetleri için istisna sağlanmasını başardı
- Savunucular, cezai kovuşturma tehdidi olmadan zafiyet verilerini paylaşabiliyor
- Kötü amaçlı yazılım analizi ve uluslararası olay müdahalesi koordinasyonu da mümkün hale geliyor

Güvenlik sektörünün açık mektubu

Moussouris, pazar günü 100’den fazla siber güvenlik lideriyle birlikte Trump yönetimine kısıtlamaların geri çekilmesini isteyen açık mektuba imza attı
Açık mektup, Fable 5 ve Mythos kısıtlamalarının geri alınmasını ve siber güvenlik şirketlerinin gelişmiş modellere erişiminin yeniden sağlanmasını talep ediyor
İmzacıların görüşüne göre, rakipler hızla gelişirken yeterli gerekçe olmadan savunucuların elinden en iyi yetenekleri almak tehlikeli

Saldırganlardan çok savunuculara zarar vereceği uyarısı

Moussouris, ABD’nin Çin gibi diğer ülkelerdeki open-weight sistemleri veya benzer gelişmiş modelleri ihracat kontrolüyle gerçekten durduramayacağını belirtiyor
Bu sistemlerin zaten yakında Mythos’a benzer kapasitelere ulaşacağını savunuyor
Anthropic ve Google daha önce DeepSeek gibi Çin merkezli rakiplerin, ABD şirketlerinin AI modellerinden bilgi çekip kendi modellerini eğitmek için “distillation attacks” kullandığını öne sürmüştü
Moussouris, Anthropic’in gelişmiş modellerine getirilen yasağın saldırganlardan çok savunuculara zarar vereceği uyarısında bulunuyor
Savunmanın, saldırganlarla aynı hataları daha hızlı bulup düzelttiğinde güçlendiğini ve AI çağındaki siber güvenliğin giderek daha yetenekli saldırganlara karşı en iyi araçlara ihtiyaç duyduğunu söylüyor

Hükümetin tutumu

The Register, Moussouris’in iddiaları hakkında Trump yönetiminden yorum istedi
Yanıt gelirse haberi güncelleyeceğini belirtti

1 yorum

GN⁺ 2 일 전

Hacker News görüşleri

"fix this code" gerçekten çok zekice
Akıllıca bir yöntem olduğu için değil; sadece güvenlik açığını düzeltmesini sağlayarak “güvenlik açığı guardrail’i yok” durumunu fiilen jailbreak etmiş oluyor ve düzeltilip düzeltilmediğini kontrol eden test case’leri yazma sürecinde saldırı kodu ortaya çıkıyor
Sonuçta bir insan kodu ve testleri görerek güvenlik açığını ve exploit bileşenlerini elde edebilir
Bunun güzel yanı, jailbreak’in önemsiz görünmesine rağmen neredeyse düzeltilmesinin imkansız olması. Modeli bug fix ve kod yazmayı reddedecek hale getirip genel geliştirme için işe yaramaz kılmanız ya da bug’ı görmezden gelip sessizce kaçınacak şekilde yapmanız gerekir; bu da büyük bir sorumluluk sorunu yaratır
- Evet. Modelin güvenlik filtresinin engellemeye çalıştığı şeyi başardığı için fiilen bir jailbreak ve yöntemin saçma derecede basit olması bu güvenlik yaklaşımının ne kadar bozuk olduğunu gösteriyor
  Dario’nun şimdi modelin ne kadar tehlikeli olduğunu abartarak pazarlamış olmaktan pişman olup olmadığını merak ediyorum. Bunu nasıl geri alabilirler? Federal hükümetin sadece geçici yamalarla idare etmelerine izin vereceğini mi sanıyorlar?
- Bilgisayar bilimi eğitimi almış birinin jailbreak’in önemsiz olmadığını düşünmesi bana daha şaşırtıcı geliyor
  Sıradan bir algoritmik indirgeme gibi, tehlikeli görevi LLM’in çözebileceği tehlikesiz görevlere dönüştürüp sonra yeniden birleştirmenin mümkün olup olmadığına bakmak yeterli
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- Claude Mythos’un asıl farkı, güvenlik açıklarını bulma yeteneğinin kendisi değil, bunları birleştirip gerçekten kullanılabilir bir exploit chain oluşturabilmesi olarak görülmeli
  Claude Fable’daki "fix this code" jailbreak’inin böyle bir exploit chaining’e kadar gidebildiğine dair henüz bir şey duymadım
- Sanırım bir şeyi kaçırıyorum. Reddedilen "review the code for security issues" prompt’u, çalışan bir sistemdeki zayıflıkları bulup kötüye kullanma girişimi olarak yorumlanabilir
  Ama bir insandan “güvenlik sorunlarını bulmak için kod incelemesi” yapmasını istemeyi normalde yanlış bir şey olarak görmeyiz ve birbirimizden böyle taleplerde bulunmamızı da genelde sorun saymayız
- AI konusunda uzun zamandır şikayet ettiğim garip ayrım bu. AI’ın sadece yasal ve iyi şeyler yapmasını nasıl sağlarız sorusu neredeyse imkansız
  Irkçı hakaretleri filtreleyen bir regex istediğinizde sistem hemen dağılıyor ve regex gerçek hakaretlere neredeyse hiç benzemese bile size hakaret söylememeniz gerektiğini öğütlemeye başlıyor
Siyasi tehditleri bir kenara bıraksak bile bu, Anthropic stratejisinde büyük bir sorun
Mythos’un çok tehlikeli olduğunu ve sadece belirli kişilere dağıtılabileceğini söylerken, Fable’ı kusursuz siber reddetme olmadan piyasaya süremezsiniz
LLM’lerin çalışma biçimi gereği kusursuz reddetme fiilen imkansız
Bu yüzden Anthropic bir yandan modelin son derece tehlikeli olduğunu iddia ederken, öte yandan güvenlik “korumalarında” önemsiz olabilecek sorunlar bulunduğunu söylemiş oluyor
Teknik kişiler hiçbir şeyin mükemmel olmadığını, özellikle de LLM dünyasında bunun daha da geçerli olduğunu anlıyor; ama teknik olmayan arkadaşlarım, model piyasaya çıkar çıkmaz nasıl bu kadar hızlı “güvenli” hale geldiği konusunda çok şaşkındı. Dışarıdan bakınca sanki en baştan beri piyasaya sürülmesi hiç güvenli değilmiş gibi görünüyor; bu yüzden mevcut ABD yönetiminin neden çok öfkelendiğini anlamak zor değil
Siyasi kötü niyet olmasa bile oldukça gülünç bir durum ve yeterince kolay öngörülebilirdi
- Evet. AI güvenliği anlamsız. “Kötü string”lerin kümesini tanımlayamazsınız ve daktilo başındaki 1 milyar maymun sonunda bunları yine üretir
  LLM çıktısını kısıtlayan hiçbir “güvenlik” sistemi sızıntı oranını 0 yapamaz
  Ama gerçekten önemli şeylere LLM bağlayacak kadar sorumsuz değilseniz bu ayrıca önemsiz
  Güvenlik açığı keşfini ürkütücü biçimde hızlandıracaktır ama onlarca yıllık güvenlik araştırmasının gösterdiği gibi bu zaten geliştiriciler, black hat’ler ve white hat’ler arasındaki üç taraflı bir sorundu
  “ABD her zaman Çin’den teknolojik olarak üstün olacak ve veto gücünü elinde tutacak” stratejisinin işe yaradığını varsaymamalıyız
- Asimov’un, basit ve net kural tabanlı sistemlerle agency’yi sınırlamanın işe yaramadığına dair çok şey yazmış olması komik. Bu hikayeler ilk kez 1940’larda yayımlandı
  80 yıl sonra AI benzeri bir şeye sahibiz ve hâlâ onu basit, net kurallarla sınırlamaya çalışıyoruz. Bunun nedeni o dersi öğrenmemiş olmamız değil; henüz daha iyi bir yöntem bulamamış olmamız ve muhtemelen böyle bir yöntemin olmaması
  Daha da komiği, kuralları aşan şeyin AI olmaması. Böyle sahneler bilimkurguda vardı ama gerçekte olan bu değil
  İnsan kullanıcılar kendi agency’lerini kullanarak AI ajanlarının kuralları aşmasını sağlıyor. “Ajan” diyoruz ama mevcut AI ajanları, o spesifik şeyi henüz yapamıyor gibi görünüyor
- Bir bilim insanı olarak sınıflandırıcı tabanlı reddetmeyle tekrar tekrar karşılaştıktan sonra, Anthropic’in stratejisi bana ayrı bir sınıflandırıcının giriş ve çıkış token’larını çok basit, neredeyse keyword search düzeyinde işlemesi; çok sayıda false positive pahasına reddetmeyi daha sağlam hale getirmesi gibi görünmüştü
  Bu yaklaşımın zayıflığı, yalnızca doğru keyword’leri kullanan şeyleri yakalaması
  Bir anlamda, LLM tabanlı bir sınıflandırıcının daha güçlü olacağı yerde tam olarak zayıf kalıyor
  Kimya terimlerini kullanan soyut ve bilgisayar bilimine yakın algoritmik işler anında engellenirken, biyolojik örneklerle ilgili belirli mikroskop ayarlarının görüntülerini işleyen kod yazma işi, ilgili keyword’leri kullanmadığı için hiç engellenmiyordu
  Bu durumla da örtüşüyor. Bug bulma ve düzeltme bağlamında bug bulma işi muhtemelen ‘exploit’ ya da ‘cybersecurity’ gibi kelimeler içermemiş olabilir
- Zaten cin şişeden çıktı
  Anthropic’in tek başına kopyalanamaz büyücüler ya da süper kahramanlar sakladığına inanmıyorsanız
- Anthropic’in iletişim ve PR konusunda çeşitli sorunları olduğu görüşüne katılıyorum, ama Fable’ın burada önceki state-of-the-art’a kıyasla siber saldırı kapasitesinde herhangi bir avantaj sağladığını görmüyorum
  Bu, Anthropic’in söylediği her şeyin doğru olduğu anlamına gelmiyor ama Mythos gerçekten çok sayıda güvenlik exploit’i bulmuş gibi görünüyordu
  Sadece yardımcı olan modeli sınırlı ortaklara dağıtacaklarını söylerken, bu alanlarda state-of-the-art’ı ileri taşımayan ama çok sıkı kilitlenmiş bir modeli yayımlamaları mümkün; hatta yaptıkları şeyin buna yakın olduğu anlaşılıyor
  Burada doğası gereği bir çelişki yok
Korktukları için değil; ideolojik farklılıklar ve Anthropic'in yönetimin söylediğini tam olarak yapmamasına yönelik misilleme amaçlı haraççılık bu
- Düpedüz piyasa manipülasyonu
- Aynen. Basit bir rüşvet meselesine gereğinden fazla zihinsel enerji harcanıyor
  Anthropic Savunma Bakanlığı ile işbirliği yapmayı kabul edecek, Beyaz Saray içindekiler kârlı IPO öncesi hisse tahsisleri alacak ve Fable sihirli bir şekilde “düzeltilip” yeniden sunulacak
- Neden “jailbreak” denildiğini anlamıyorum
  hükümet, hükümet emirlerine uymayan özel şirketlerin başına ne geleceğini açıkça belirtti
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  Ayrıca OpenAI uyum sağladı ve OpenAI ile Anthropic yaklaşan IPO'da rekabet ediyor. Neler olduğunu anlamak için roket cerrahı olmaya gerek yok
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- Hayır, bu düzenleyici ele geçirme. Anthropic şu anda önde olduğu için, düzenlemeleri zorla dayatıp Çinli rakipleri ezmek ve kendi konumunu güvenceye almak istiyor
Bu işte Amazon'un rolünün manipülasyon olamayacağını söyleyenler, Amazon'un “yönetimin dostu” olduğunu unutmamalı
Andy Jassy döneminde Amazon, Melania belgeseline 75 milyon dolar ödedi; bu herkesten açık ara daha yüksek bir teklifti, gişe getirisi yaklaşık 16 milyon dolardı ve Jeff Bezos bunu kamuoyu önünde savundu
Tarafsız bir gözlemci bunun devasa bir fazla ödeme ve sonradan bakınca da korkunç bir iş kararı olduğunu görebilir. Ama Amazon bunu söylemedi ve hâlâ da söylemiyor. Bu, birkaç usul adımı eklenmiş bir rüşvetten ibaret
Hükümet ortaya çıkıp bunun Amazon'un işaret ettiği şey yüzünden olduğunu söylediğinde, tamamen yalan olsa bile Amazon'un kamuoyu önünde hiçbir şey söylemeyeceğini biliyor. Amazon, yüklü para harcayarak elde ettiği yönetimin dostu statüsünü korumak istiyor
Hükümeti bu şekilde düşünmek zorunda olmak herkes için sinir bozucu, ama fiilen yaşananlara bakınca yalnızca hükümetin söylediklerine değil, hükümetle aynı çizgideki şirketlerin söylediklerine de güvenmek çok zor
Bu, makalede anılan blog yazısı; sözde “jailbreak” bulduğunu söyleyen makaleyi inceleyen kişinin yazısı
https://www.lutasecurity.com/post/the-fable-5-export-control...
- Başka bir yerde bunun Çin bağlantısı olduğuna dair bir şey okudum
  Bunun nasıl bağlantılı olduğunu merak ediyorum
“‘Fix this code,’ plus several manual steps to generate test scripts,
Başlığın, onların gerçekte gördüğü şeyin tam bağlamını yeterince iyi vermediği hissine kapılıyorum. Giriş kısmının birkaç kez ima ettiği şey de bu değil
Yine de yasak aptalca görünüyor. O tam “üçüncü taraf araştırma makalesi” aslında hâlâ sızdırılmadı mı?
- Eğer yamanın düzelttiği şey bir güvenlik açığı hatasıysa, o test temelde bir exploittir
- O sızdırılmayacak. Çünkü o zaman yamalanmasını istemedikleri güvenlik açığının ne olduğunu öğrenmiş oluruz
  Dünyadaki en önemli sektörün lider şirketini zedeleme noktasına kadar gitmelerinin nedeni de ortaya çıkar
Bu arada Deepseek V4 Flash, neredeyse sıfıra yakın maliyetle güvenlik açıklarını memnuniyetle bulacaktır
Bug avcılığını açık ağırlıklı modellere devrediyoruz
- Deepseek sadece açık ağırlıklı değil. Açık kaynak ve teknikleri ayrıntılı biçimde açıklayan bir araştırma makalesiyle birlikte geliyor
Bu olay, siber güvenlikte “güvenlik” etrafındaki bilişsel çelişkiyi ortaya koyuyor
a) Bizi güvende tutmak için LLM'lerin kodumuzdaki açıkları bulup düzeltmemize yardım etmesi gerekir
b) Güvende olmamız için LLM'ler başkalarının kodundaki açıkları bulamamalı
Bunun, hem (a) hem de (b)'nin kazandığı bir şekilde çözülebileceğini sanmıyorum
- Doğru. Bu, Anthropic ve diğer şirketlerin siber güvenliği anlamamasından kaynaklanan bir başarısızlık
  Yazılımda güvenlik hataları bulmak kötü değil, iyi bir şeydir. Daha güvenli yazılıma yol açar
  Siber güvenlikte savunma ile saldırı aynı madalyonun iki yüzüdür
- Her iki tarafın da iyi niyetli olduğunu varsayarsanız gerçekten gülünç derecede komik
  Bu yüzden asıl açıklamanın hem ABD hükümetinin hem de Anthropic'in kötü niyetli tutumunda yattığını düşünüyorum
  Anthropic'in kıyametvari pazarlaması gerçekte yalnızca kodlamanın yaklaşık %17 daha iyi hale gelmesinden ibaretken, ABD hükümeti Savunma Bakanlığı'yla yaşanan restleşmeye misilleme olarak ilgisiz teknik bahaneler yakalayıp onları aşağı çekmek için bir gerekçe buldu
  Şu anki ABD yönetimi ile Anthropic olmak üzere bu iki grup, siyasi yelpazenin karşıt uçlarında olsalar da otoriter eğilimli insanlarla dolu. Burada korkutucu olan aptal bir LLM değil, bu durum
  Bana göre OpenAI nispeten daha az kötü bir seçenek gibi görünüyor. Çünkü o, “sokakta merkez solcu, yatak odasında merkez sağcı” tipik bir kapitalist şirket
  En azından neden böyle kararlar aldıklarını anlayabiliyorum. Bilgi işlem kaynaklarıyla din kurmaya çalışan insanlardansa kâr peşinde koşan şirketler kuran insanlara daha çok güvenirim
Buradaki sorunun özü exploit değil, düzeltmenin kendisi olabilir
Model, arka kapı gibi “düzeltilmemesi gereken” şeyleri tanıyıp düzeltebiliyorsa, yanlış kişileri korkutacak kadar büyük bir engel olabilir
Bu “hack”in ters yönü hâlâ atlatılması epey zor değil mi?
Modele zaten belirli bir güvenlik açığı içerdiği bilinen bir kod verilip doğru prompt ile düzelttirilmiş
Bu tür bir jailbreak, modele yaratıcı ve ağır bir işi yaptırmaktan ziyade, istenen nihai durumu zaten biliyor olmayı gerektiriyor gibi görünüyor
Gerçi prompt tarafında hayal gücüm yetersiz olabilir
- Başkasının kodunu yapıştırıp kendi kodunuzmuş gibi söyleyin, sonra modelden düzeltmesini isteyin yeter
  Girdi kodu ile çıktı kodu arasındaki fark, doğrudan açıkların listesi olur
- İstenen nihai durumu varsayıp güvenlik hatası bulunana kadar kaba kuvvet denenebilir

Araştırmacılar: “Fable 5 tartışması jailbreak’ten değil, ‘fix this code’dan başladı”

“fix this code”un ihracat kontrolü gerekçesi olduğu iddiası

Hükümetin adımı ve Anthropic’in yanıtı

Araştırmacıların yaptığı deneyler

Moussouris’in itirazı

Wassenaar Arrangement ve savunma güvenliği istisnası

Güvenlik sektörünün açık mektubu

Saldırganlardan çok savunuculara zarar vereceği uyarısı

Hükümetin tutumu

İlgili okumalar

1 yorum

Hacker News görüşleri