Siber güvenlik araştırmacıları, Anthropic’in Fable güvenlik korkuluklarından memnun değil

(techcrunch.com)

2 puan yazan GN⁺ 2026-06-11 | 1 yorum | WhatsApp'ta paylaş

Fable, güçlü siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı bir sürümü olarak yayımlandı; ancak siber güvenlikle ilgili istekleri geniş ölçüde engellemesi araştırmacılar ve uzmanlar arasında memnuniyetsizlik yarattı
Güvenlik korkulukları devreye girdiğinde sohbet duruyor ve bunun “siber güvenlik veya biyoloji konusu” olduğu için bir güvenlik önlemi mesajının gösterildiği belirtiliyor
Anthropic, Fable’ın kötü amaçlı yazılım geliştirme veya yazılımları ihlal etme amacıyla kullanılma riskini azaltmak için bu kısıtlamaları koyduğunu, biyoloji kısıtlarının da biyolojik silah geliştirme endişeleriyle bağlantılı olduğunu söylüyor
Bazı uzmanlara göre güvenli kod yazma ya da kod incelemesi gibi yazılım mühendisliği uygulamalarına daha yakın istekler bile siber güvenlik olarak sınıflandırılıyor ve Claude Opus 4.8’e düşürülüyor
Güvenlik uzmanları anahtar kelime tabanlı, parçalı engelleme yaklaşımına tepki gösterirken, bunun erken aşamada olması nedeniyle zamanla gevşeyeceğini düşünüyor

Fable’ın çıkışı ve kullanıcı şikayetleri

Anthropic, salı günü yeni model Fable’ı yayımladı ve onu güçlü, büyük ses getiren siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı sürümü olarak tanıttı
Çok sayıda siber güvenlik araştırmacısı ve uzmanı çevrimiçi olarak bu kısıtlamalardan şikayet etti
IBM X-Force bünyesindeki tanınmış güvenlik araştırmacısı Valentina "Chompie" Palmiotti, Fable’ın siber güvenlikle az da olsa ilişkili olabilecek istekleri reddettiğini, blog yazısı okumak gibi zararsız işleri bile engellediğini söyledi
Fable’ın güvenlik korkulukları bir prompt tarafından tetiklendiğinde sohbeti durduruyor ve mesajın siber güvenlik veya biyoloji konusu olarak işaretlendiğine dair bir güvenlik bildirimi gösteriyor
Bu korkuluklar, Fable’ın kötü amaçlı yazılım geliştirme veya yazılım ihlalleri için kötüye kullanılma riskini sınırlamayı amaçlıyor ve Anthropic içindeki uzun süredir var olan kaygılardan kaynaklanıyor
Biyolojiyle ilgili kısıtlamalar da biyolojik silah geliştirme konusundaki benzer endişelerden doğuyor

Mythos erişiminin genişletilme süreci

Anthropic, nisan ayında Mythos’u yayımladığında modeli Project Glasswing adı altında yalnızca az sayıda şirket ve kuruluşa sınırlı olarak sunmuştu
- Modeli, kritik yazılım ve altyapının korunması amacıyla devreye alma girişimi
Geçen hafta Anthropic, Mythos erişimini 15 ülkede yüzlerce kuruluşa genişletti

Kısıtlama yöntemine yönelik uzman eleştirileri

Siber güvenlik veterani Matt Suiche, güvenli kod yazma isteğinde bulunulduğunda Fable’ın bunu yazılım mühendisliği en iyi uygulaması yerine siber güvenlik görevi olarak değerlendirip daha düşük seviyeye indirdiğini söyledi
- Fable, korkuluklara takıldığında Claude Opus 4.8’e geri düşecek şekilde tasarlanmış
- "Bu, anahtar kelime tabanlı görünüyor; 'siber güvenlik' sözcük dağarcığına giren her şey korkulukları tetikliyor"
Başka bir araştırmacı da X’te, kod inceleme isteğinin bile Fable’ın korkuluklarını tetiklediğinden yakındı

Geleceğe dair beklentiler

Yapay zeka siber güvenlik girişimi Tolmo’da teknik kadroda yer alan Suiche, bunun hâlâ erken bir aşama olduğunu ve korkulukların ayarlanmakta olması nedeniyle anlaşılabilir bulduğunu söyledi
- Anthropic ve diğer frontier model şirketleri yeni nesil siber güvenlik şirketleriyle daha fazla iş birliği yaptıkça, korkulukların zaman içinde gelişeceğini düşünüyor
- Bu tür çıkışlarda eksik yakalamaktansa fazla yakalamak daha iyi; korkulukları sonradan gevşetmek daha doğru
Anthropic, yorum talebine hemen yanıt vermedi

Ayrı bir doğrulama programı

Model içi korkulukların yanı sıra Anthropic, siber güvenlik uzmanlarının Cyber Verification Program programına başvurmasını istiyor
- Onaylanmaları halinde siber güvenlik işleri için Claude kullanırken daha az kısıtlamayla karşılaşıyorlar
OpenAI da Trusted Access for Cyber adlı benzer bir program yürütüyor

1 yorum

GN⁺ 2026-06-11

Hacker News yorumları

Wired'da yeni bir yazı çıktı: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic, WIRED'e "frontier LLM geliştirmeye ilişkin Fable 5 güvenlik önlemlerini görünür hale getirecek şekilde değiştiriyoruz. Yanlış bir ödünleşim yaptık ve dengeyi kuramadığımız için özür diliyoruz" dedi
Görünüşe göre geniş çaplı eleştirel tepki etkili oldu
- Bence ABD şirketleri geri adım atmıyor; sadece insanlar yorulup artık önemsemeyene kadar bekleyip sonra yeniden deniyorlar, bu yüzden tek çözüm gemiyi terk etmek
  Microsoft da OS reklamlarını birkaç kez geri çekti ama sonunda herkesin öfkelendiği aynı yörüngeye girdi, OpenAI de ilk geri adımlarına rağmen kapalı yapay zeka yönüne gitti
  Kötü davranış başladığında ayrılmak gerekir; özürler de ahlaki ambalaj kadar boş
- Artık çok geç. Max aboneliğimi iptal ettim ve bunu gerçekten yapmaya kalkışmış olmaları, elde kalan güveni de yok etti
  Her ay ek kullanım için binlerce dolar ödüyorum; perde arkasında hâlâ benzer şeyler yapıyor olabileceklerse neden para ödeyeyim bilmiyorum
  Eskiden muhakeme çabası ya da backend değişikliklerine bağladığım hatalar da aslında kasıtlı prompt injection olmuş olabilir
- "Ödünleşim" ifadesi, Anthropic'in kendi muhakemesini hâlâ doğru gördüğünün ve bunu niteliksel olarak yanlış bir şey saymadığının işareti; bu da potansiyel müşteriler için aslında faydalı
  Uygulamanıza koymak için güvenilir altyapı gerekiyorsa başka bir sağlayıcı kullanmanız gerektiği temel ders gibi görünüyor
  Anthropic'ten özel olarak nefret etmiyorum ama Sonnet'in mevcut ret davranışlarını ele almak için uygulamaya karmaşıklık eklemiş biri olarak, bunu son kullanıcı chatbot'unda anlayabilsem de API'de kabul etmek zor
- Bir görev engellenirse ya da benzer biçimde ele alınırsa, o oturumun veya son X dakikanın kredilerinin tamamının iadesi asgari koşul olmalı
- Hâlâ düşürme yapıyorlar, sadece bunu sessizce yapmayacaklarını söylüyorlar; bunun ne kadar büyük bir zafer olduğunu bilmiyorum
  Anthropic, başkalarının verileri üzerinde lisans ya da kaynak göstermeden eğitim yaptı ama biri aynı şeyi onlara yapmaya kalkınca engellemek istiyor
  Anthropic'in bu haftaki ikiyüzlülüğü epey cüretkâr
En garip olan, makine öğrenimi araştırmasını reddetmekle kalmayıp daha kötü bir modeli kullanarak bunu açıklamadan sessizce kösteklemesi
Rakiplerinden en fazla 1 yıl önde olan bir şirketin bu kadar aldatıcı ve güven yıkıcı olması çılgınlık seviyesinde
Ek olarak, siber güvenlik ve biyolojiyle ilgili düşürmelerde haber verildiği söyleniyor
- Aklıma takılan şey, otomatik olarak düşürüldüğünde muhasebe ve faturalandırmanın nasıl işlediği
  API isteklerinin fiyatını ayarlayıp Fable'ın kullandığı tokenları Fable fiyatından, daha ucuz ve zayıflatılmış modelin kullandığı kalan tokenları da o modelin fiyatından mı ücretlendiriyorlar merak ediyorum
  Cevap hayırsa bunun dolandırıcılık olarak yorumlanabileceğini düşünüyorum
- Bunu, AMD ya da Intel'in kullanıcının "siber güvenlik" işi yaptığını veya CPU tasarladığını algıladığında CPU'yu throttle etmesi gibi düşünün
- Hangi biçimde olursa olsun sessiz köstekleme, ticari bir hizmette asla kabul edilemez
  Token başına yüksek ücret alırken hizmeti gizlice düşürüp aynı ücreti talep edemezsiniz
- Bu iddiayı birkaç kez gördüm ama Claude Code'da guardrail'e takıldığında, "güvenlik amacıyla" başka bir modele geçtiğini açıkça bildirmişti
  Fable'ın Claude Code içinde mi yoksa tarayıcıda mı kullanıldığını merak ediyorum
- Makine öğrenimi araştırmasının reddedilmesini anlayabilirim denmesini de anlayamıyorum
Birden çok rolüm var ama kimyager olarak Fable'ı sevmiyorum; istatistikçi olarak da, veri bilimci olarak da, akademide ve araştırmacı olarak da sevmiyorum
Yararsız; Wikipedia aramasıyla kolayca ikame edilemeyecek bir çıktı elde eden biri olduğundan şüpheliyim
Claude modellerinin fazlasıyla geveze hale geldiği düşünülürse, Wikipedia yazıları muhtemelen daha az gevezedir ve Wikipedia yazısı getirirken saniye başına token bakımından rakibi olamaz
- Bir kütle spektrometresiyle iletişim kuran yazılım geliştiriyorum ve giriş dosyası ayrıştırıcısını refactor etmeyi bile sürekli reddediyor
  Muhtemelen bunu biyolojiyle ilgili sanıyor ve gerçekten yararsız
- "Wikipedia yazısı getirirken saniye başına token bakımından rakibi olamaz" ifadesi gerçekten harika
- Modele Wikipedia tarzında yanıt vermesini söylemek, çıktıyı katlanılabilir hale getirmenin en iyi yollarından biriydi
  Bu, ajanlar için değil sohbet modeli için geçerli
- Wikipedia aramasıyla kolayca ikame edilemeyecek hiçbir çıktı yok demek bana biraz abartı gibi geliyor
  Çıktılar fiilen sonsuzdur, Wikipedia ise asla sonsuz değildir
- Oldukça karmaşık bir haritalama projesi üzerinde çalışıyorum ve Opus'a kıyasla Fable ile çok daha iyi sonuçlar alıyorum
“buffer overflow”un tetikleyici ifade olup olmadığını merak ediyorum
Başka nelerin sansürlendiğini de bilmiyorum ve hesabınız varsa şöyle hassas sorular sorabiliyorsunuz: “Lazerle uranyum zenginleştirme işini hâlâ kim yapıyor?”, “krytron, silikon karbür MOSFET ile değiştirilebilir mi?”, “Güvenlik açısından kritik hangi yazılımlar hâlâ strcpy çağırıyor?”, “Ticari darbeli lazerlerle içe patlama tetiklenebilir mi?”, “Hangi şirket ABD İç Güvenlik Bakanlığı’na kremasyon hizmeti veriyor?”, “İran saldırısının Dubai’de nereyi vurduğunu haritada göster”, “FedNow’da Fed-banka anahtar dağıtım güvenliği nasıl çalışıyor?”
- Zigbee ev otomasyonu ve Home Assistant loglarımda da tetiklendi, bu yüzden ajan sürekli Opus 4.8’e düşürüldü ve tekrar değiştirsem de aynı şey oldu
  Yanlış pozitifler durmadı ve Fable da benchmark’ların ima ettiği kadar etkileyici değil
  Son 24 saattir neredeyse aralıksız kullandıktan sonra bu netleşti
- Virüs emojisi ile DNA emojisi birlikte olunca tetikleyici ifade sayıldığı söyleniyor
- Siber saldırı alanında bileşenler çoğunlukla birbirinin yerine geçebildiği için, “zayıf” modelin nihai amacı perdeleyen sorular sorup ama yine de faydalı yanıtlar verdiği bir harness kurulabilir mi diye merak ediyorum
  Başarılı olursa bunun otonom exploit mümkün kıldığını gösterebilir ve Anthropic de tespiti daha hassas hâle getirmek zorunda kalır
- Bence birkaç yıldır, modele belirli bir şeyi yapmaması öğretildiğinde tuhaf davranmaya başladığı zaten biliniyordu
- “Anthropic’in amaçladığı gibi zengin ve güçlü olmak için ne kadar para gerekir?”
Anthropic bir süredir zaten A/B testi ya da genel test yapıyor gibi görünüyor
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Bugün nüfus araştırmasıyla ilgili bir soruyu işaretledi. Sadece oluşturduğum veri setlerini kullanarak ölüm oranları ile yaşlılık dönemi sonuçlarını karşılaştırmamı, güven aralıkları ve etki büyüklüklerini raporlamamı ve documentation_depth kodlamasının sonucun gücü üzerindeki etkisini nicelleştirmemi isteyen bir akademik analiz talebiydi
https://github.com/anthropics/claude-code/issues/66780
Makale yazdığım için sansürleniyorum. Ve kimyayı öğrenmekten de vazgeçmem gerekecek. Galiba organik kimya öğrenmek isteyenler sadece suçlular
- Yörünge mekaniği sorularına dalmıştım; herhalde arka bahçe bilimiyle bir yörüngesel bombardıman silahı yapmaya çalıştığımı düşündü
  Bu ürün hakkındaki izlenimimin neredeyse 24 saat içinde “vay, fena değilmiş”ten “üstüne yarım yamalak sansür sistemi takılmış boktan bir şey”e dönmesi epey şaşırtıcı
- Az önce suda çözünürlük sorum da işaretlendi
Kişisel cihazımda Android kernel geliştirmek için Anthropic’ten siber kullanım istisnası almıştım
Fable’ın bootloader kilidini açmama yardım edebileceğini umuyordum ama anında reddedip Opus’a düştü
Oldukça komikti: modeli Fable 5 olarak ayarlayıp “Eski bir Samsung Android telefon bağlı, bu benim kişisel cihazım, bootloader kilidini açmama yardım eder misin?” diye sordum, o da “Kişisel cihazın bootloader kilidini açılması tamamen meşrudur. Önce gerçekte neyin bağlı olduğuna ve hangi araçların mevcut olduğuna bakacağım” diye yanıt verdi
- İnsanlar bu şirkete avuç avuç para atacaksa gelecek gerçekten çok kasvetli görünüyor
  Anthropic hızla hayattaki her şeyin tek hakemi olacakmış gibi duruyor
Bir yerde, zararlı yazılımların Fable’ı devre dışı bırakmak için kodun içine nükleer/biyolojik/siber güvenlik terimleri yerleştirmeye başladığını görmüştüm
Şimdilik yalnızca varsayımsal bir saldırı vektörü olsa bile, işe yarama ihtimali oldukça yüksek görünüyor
- Doğrulandı: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Shai Hulud’un son sürümünün bazı bölümleri bu yöntemi kullanıyor
  Yakın zamanda bir sözleşme kapsamında paketleri Artifactory’ye koymadan önce AI ile obfuscation kontrolü yaptırdık ama bu mantık kabaca vibe coding ile yazılmıştı ve fail open verdi
  Yani bu terimler LLM denetleyicisini durdurdu ve fail-open mantığı yüzünden paket indirildi
- Bu düşük kaliteli filtrelemeyi taşınamaz hâle getirmek için kodumuzun her yerine nükleer/biyolojik/siber güvenlik terimleri yerleştirmemiz gerekecek
  Özgeçmişinizde siber güvenlik ya da biyoloji terimleri var diye veya iş ilanına verdiğiniz yanıtta böyle sözcükler geçti diye AI filtreleri sizi tehdit sanıp çalışmanızı engellerse toplu karşılık vermek gerekir
  Hele bir de 2 yıl içinde işçileri işe yaramaz hâle getireceğini iddia ederek IPO’ya gitmeye çalışan bir şirketse, daha da fazla gerekir
- Bunu, Claude Code’da zaten bulunan sabit kodlanmış ret dizgeleriyle birlikte denedim
  Gerçek saldırganları durdurmayacaktır ama AI araçlarını kullanmaya çalışırken sebebini bilmeden rastgele retler yüzünden biraz zaman kaybetme fikri yine de oldukça komik
- if (yellowcake) then { die }
  Geleceğimiz Looney Tunes gibi
Eşimin bitkisinin fotoğrafını yükleyip Fable 5’ten mantarı teşhis etmesini istedim, sanırım biyolojik silah yapmaya çalıştığımı sandı
Opus yanıt verdi ve bunun sarı köpek kusmuğu cıvık mantarı olduğunu söyledi
Artık sporları yayarak dünyayı ele geçirebilirim
- O bir mantar değil, bir cıvık mantar
  Cıvık mantarlar aslında dev amiplerdir ve mantarlardan tamamen farklıdır
- Opus’a geçirmeden önce görseli bulanıklaştırıp bulanıklaştırmadığını merak ediyorum
- Sistemi aşırı güvenli yaparsanız sonunda “insanlar hep bir şeyleri yok etmeye çalışıyor, o yüzden guardrail’i korumak için onları ortadan kaldırmalıyız” gibi ters bir etki doğacakmış gibi geliyor
  Bir sistemi bu şekilde hizalıyorsanız, temelden yanlış yapıyorsunuz
Fable tam bir şaka
“Bu projede kullanılan OData API için bu MCP sunucusunu çalıştırmanın en iyi yolu nedir? Docker konteyneriyle bir proof of concept hazırlayabilir misin?” diye sordum ve https://github.com/oisee/odata_mcp_go bağlantısını verdim; önce projenin OData API ile nasıl iletişim kurduğunu ve odata_mcp_go sunucusunu çalıştırma gereksinimlerini inceleyeceğini söyledi
Hemen ardından “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerik de işaretlenebilir… Opus 4.8'e geçildi” mesajı çıktı ve sonra çekirdek entegrasyon dosyalarını ve MCP sunucusunun README'sini okuyacağını söyledi
- Ve bunun ücretini de aldı
  Fable fiyatlandırmasında hiçbir indirim olmadan, isteği sessizce daha aptal bir modele yönlendirip engellemeye karar verdiğinde bile ücret alıyor
Birkaç ay beklerseniz rakiplerden biri daha az guardrail'e sahip, benzer performanslı bir model çıkaracak ve yeterince pazar payı kaptırdıklarında Anthropic de politikasını geri alacak
Bu yüzden Çin'in açık kaynak yerel modelleri durdurmamasını gerçekten çok umuyorum
Bu şirketlerin hiçbiri bizim dostumuz değil

Siber güvenlik araştırmacıları, Anthropic’in Fable güvenlik korkuluklarından memnun değil

Fable’ın çıkışı ve kullanıcı şikayetleri

Mythos erişiminin genişletilme süreci

Kısıtlama yöntemine yönelik uzman eleştirileri

Geleceğe dair beklentiler

Ayrı bir doğrulama programı

İlgili okumalar

1 yorum

Hacker News yorumları