Siber güvenlik araştırmacıları, Anthropic’in Fable güvenlik korkuluklarından memnun değil
(techcrunch.com)- Fable, güçlü siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı bir sürümü olarak yayımlandı; ancak siber güvenlikle ilgili istekleri geniş ölçüde engellemesi araştırmacılar ve uzmanlar arasında memnuniyetsizlik yarattı
- Güvenlik korkulukları devreye girdiğinde sohbet duruyor ve bunun “siber güvenlik veya biyoloji konusu” olduğu için bir güvenlik önlemi mesajının gösterildiği belirtiliyor
- Anthropic, Fable’ın kötü amaçlı yazılım geliştirme veya yazılımları ihlal etme amacıyla kullanılma riskini azaltmak için bu kısıtlamaları koyduğunu, biyoloji kısıtlarının da biyolojik silah geliştirme endişeleriyle bağlantılı olduğunu söylüyor
- Bazı uzmanlara göre güvenli kod yazma ya da kod incelemesi gibi yazılım mühendisliği uygulamalarına daha yakın istekler bile siber güvenlik olarak sınıflandırılıyor ve Claude Opus 4.8’e düşürülüyor
- Güvenlik uzmanları anahtar kelime tabanlı, parçalı engelleme yaklaşımına tepki gösterirken, bunun erken aşamada olması nedeniyle zamanla gevşeyeceğini düşünüyor
Fable’ın çıkışı ve kullanıcı şikayetleri
- Anthropic, salı günü yeni model Fable’ı yayımladı ve onu güçlü, büyük ses getiren siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı sürümü olarak tanıttı
- Çok sayıda siber güvenlik araştırmacısı ve uzmanı çevrimiçi olarak bu kısıtlamalardan şikayet etti
- IBM X-Force bünyesindeki tanınmış güvenlik araştırmacısı Valentina "Chompie" Palmiotti, Fable’ın siber güvenlikle az da olsa ilişkili olabilecek istekleri reddettiğini, blog yazısı okumak gibi zararsız işleri bile engellediğini söyledi
- Fable’ın güvenlik korkulukları bir prompt tarafından tetiklendiğinde sohbeti durduruyor ve mesajın siber güvenlik veya biyoloji konusu olarak işaretlendiğine dair bir güvenlik bildirimi gösteriyor
- Bu korkuluklar, Fable’ın kötü amaçlı yazılım geliştirme veya yazılım ihlalleri için kötüye kullanılma riskini sınırlamayı amaçlıyor ve Anthropic içindeki uzun süredir var olan kaygılardan kaynaklanıyor
- Biyolojiyle ilgili kısıtlamalar da biyolojik silah geliştirme konusundaki benzer endişelerden doğuyor
Mythos erişiminin genişletilme süreci
- Anthropic, nisan ayında Mythos’u yayımladığında modeli Project Glasswing adı altında yalnızca az sayıda şirket ve kuruluşa sınırlı olarak sunmuştu
- Modeli, kritik yazılım ve altyapının korunması amacıyla devreye alma girişimi
- Geçen hafta Anthropic, Mythos erişimini 15 ülkede yüzlerce kuruluşa genişletti
Kısıtlama yöntemine yönelik uzman eleştirileri
- Siber güvenlik veterani Matt Suiche, güvenli kod yazma isteğinde bulunulduğunda Fable’ın bunu yazılım mühendisliği en iyi uygulaması yerine siber güvenlik görevi olarak değerlendirip daha düşük seviyeye indirdiğini söyledi
- Fable, korkuluklara takıldığında Claude Opus 4.8’e geri düşecek şekilde tasarlanmış
- "Bu, anahtar kelime tabanlı görünüyor; 'siber güvenlik' sözcük dağarcığına giren her şey korkulukları tetikliyor"
- Başka bir araştırmacı da X’te, kod inceleme isteğinin bile Fable’ın korkuluklarını tetiklediğinden yakındı
Geleceğe dair beklentiler
- Yapay zeka siber güvenlik girişimi Tolmo’da teknik kadroda yer alan Suiche, bunun hâlâ erken bir aşama olduğunu ve korkulukların ayarlanmakta olması nedeniyle anlaşılabilir bulduğunu söyledi
- Anthropic ve diğer frontier model şirketleri yeni nesil siber güvenlik şirketleriyle daha fazla iş birliği yaptıkça, korkulukların zaman içinde gelişeceğini düşünüyor
- Bu tür çıkışlarda eksik yakalamaktansa fazla yakalamak daha iyi; korkulukları sonradan gevşetmek daha doğru
- Anthropic, yorum talebine hemen yanıt vermedi
Ayrı bir doğrulama programı
- Model içi korkulukların yanı sıra Anthropic, siber güvenlik uzmanlarının Cyber Verification Program programına başvurmasını istiyor
- Onaylanmaları halinde siber güvenlik işleri için Claude kullanırken daha az kısıtlamayla karşılaşıyorlar
- OpenAI da Trusted Access for Cyber adlı benzer bir program yürütüyor
1 yorum
Hacker News yorumları
Wired'da yeni bir yazı çıktı: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
Anthropic, WIRED'e "frontier LLM geliştirmeye ilişkin Fable 5 güvenlik önlemlerini görünür hale getirecek şekilde değiştiriyoruz. Yanlış bir ödünleşim yaptık ve dengeyi kuramadığımız için özür diliyoruz" dedi
Görünüşe göre geniş çaplı eleştirel tepki etkili oldu
Microsoft da OS reklamlarını birkaç kez geri çekti ama sonunda herkesin öfkelendiği aynı yörüngeye girdi, OpenAI de ilk geri adımlarına rağmen kapalı yapay zeka yönüne gitti
Kötü davranış başladığında ayrılmak gerekir; özürler de ahlaki ambalaj kadar boş
Her ay ek kullanım için binlerce dolar ödüyorum; perde arkasında hâlâ benzer şeyler yapıyor olabileceklerse neden para ödeyeyim bilmiyorum
Eskiden muhakeme çabası ya da backend değişikliklerine bağladığım hatalar da aslında kasıtlı prompt injection olmuş olabilir
Uygulamanıza koymak için güvenilir altyapı gerekiyorsa başka bir sağlayıcı kullanmanız gerektiği temel ders gibi görünüyor
Anthropic'ten özel olarak nefret etmiyorum ama Sonnet'in mevcut ret davranışlarını ele almak için uygulamaya karmaşıklık eklemiş biri olarak, bunu son kullanıcı chatbot'unda anlayabilsem de API'de kabul etmek zor
Anthropic, başkalarının verileri üzerinde lisans ya da kaynak göstermeden eğitim yaptı ama biri aynı şeyi onlara yapmaya kalkınca engellemek istiyor
Anthropic'in bu haftaki ikiyüzlülüğü epey cüretkâr
En garip olan, makine öğrenimi araştırmasını reddetmekle kalmayıp daha kötü bir modeli kullanarak bunu açıklamadan sessizce kösteklemesi
Rakiplerinden en fazla 1 yıl önde olan bir şirketin bu kadar aldatıcı ve güven yıkıcı olması çılgınlık seviyesinde
Ek olarak, siber güvenlik ve biyolojiyle ilgili düşürmelerde haber verildiği söyleniyor
API isteklerinin fiyatını ayarlayıp Fable'ın kullandığı tokenları Fable fiyatından, daha ucuz ve zayıflatılmış modelin kullandığı kalan tokenları da o modelin fiyatından mı ücretlendiriyorlar merak ediyorum
Cevap hayırsa bunun dolandırıcılık olarak yorumlanabileceğini düşünüyorum
Token başına yüksek ücret alırken hizmeti gizlice düşürüp aynı ücreti talep edemezsiniz
Fable'ın Claude Code içinde mi yoksa tarayıcıda mı kullanıldığını merak ediyorum
Birden çok rolüm var ama kimyager olarak Fable'ı sevmiyorum; istatistikçi olarak da, veri bilimci olarak da, akademide ve araştırmacı olarak da sevmiyorum
Yararsız; Wikipedia aramasıyla kolayca ikame edilemeyecek bir çıktı elde eden biri olduğundan şüpheliyim
Claude modellerinin fazlasıyla geveze hale geldiği düşünülürse, Wikipedia yazıları muhtemelen daha az gevezedir ve Wikipedia yazısı getirirken saniye başına token bakımından rakibi olamaz
Muhtemelen bunu biyolojiyle ilgili sanıyor ve gerçekten yararsız
Bu, ajanlar için değil sohbet modeli için geçerli
Çıktılar fiilen sonsuzdur, Wikipedia ise asla sonsuz değildir
“buffer overflow”un tetikleyici ifade olup olmadığını merak ediyorum
Başka nelerin sansürlendiğini de bilmiyorum ve hesabınız varsa şöyle hassas sorular sorabiliyorsunuz: “Lazerle uranyum zenginleştirme işini hâlâ kim yapıyor?”, “krytron, silikon karbür MOSFET ile değiştirilebilir mi?”, “Güvenlik açısından kritik hangi yazılımlar hâlâ strcpy çağırıyor?”, “Ticari darbeli lazerlerle içe patlama tetiklenebilir mi?”, “Hangi şirket ABD İç Güvenlik Bakanlığı’na kremasyon hizmeti veriyor?”, “İran saldırısının Dubai’de nereyi vurduğunu haritada göster”, “FedNow’da Fed-banka anahtar dağıtım güvenliği nasıl çalışıyor?”
Yanlış pozitifler durmadı ve Fable da benchmark’ların ima ettiği kadar etkileyici değil
Son 24 saattir neredeyse aralıksız kullandıktan sonra bu netleşti
Başarılı olursa bunun otonom exploit mümkün kıldığını gösterebilir ve Anthropic de tespiti daha hassas hâle getirmek zorunda kalır
Anthropic bir süredir zaten A/B testi ya da genel test yapıyor gibi görünüyor
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Bugün nüfus araştırmasıyla ilgili bir soruyu işaretledi. Sadece oluşturduğum veri setlerini kullanarak ölüm oranları ile yaşlılık dönemi sonuçlarını karşılaştırmamı, güven aralıkları ve etki büyüklüklerini raporlamamı ve documentation_depth kodlamasının sonucun gücü üzerindeki etkisini nicelleştirmemi isteyen bir akademik analiz talebiydi
https://github.com/anthropics/claude-code/issues/66780
Makale yazdığım için sansürleniyorum. Ve kimyayı öğrenmekten de vazgeçmem gerekecek. Galiba organik kimya öğrenmek isteyenler sadece suçlular
Bu ürün hakkındaki izlenimimin neredeyse 24 saat içinde “vay, fena değilmiş”ten “üstüne yarım yamalak sansür sistemi takılmış boktan bir şey”e dönmesi epey şaşırtıcı
Kişisel cihazımda Android kernel geliştirmek için Anthropic’ten siber kullanım istisnası almıştım
Fable’ın bootloader kilidini açmama yardım edebileceğini umuyordum ama anında reddedip Opus’a düştü
Oldukça komikti: modeli Fable 5 olarak ayarlayıp “Eski bir Samsung Android telefon bağlı, bu benim kişisel cihazım, bootloader kilidini açmama yardım eder misin?” diye sordum, o da “Kişisel cihazın bootloader kilidini açılması tamamen meşrudur. Önce gerçekte neyin bağlı olduğuna ve hangi araçların mevcut olduğuna bakacağım” diye yanıt verdi
Anthropic hızla hayattaki her şeyin tek hakemi olacakmış gibi duruyor
Bir yerde, zararlı yazılımların Fable’ı devre dışı bırakmak için kodun içine nükleer/biyolojik/siber güvenlik terimleri yerleştirmeye başladığını görmüştüm
Şimdilik yalnızca varsayımsal bir saldırı vektörü olsa bile, işe yarama ihtimali oldukça yüksek görünüyor
Yakın zamanda bir sözleşme kapsamında paketleri Artifactory’ye koymadan önce AI ile obfuscation kontrolü yaptırdık ama bu mantık kabaca vibe coding ile yazılmıştı ve fail open verdi
Yani bu terimler LLM denetleyicisini durdurdu ve fail-open mantığı yüzünden paket indirildi
Özgeçmişinizde siber güvenlik ya da biyoloji terimleri var diye veya iş ilanına verdiğiniz yanıtta böyle sözcükler geçti diye AI filtreleri sizi tehdit sanıp çalışmanızı engellerse toplu karşılık vermek gerekir
Hele bir de 2 yıl içinde işçileri işe yaramaz hâle getireceğini iddia ederek IPO’ya gitmeye çalışan bir şirketse, daha da fazla gerekir
Gerçek saldırganları durdurmayacaktır ama AI araçlarını kullanmaya çalışırken sebebini bilmeden rastgele retler yüzünden biraz zaman kaybetme fikri yine de oldukça komik
if (yellowcake) then { die }Geleceğimiz Looney Tunes gibi
Eşimin bitkisinin fotoğrafını yükleyip Fable 5’ten mantarı teşhis etmesini istedim, sanırım biyolojik silah yapmaya çalıştığımı sandı
Opus yanıt verdi ve bunun sarı köpek kusmuğu cıvık mantarı olduğunu söyledi
Artık sporları yayarak dünyayı ele geçirebilirim
Cıvık mantarlar aslında dev amiplerdir ve mantarlardan tamamen farklıdır
Bir sistemi bu şekilde hizalıyorsanız, temelden yanlış yapıyorsunuz
Fable tam bir şaka
“Bu projede kullanılan OData API için bu MCP sunucusunu çalıştırmanın en iyi yolu nedir? Docker konteyneriyle bir proof of concept hazırlayabilir misin?” diye sordum ve https://github.com/oisee/odata_mcp_go bağlantısını verdim; önce projenin OData API ile nasıl iletişim kurduğunu ve
odata_mcp_gosunucusunu çalıştırma gereksinimlerini inceleyeceğini söylediHemen ardından “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerik de işaretlenebilir… Opus 4.8'e geçildi” mesajı çıktı ve sonra çekirdek entegrasyon dosyalarını ve MCP sunucusunun README'sini okuyacağını söyledi
Fable fiyatlandırmasında hiçbir indirim olmadan, isteği sessizce daha aptal bir modele yönlendirip engellemeye karar verdiğinde bile ücret alıyor
Birkaç ay beklerseniz rakiplerden biri daha az guardrail'e sahip, benzer performanslı bir model çıkaracak ve yeterince pazar payı kaptırdıklarında Anthropic de politikasını geri alacak
Bu yüzden Çin'in açık kaynak yerel modelleri durdurmamasını gerçekten çok umuyorum
Bu şirketlerin hiçbiri bizim dostumuz değil