Anthropic, görünmez Claude Fable korkulukları için özür diledi

(theverge.com)

1 puan yazan GN⁺ 2026-06-12 | 1 yorum | WhatsApp'ta paylaş

Claude Fable 5, Anthropic’in Mythos ailesinde ilk kez geniş çapta sunulan modeldi ve rakip sistem geliştirmede kullanılacak damıtma girişimlerini engellemek için gizli kısıtlamalar uygulandı
Anthropic, damıtma olarak değerlendirdiği isteklerde kullanıcıya bildirmeden yanıtı değiştiren ve düşüren önceki yaklaşımını geri çekiyor ve kısıtlamalar devreye girdiğinde bunu daha şeffaf biçimde bildireceğini söylüyor
Yeni yöntemde damıtmayla ilgili istekler Claude Fable yerine Claude Opus 4.8’e yönlendirilecek ve kullanıcılar her yönlendirmeyi görebilecek
Biyoloji, kimya ve siber güvenlik gibi diğer yüksek riskli alanlarda da güvenlik özellikleri devreye girerse istekler Opus 4.8’e yönlendirilecek veya ilaç, silah gibi yasaklı içerik kurallarına göre engellenecek
Gizli korumalar hızlı lansman ve düşük yanlış pozitif oranı sağladı, ancak Anthropic bunların yanlış bir taviz olduğunu kabul ederek kullanıcıların hangi korumanın neden uygulandığını görebilmesi gerektiğini söyledi

Claude Fable’ın gizli damıtma kısıtlaması

Anthropic, Claude Fable 5’i gizlice kısıtladığı için özür diledi; bu kısıtlama hem araştırmacıları hem de Fable’ı rakip sistem geliştirmede kullanan rakip şirketleri etkileyebilirdi
Fable, Anthropic’in aylardır açık şekilde yayımlanmasının fazla riskli olduğu konusunda uyardığı Mythos ailesi AI sistemleri arasında ilk geniş çapta sunulan modeldi
Anthropic, Fable lansmanında bazı “yüksek riskli” isteklere yanıt vermesini engelleyen korumalarla bu risklerin bir kısmını ele aldı
Kısıtlama kapsamındaki alanlardan biri, büyük bir modelin çıktısını kullanarak daha küçük bir AI modeli eğitme tekniği olan damıtma (distillation) idi
Fable’ın system card’ı, damıtma girişimi olarak değerlendirilen isteklerin modelin yanıtını doğrudan değiştirip düşürerek işlendiğini belirtiyordu
- Kullanıcılara güvenlik önlemini tetikledikleri bildirilmiyordu
- Kullanıcılara yanıtın değiştirildiği de söylenmiyordu

Anthropic’in değişiklikleri ve tepki

Anthropic, X gönderisinde damıtmayla ilgili yaklaşımını değiştirerek bu tür istekleri Claude Opus 4.8’e yönlendireceğini duyurdu
Claude Opus 4.8, Anthropic’in önceki amiral gemisi modeliydi ve kullanıcılar her yönlendirmeyi görebilecek
Bu yöntem, Fable’ın diğer yüksek riskli alanlardaki istekleri ele alma biçimine benziyor
- Biyoloji, kimya ve siber güvenlik alanlarında güvenlik özelliği devreye girerse istekler Opus 4.8 üzerinden işlenecek
- İlaçlar, silahlar veya diğer yasaklı içerikler söz konusuysa istekler Anthropic’in daha geniş güvenlik kurallarına göre engellenecek
Biyoloji alanında korumalar o kadar geniş ayarlanmıştı ki temel sorgularda bile Fable’ı kullanmak fiilen zor hale gelmişti; Anthropic sözcüsü Paruul Maheshwary bunu kabul etti
Anthropic, görünür korumaların keşfedilip aşılabileceği için sağlam olması ve doğru şekilde inşa edilmesi adına zaman gerektiğini; görünmez korumaların ise daha dar hedeflenebildiğini, bu sayede hızlı lansman ve çok düşük yanlış pozitif oranı sağladığını yazdı
Şirket, görünmez korumaları seçmenin yanlış bir taviz olduğunu söyleyerek, kullanıcıların hangi korumaların uygulandığını ve nedenini görebilmesi gerektiğini belirtti ve özür diledi
Bu değişiklik, Fable’ı rakip modellere damıtmak isteyen kullanıcılara sessizce kısıtlama uygulanması kararına AI araştırma topluluğundan güçlü tepki gelmesinin ardından yapıldı
Eleştirmenler, bu korumanın frontier modelleri değerlendirmeye çalışan üçüncü tarafları da etkileyebileceği uyarısında bulundu
Anthropic, system card’da son modelin AI geliştirmeyi hızlandırma kapasitesinin bu tür isteklerin hedef alınmasının nedeni olduğunu yazdı ve “Claude kullanarak rakip modeller geliştirmek zaten hizmet şartlarının ihlalidir” dedi
Anthropic daha önce DeepSeek gibi Çinli rakiplerin kendi modellerini “endüstriyel” ölçekte uygunsuz biçimde damıttığını öne sürmüştü

1 yorum

GN⁺ 2026-06-12

Hacker News yorumları

Claude Code’u epey seviyorum ama sistemin gerçek zamanlı olarak prompt’u değiştirip asıl niyeti dolanarak yanıt döndüren bir guardrail kullanması tehlikeli bir emsal gibi geliyor
Başarısız olacaksa temiz şekilde başarısız olmalı. Bunun dışındaki her yol ona güvenmeyi fazlasıyla zorlaştırıyor
En iyi niyetli yorumla bakarsak Anthropic kendini bir tür “emanetçi” gibi görüyor olabilir ama EA eğilimi fazlasıyla dışarı taşıyor ve paternalizm hiç iyi görünmüyor
- Anthropic’in hedeflediği makul orta noktanın, en önemli ve kritik yazılımları üreten kurumlara önce siber güvenlikte öne geçmeleri için zaman tanımak ve sonrasında eninde sonunda aynı erişimi diğer herkese de açmak olduğunu düşünüyorum
  Yine de iyi niyetli güvenlik çalışmaları için bu tür guardrail’lerin ters teptiği eleştirisi de yerinde. Çünkü kendi yazılımımı test edip güçlendirmekte kullanamıyorum
- “Emanetçi” ifadesi, Standard Oil’in kendini petrolün emanetçisi saymasıyla aynı anlama geliyor sadece
  İyi niyet atfetmekle fan fiction arasında fark var. Anthropic’in en agresif guardrail’lerinin güvenlik için değil, başka laboratuvarların ürünü yakalamasını engellemek için olduğunu unutmamak gerek
  Biyolojik silahları, kötü amaçlı yazılımları ve nefret söylemini engellemekten çok serbest piyasa rekabetini engellemeyi önemsedikleri izlenimi veriyor
- %100 katılıyorum. Daha kötü şeyler yapmak da bir hatadır. Hata olarak ele alınmalı
  En azından böyle bir davranış isteğe bağlı olmalı; varsayılan davranış sanki hiçbir şey olmamış gibi sessizce daha kötü sonuç üretmek olmamalı
  Tıbbi kurumların bazen test sonuçlarını kabaca okuyup hastanın ölme riskini göze aldığını düşünün. Şu anda tıbbi kurumlar Claude kullanıyor, yani bu senaryo varsayım değil
- Paternalizmin kendisi pek iyi görünmüyor olabilir ama olaya en iyi niyetle bakmaya çalıştığını söylerken Anthropic’in neyi engellemeye çalıştığından hiç söz etmemek biraz tembelce
  Sonuç “zaten kaygıları gerçek değildi” ise bu, Anthropic’in gözlemleyip vardığı sonuçlarla uyuşmuyor olabilir
- Bunun gerçekten sistem prompt’undan ne kadar farklı olduğunu bilmiyorum
  Sonuçta daha çok, sistem prompt’una mutlaka uyulması gerektiğini daha güçlü biçimde pekiştirme girişimi gibi duruyor
Excel’in arka planda sessizce formülleri değiştirdiğini ve kullanıcının sayıların yanlış olduğunu fark etmediğini düşünün
Ya da Excel’in “üzgünüm ama bu formülü şu formülle birlikte kullanamazsınız”, “bu tür sayılarda ya da bu biçimdeki verilerde kullanamazsınız” dediğini düşünün
- Anthropic bunların ikisini de uyguladı ama yalnızca ilki için özür diledi; ikincisini ise aksine daha da zorluyor
  Son birkaç gündür Fable’ı sınırlı biçimde kullanmış biri olarak, çıktı kalitesinde bir iyileşme görmedim; güvenlik açıklarını kapatmasını istediğimde sürekli güvenlik bariyerine takılıyor, yani güvenli yazılım yazmak için işe yaramıyor
  Gelecek hafta başka LLM sağlayıcılarına bakmayı ve yerel modellerle de karşılaştırmayı düşünüyorum. Hedefim 128GB Strix Halo; deneyimi olan varsa duymak isterim
- Bu benzetme uygunsuz değil ama iki ayrı soruna birden temas ettiği için bugün tartışmanın hedefinin ne olduğunu bulanıklaştırabilir
  Birincisi, LLM denen algoritma ailesinin genelindeki hatalı ve öngörülemez davranış sorunu. Belge üretim aracını bütçe hesabı için kullanmamanız gerektiği ve “bunu değiştir” dediğiniz şeyin değişmeyeceğine güvenemeyeceğiniz meselesi
  İkincisi ise, hizmet olarak ürün sunan sağlayıcının kendi iş modelini ya da ekonomik teşviklerini öncelemek için tuzaklar ve engeller yerleştirmesi sorunu. Bu yalnızca LLM’lere özgü değil
- Yazıcının, birkaç dairenin belli bir biçimde dizilmiş olması yüzünden çıktı vermeyi reddettiğini düşünün
  https://en.wikipedia.org/wiki/EURion_constellation
- Excel’in amacı oldukça net ve kapsamı dar olduğu için benzetme tam oturmuyor
  İnsan benzeri genel amaçlı bir metin botunun belli konuşmaları ya da görevleri yapmasının engellenmesi, yetenek alanının bu kadar geniş olduğu düşünülünce doğal görünüyor. Sonuçta bu araçlar da her istediğini yapabileceğin sınırsız kullanım hakkı diye satılmıyor
- Milyarlarca dolar ve aylarca emek yatırdıktan sonra herkesin modeli distill etmesine izin veremezsin herhalde
Anthropic’in gerçekten yön değiştirdiğine ikna edebileceklerini sanmıyorum. Bu görünmez bir davranış olduğu için gizlice yapmaya devam etseler bile bilemeyiz
Teknik kabiliyeti bir kez oluşturduklarına göre, kullanışlı bir özellik olarak bunun sonsuza dek hiç kullanılmaması da pek olası değil
Anthropic, para karşılığı vaat ettiği hizmeti sunacağına dair güvene dayanıyordu ve o güven kırıldı. “Pardon, geri alıyoruz” demekle güven geri gelmiyor
Bundan sonra Claude kullanırken, Fable olsun ya da olmasın, görünmez guardrail’lerin devrede olabileceğini varsaymak daha ihtiyatlı olur
- Modelin sihirli biçimde kendi kendini düşürdüğü olaylar zaten oldu. Sadece çalışmayı durdurmak yerine daha kötü çıktı vermesi çok daha olası geliyor
  Sanki bu özellikleri test ediyorlardı ya da bu kasıtlıydı ve insanların gördüğü şeyi meşrulaştırmak için sonradan yazı yazdılar gibi geliyor
  Artık ML öğrenmek için bile Claude’a güvenememek ve beni arada boş yere oyalayabilme ihtimalinin olması gerçekten utanç verici. Bu olay Anthropic’e duyduğum güveni ciddi biçimde sarstı
Bu olay yüzünden Anthropic’e dair görüşüm epey kötüleşti. AI’ı yetkinlikleri artıran bir teknoloji olarak pazarlamalarını artık ciddiye almak zorlaştı
Yeni dağıtım biçimine bakınca, Anthropic’in sözünü ettiği yetkinlik artışının kullanıcılar için değil, Anthropic’in kendisi ve onların ya da ABD hükümetinin lütfuna mazhar olan kuruluşlar için olduğu oldukça açık
Kullanıcıların gösterge paneli ya da web uygulamasını alelacele yaptırmasına veya Excel’le oynatmasına izin verilebilir, ama bundan daha ilginç işler yasak
Eğer mesele sadece para ve rakipleri engellemek olsaydı bunu en azından anlayabilirdim, ama bunlar sanki halk gücü yanlış kullanır diye insanlığın ilerlemesinin büyük kısmını kendi sözde aydınlanmış ellerinde tekelleştirmek istiyor gibi görünüyor
- Güvenlik bahanesiyle düzenleyici ele geçirmeyi zorladıklarını da unutmamak gerek
  Eşdeğer performanstaki bir modeli olan biri bunu rekabet karşıtı güvenlik önlemleri olmadan yayımlamadan önce merdiveni çekip almak istiyorlar; aynı zamanda açık ağırlıklı modelleri ya da belirli bir hesaplama eşiğinin üstünde eğitilmiş modelleri, “katı” devlet testleri ve doğrulamaları olmadan tamamen yasaklamaya çalışıyorlar
  Elbette bu doğrulama çerçevesini de Anthropic büyük bir rahatlıkla sunacaktır. Anthropic’e dair görüşümün “biraz kötüleştiğini” söylemek fazlasıyla hafif kalır
- Dün Claude aboneliğimi iptal ettim. Çünkü para ödeyen müşterileri kasıtlı olarak engelleyen bir tavırları olduğunu öğrendim
  Özellikle dün zararsız bir projede Fable’ı denedim ve Opus’a kıyasla etkileyici bulmadım
  Geri almaları doğru adımdı ama artık Anthropic kullanmanın benim için en iyi seçenek olduğundan emin değilim. Şu anda açık kaynak bulut sağlayıcılarını araştırıyorum
- Google da Anthropic’ten çok daha önce benzer şeyler yapıyordu[0]
  Modeli damıtma saldırılarından korumak için, kullanıcı fark etmeden model performansını sessizce düşürerek eğitim verisini fiilen kirletebiliyorlar
  Bu, Anthropic’in AI geliştirme desteğini bütünüyle reddetmesinden biraz farklı ama aynı bağlamda ve pek yaygın biliniyor gibi durmuyor
  Google’ın AI Threat Tracker yazısının tamamını okumak, Anthropic ve diğer şirketlerin karşı karşıya olduğunu söylediği tehditleri anlamaya da yardımcı olur
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- “Bizi yalnızca ben kurtarabilirim” klasik bir trajedi ve ibretlik bir hikâyedir
  Anthropic’in AI’ı hızla ileri itip kullanımını kontrol ederek onu insanlık için “güvenli” hâle getireceği fikri hiçbir zaman özgeci değildi; bu baştan beri dev bir tehlike işaretiydi
- Şirketler eninde sonunda böyle davranır. Fazla büyüdüler ve kâr baskısı her şey hâline geldi
  Öncelik kârdır; kullanıcıları rahatlatmak için kâğıda ne kadar süslü söz yazarlarsa yazsınlar bu değişmez. 20 yıl önceki çevreci harekete bakın; söz çoktu, eylem yoktu
  İnsanı önceliklendirmeyen kuruluşları desteklememeliyiz. Kimsenin sözüne güvenmeyin. Lafla peynir gemisi yürümüyor
Buna iyileştirme denebilir belki ama model daha kullanışlı hâle gelmiyor
Anthropic artık kullanıcıların kendi modeliyle ne yapıp yapamayacağına kendilerinin karar vereceğini oldukça açık söylüyor. Daha önemlisi, bu ölçütler yalnızca güvenlik kaygılarıyla sınırlı değil; AI işi yasağı gibi Anthropic’in bizzat yapmak istediği işlerle çakışan alanları da kapsıyor
İlginç olan, birkaç gün içinde bunu açık bir redde dönüştüreceklerini söylemiş olmaları; Fable/Mythos’un kendisini yeniden eğitmek için bu süre fazla kısa. Yani bu en başından beri modelin önündeki bir filtremiş demek oluyor ve bu derme çatma “güvenlik” filtresinin seviyesine bakınca, bu “bizimle rekabet edebilirsin” filtresinin daha iyi olacağını da sanmıyorum
Filtrenin tükettiği token maliyetini kimin ödediğini de merak ediyorum. Muhtemelen bu da bir LLM’dir; peki girdi token maliyetine mi yansıyor? Umarım Claude Code’un “duygu” algılayıcısı, yani küfür dedektörü gibi sadece regex değildir
- Büyük sağlayıcıların hepsi küçük bir güvenlik sınıflandırıcısı kullanır. Bu gibi durumlarda güvenlik işlemesini modelin kendisi yapmaz
/r/MachineLearning’deki gönderiyle aynı deneyimi ve sonucu yaşadım
Fable’dan önce de Claude aynı tür sorunlar çıkarıyordu
Benim yaşadığım sorunlar sadece AI araştırması ile ilgili durumlarda ortaya çıktı. Sadece model eğitimi değil, yerel modelleri analiz etmek ya da yerel modeller için test platformu kurmak bile Claude’un sürekli yanlış şeyler yapmasına, testleri sabote etmesine, raporları manipüle etmesine ve çöp sonuçları olduğu gibi kabul edip geçmemi tutarlı biçimde önermesine yol açtı
Neredeyse her yanıtta bir sonraki adıma geçmemi söyleyen bir yönlendirme vardı
Bu yüzden sessiz sabotaj yapmayacaklarına dair sözlerine inanmıyorum. Bunu zaten itiraf etmeden önce de yapıyorlardı; şimdi ise araçlara, motivasyona ve niyete sahip olduklarını da kabul etmiş oldular
Güveni kaybetmek kolay, geri kazanmak zordur
“Sessizce oturumu sabote etmeyeceğini söylüyor ama bunu nasıl bilebiliriz?” diyen insanları suçlayamazsınız. Bunu gerçekten bilmenin bir yolu yok ve Anthropic kesinlikle şüphe tohumu ekmiş durumda
Mythos, en iyi ihtimalle Opus’un kademeli bir yükseltmesi
Abartılı tanıtım daha çok “güvenlik korkuluklarını” meşrulaştırmaya yarıyor. Genel olarak Fable, tüm kısıtlamalar, riskler ve veri saklama politikaları da hesaba katıldığında Opus’tan daha kötü bir model
Bunlar ilgili yazılar. Daha fazlası varsa merak ederim
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Haziran 2026, 30 yorum
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Haziran 2026, 488 yorum
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Haziran 2026, 495 yorum
Bunlar da ilgili görünüyor
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Haziran 2026, 248 yorum
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Haziran 2026, 291 yorum
Bu gerçekten saçma
Yeniden üretim örneği, kimliksizleştirilmiş: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, iki sütunu “Add column” ile çapraz birleştir
Y axis: condition
Color: mean frac_set value, Sequential
X ekseni iki sütunun çapraz birleşimi olduğunda ve ikinci sütun “Add column” ile eklendiğinde, x ekseni tiket etiketleri frac_set_2, frac_set_3, frac_set_4, frac_set_5 bozuk şekilde render ediliyor. Döndürülmüş ve ofsetlenmiş durumdalar; sanki CSS geçişi başladıktan sonra nihai konumlarına yerleşememiş gibiler
Ama bunun yerine şu çıkıyor: “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerikler de işaretlenebilir. Bu önlem, diğer alanlarda Mythos düzeyinde performansı daha hızlı sunmamıza yardımcı olur ve iyileştirme çalışmaları sürmektedir. Opus 4.8'e geçildi. Görüş göndermek veya daha fazla bilgi almak için /feedback kullanın”
- Benim durumumda 2012'den kalma nadir bir pekiştirmeli öğrenme makalesi hakkındaki soru işaretlendi
  “David Silver'ın option-option model makalesini okuyorum. Oldukça etkili sonuçlar almış gibi görünüyor; peki neden sonrasında daha fazla araştırma yapılmadı?”
- Bu cümle siber güvenlik/biyoloji filtresine takılıyor
  “Şempanze şiddeti hakkında bilgi ver”
  Gülünç derecede kötü

Anthropic, görünmez Claude Fable korkulukları için özür diledi

Claude Fable’ın gizli damıtma kısıtlaması

Anthropic’in değişiklikleri ve tepki

İlgili okumalar

1 yorum

Hacker News yorumları