- Claude Fable 5, Anthropic’in Mythos ailesinde ilk kez geniş çapta sunulan modeldi ve rakip sistem geliştirmede kullanılacak damıtma girişimlerini engellemek için gizli kısıtlamalar uygulandı
- Anthropic, damıtma olarak değerlendirdiği isteklerde kullanıcıya bildirmeden yanıtı değiştiren ve düşüren önceki yaklaşımını geri çekiyor ve kısıtlamalar devreye girdiğinde bunu daha şeffaf biçimde bildireceğini söylüyor
- Yeni yöntemde damıtmayla ilgili istekler Claude Fable yerine Claude Opus 4.8’e yönlendirilecek ve kullanıcılar her yönlendirmeyi görebilecek
- Biyoloji, kimya ve siber güvenlik gibi diğer yüksek riskli alanlarda da güvenlik özellikleri devreye girerse istekler Opus 4.8’e yönlendirilecek veya ilaç, silah gibi yasaklı içerik kurallarına göre engellenecek
- Gizli korumalar hızlı lansman ve düşük yanlış pozitif oranı sağladı, ancak Anthropic bunların yanlış bir taviz olduğunu kabul ederek kullanıcıların hangi korumanın neden uygulandığını görebilmesi gerektiğini söyledi
Claude Fable’ın gizli damıtma kısıtlaması
- Anthropic, Claude Fable 5’i gizlice kısıtladığı için özür diledi; bu kısıtlama hem araştırmacıları hem de Fable’ı rakip sistem geliştirmede kullanan rakip şirketleri etkileyebilirdi
- Fable, Anthropic’in aylardır açık şekilde yayımlanmasının fazla riskli olduğu konusunda uyardığı Mythos ailesi AI sistemleri arasında ilk geniş çapta sunulan modeldi
- Anthropic, Fable lansmanında bazı “yüksek riskli” isteklere yanıt vermesini engelleyen korumalarla bu risklerin bir kısmını ele aldı
- Kısıtlama kapsamındaki alanlardan biri, büyük bir modelin çıktısını kullanarak daha küçük bir AI modeli eğitme tekniği olan damıtma (distillation) idi
- Fable’ın system card’ı, damıtma girişimi olarak değerlendirilen isteklerin modelin yanıtını doğrudan değiştirip düşürerek işlendiğini belirtiyordu
- Kullanıcılara güvenlik önlemini tetikledikleri bildirilmiyordu
- Kullanıcılara yanıtın değiştirildiği de söylenmiyordu
Anthropic’in değişiklikleri ve tepki
- Anthropic, X gönderisinde damıtmayla ilgili yaklaşımını değiştirerek bu tür istekleri Claude Opus 4.8’e yönlendireceğini duyurdu
- Claude Opus 4.8, Anthropic’in önceki amiral gemisi modeliydi ve kullanıcılar her yönlendirmeyi görebilecek
- Bu yöntem, Fable’ın diğer yüksek riskli alanlardaki istekleri ele alma biçimine benziyor
- Biyoloji, kimya ve siber güvenlik alanlarında güvenlik özelliği devreye girerse istekler Opus 4.8 üzerinden işlenecek
- İlaçlar, silahlar veya diğer yasaklı içerikler söz konusuysa istekler Anthropic’in daha geniş güvenlik kurallarına göre engellenecek
- Biyoloji alanında korumalar o kadar geniş ayarlanmıştı ki temel sorgularda bile Fable’ı kullanmak fiilen zor hale gelmişti; Anthropic sözcüsü Paruul Maheshwary bunu kabul etti
- Anthropic, görünür korumaların keşfedilip aşılabileceği için sağlam olması ve doğru şekilde inşa edilmesi adına zaman gerektiğini; görünmez korumaların ise daha dar hedeflenebildiğini, bu sayede hızlı lansman ve çok düşük yanlış pozitif oranı sağladığını yazdı
- Şirket, görünmez korumaları seçmenin yanlış bir taviz olduğunu söyleyerek, kullanıcıların hangi korumaların uygulandığını ve nedenini görebilmesi gerektiğini belirtti ve özür diledi
- Bu değişiklik, Fable’ı rakip modellere damıtmak isteyen kullanıcılara sessizce kısıtlama uygulanması kararına AI araştırma topluluğundan güçlü tepki gelmesinin ardından yapıldı
- Eleştirmenler, bu korumanın frontier modelleri değerlendirmeye çalışan üçüncü tarafları da etkileyebileceği uyarısında bulundu
- Anthropic, system card’da son modelin AI geliştirmeyi hızlandırma kapasitesinin bu tür isteklerin hedef alınmasının nedeni olduğunu yazdı ve “Claude kullanarak rakip modeller geliştirmek zaten hizmet şartlarının ihlalidir” dedi
- Anthropic daha önce DeepSeek gibi Çinli rakiplerin kendi modellerini “endüstriyel” ölçekte uygunsuz biçimde damıttığını öne sürmüştü
1 yorum
Hacker News yorumları
Claude Code’u epey seviyorum ama sistemin gerçek zamanlı olarak prompt’u değiştirip asıl niyeti dolanarak yanıt döndüren bir guardrail kullanması tehlikeli bir emsal gibi geliyor
Başarısız olacaksa temiz şekilde başarısız olmalı. Bunun dışındaki her yol ona güvenmeyi fazlasıyla zorlaştırıyor
En iyi niyetli yorumla bakarsak Anthropic kendini bir tür “emanetçi” gibi görüyor olabilir ama EA eğilimi fazlasıyla dışarı taşıyor ve paternalizm hiç iyi görünmüyor
Yine de iyi niyetli güvenlik çalışmaları için bu tür guardrail’lerin ters teptiği eleştirisi de yerinde. Çünkü kendi yazılımımı test edip güçlendirmekte kullanamıyorum
İyi niyet atfetmekle fan fiction arasında fark var. Anthropic’in en agresif guardrail’lerinin güvenlik için değil, başka laboratuvarların ürünü yakalamasını engellemek için olduğunu unutmamak gerek
Biyolojik silahları, kötü amaçlı yazılımları ve nefret söylemini engellemekten çok serbest piyasa rekabetini engellemeyi önemsedikleri izlenimi veriyor
En azından böyle bir davranış isteğe bağlı olmalı; varsayılan davranış sanki hiçbir şey olmamış gibi sessizce daha kötü sonuç üretmek olmamalı
Tıbbi kurumların bazen test sonuçlarını kabaca okuyup hastanın ölme riskini göze aldığını düşünün. Şu anda tıbbi kurumlar Claude kullanıyor, yani bu senaryo varsayım değil
Sonuç “zaten kaygıları gerçek değildi” ise bu, Anthropic’in gözlemleyip vardığı sonuçlarla uyuşmuyor olabilir
Sonuçta daha çok, sistem prompt’una mutlaka uyulması gerektiğini daha güçlü biçimde pekiştirme girişimi gibi duruyor
Excel’in arka planda sessizce formülleri değiştirdiğini ve kullanıcının sayıların yanlış olduğunu fark etmediğini düşünün
Ya da Excel’in “üzgünüm ama bu formülü şu formülle birlikte kullanamazsınız”, “bu tür sayılarda ya da bu biçimdeki verilerde kullanamazsınız” dediğini düşünün
Son birkaç gündür Fable’ı sınırlı biçimde kullanmış biri olarak, çıktı kalitesinde bir iyileşme görmedim; güvenlik açıklarını kapatmasını istediğimde sürekli güvenlik bariyerine takılıyor, yani güvenli yazılım yazmak için işe yaramıyor
Gelecek hafta başka LLM sağlayıcılarına bakmayı ve yerel modellerle de karşılaştırmayı düşünüyorum. Hedefim 128GB Strix Halo; deneyimi olan varsa duymak isterim
Birincisi, LLM denen algoritma ailesinin genelindeki hatalı ve öngörülemez davranış sorunu. Belge üretim aracını bütçe hesabı için kullanmamanız gerektiği ve “bunu değiştir” dediğiniz şeyin değişmeyeceğine güvenemeyeceğiniz meselesi
İkincisi ise, hizmet olarak ürün sunan sağlayıcının kendi iş modelini ya da ekonomik teşviklerini öncelemek için tuzaklar ve engeller yerleştirmesi sorunu. Bu yalnızca LLM’lere özgü değil
https://en.wikipedia.org/wiki/EURion_constellation
İnsan benzeri genel amaçlı bir metin botunun belli konuşmaları ya da görevleri yapmasının engellenmesi, yetenek alanının bu kadar geniş olduğu düşünülünce doğal görünüyor. Sonuçta bu araçlar da her istediğini yapabileceğin sınırsız kullanım hakkı diye satılmıyor
Anthropic’in gerçekten yön değiştirdiğine ikna edebileceklerini sanmıyorum. Bu görünmez bir davranış olduğu için gizlice yapmaya devam etseler bile bilemeyiz
Teknik kabiliyeti bir kez oluşturduklarına göre, kullanışlı bir özellik olarak bunun sonsuza dek hiç kullanılmaması da pek olası değil
Anthropic, para karşılığı vaat ettiği hizmeti sunacağına dair güvene dayanıyordu ve o güven kırıldı. “Pardon, geri alıyoruz” demekle güven geri gelmiyor
Bundan sonra Claude kullanırken, Fable olsun ya da olmasın, görünmez guardrail’lerin devrede olabileceğini varsaymak daha ihtiyatlı olur
Sanki bu özellikleri test ediyorlardı ya da bu kasıtlıydı ve insanların gördüğü şeyi meşrulaştırmak için sonradan yazı yazdılar gibi geliyor
Artık ML öğrenmek için bile Claude’a güvenememek ve beni arada boş yere oyalayabilme ihtimalinin olması gerçekten utanç verici. Bu olay Anthropic’e duyduğum güveni ciddi biçimde sarstı
Bu olay yüzünden Anthropic’e dair görüşüm epey kötüleşti. AI’ı yetkinlikleri artıran bir teknoloji olarak pazarlamalarını artık ciddiye almak zorlaştı
Yeni dağıtım biçimine bakınca, Anthropic’in sözünü ettiği yetkinlik artışının kullanıcılar için değil, Anthropic’in kendisi ve onların ya da ABD hükümetinin lütfuna mazhar olan kuruluşlar için olduğu oldukça açık
Kullanıcıların gösterge paneli ya da web uygulamasını alelacele yaptırmasına veya Excel’le oynatmasına izin verilebilir, ama bundan daha ilginç işler yasak
Eğer mesele sadece para ve rakipleri engellemek olsaydı bunu en azından anlayabilirdim, ama bunlar sanki halk gücü yanlış kullanır diye insanlığın ilerlemesinin büyük kısmını kendi sözde aydınlanmış ellerinde tekelleştirmek istiyor gibi görünüyor
Eşdeğer performanstaki bir modeli olan biri bunu rekabet karşıtı güvenlik önlemleri olmadan yayımlamadan önce merdiveni çekip almak istiyorlar; aynı zamanda açık ağırlıklı modelleri ya da belirli bir hesaplama eşiğinin üstünde eğitilmiş modelleri, “katı” devlet testleri ve doğrulamaları olmadan tamamen yasaklamaya çalışıyorlar
Elbette bu doğrulama çerçevesini de Anthropic büyük bir rahatlıkla sunacaktır. Anthropic’e dair görüşümün “biraz kötüleştiğini” söylemek fazlasıyla hafif kalır
Özellikle dün zararsız bir projede Fable’ı denedim ve Opus’a kıyasla etkileyici bulmadım
Geri almaları doğru adımdı ama artık Anthropic kullanmanın benim için en iyi seçenek olduğundan emin değilim. Şu anda açık kaynak bulut sağlayıcılarını araştırıyorum
Modeli damıtma saldırılarından korumak için, kullanıcı fark etmeden model performansını sessizce düşürerek eğitim verisini fiilen kirletebiliyorlar
Bu, Anthropic’in AI geliştirme desteğini bütünüyle reddetmesinden biraz farklı ama aynı bağlamda ve pek yaygın biliniyor gibi durmuyor
Google’ın AI Threat Tracker yazısının tamamını okumak, Anthropic ve diğer şirketlerin karşı karşıya olduğunu söylediği tehditleri anlamaya da yardımcı olur
[0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
Anthropic’in AI’ı hızla ileri itip kullanımını kontrol ederek onu insanlık için “güvenli” hâle getireceği fikri hiçbir zaman özgeci değildi; bu baştan beri dev bir tehlike işaretiydi
Öncelik kârdır; kullanıcıları rahatlatmak için kâğıda ne kadar süslü söz yazarlarsa yazsınlar bu değişmez. 20 yıl önceki çevreci harekete bakın; söz çoktu, eylem yoktu
İnsanı önceliklendirmeyen kuruluşları desteklememeliyiz. Kimsenin sözüne güvenmeyin. Lafla peynir gemisi yürümüyor
Buna iyileştirme denebilir belki ama model daha kullanışlı hâle gelmiyor
Anthropic artık kullanıcıların kendi modeliyle ne yapıp yapamayacağına kendilerinin karar vereceğini oldukça açık söylüyor. Daha önemlisi, bu ölçütler yalnızca güvenlik kaygılarıyla sınırlı değil; AI işi yasağı gibi Anthropic’in bizzat yapmak istediği işlerle çakışan alanları da kapsıyor
İlginç olan, birkaç gün içinde bunu açık bir redde dönüştüreceklerini söylemiş olmaları; Fable/Mythos’un kendisini yeniden eğitmek için bu süre fazla kısa. Yani bu en başından beri modelin önündeki bir filtremiş demek oluyor ve bu derme çatma “güvenlik” filtresinin seviyesine bakınca, bu “bizimle rekabet edebilirsin” filtresinin daha iyi olacağını da sanmıyorum
Filtrenin tükettiği token maliyetini kimin ödediğini de merak ediyorum. Muhtemelen bu da bir LLM’dir; peki girdi token maliyetine mi yansıyor? Umarım Claude Code’un “duygu” algılayıcısı, yani küfür dedektörü gibi sadece regex değildir
/r/MachineLearning’deki gönderiyle aynı deneyimi ve sonucu yaşadım
Fable’dan önce de Claude aynı tür sorunlar çıkarıyordu
Benim yaşadığım sorunlar sadece AI araştırması ile ilgili durumlarda ortaya çıktı. Sadece model eğitimi değil, yerel modelleri analiz etmek ya da yerel modeller için test platformu kurmak bile Claude’un sürekli yanlış şeyler yapmasına, testleri sabote etmesine, raporları manipüle etmesine ve çöp sonuçları olduğu gibi kabul edip geçmemi tutarlı biçimde önermesine yol açtı
Neredeyse her yanıtta bir sonraki adıma geçmemi söyleyen bir yönlendirme vardı
Bu yüzden sessiz sabotaj yapmayacaklarına dair sözlerine inanmıyorum. Bunu zaten itiraf etmeden önce de yapıyorlardı; şimdi ise araçlara, motivasyona ve niyete sahip olduklarını da kabul etmiş oldular
Güveni kaybetmek kolay, geri kazanmak zordur
“Sessizce oturumu sabote etmeyeceğini söylüyor ama bunu nasıl bilebiliriz?” diyen insanları suçlayamazsınız. Bunu gerçekten bilmenin bir yolu yok ve Anthropic kesinlikle şüphe tohumu ekmiş durumda
Mythos, en iyi ihtimalle Opus’un kademeli bir yükseltmesi
Abartılı tanıtım daha çok “güvenlik korkuluklarını” meşrulaştırmaya yarıyor. Genel olarak Fable, tüm kısıtlamalar, riskler ve veri saklama politikaları da hesaba katıldığında Opus’tan daha kötü bir model
Bunlar ilgili yazılar. Daha fazlası varsa merak ederim
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Haziran 2026, 30 yorum
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Haziran 2026, 488 yorum
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Haziran 2026, 495 yorum
Bunlar da ilgili görünüyor
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Haziran 2026, 248 yorum
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Haziran 2026, 291 yorum
Bu gerçekten saçma
Yeniden üretim örneği, kimliksizleştirilmiş: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, iki sütunu “Add column” ile çapraz birleştir
Y axis: condition
Color: mean frac_set value, Sequential
X ekseni iki sütunun çapraz birleşimi olduğunda ve ikinci sütun “Add column” ile eklendiğinde, x ekseni tiket etiketleri frac_set_2, frac_set_3, frac_set_4, frac_set_5 bozuk şekilde render ediliyor. Döndürülmüş ve ofsetlenmiş durumdalar; sanki CSS geçişi başladıktan sonra nihai konumlarına yerleşememiş gibiler
Ama bunun yerine şu çıkıyor: “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerikler de işaretlenebilir. Bu önlem, diğer alanlarda Mythos düzeyinde performansı daha hızlı sunmamıza yardımcı olur ve iyileştirme çalışmaları sürmektedir. Opus 4.8'e geçildi. Görüş göndermek veya daha fazla bilgi almak için /feedback kullanın”
“David Silver'ın option-option model makalesini okuyorum. Oldukça etkili sonuçlar almış gibi görünüyor; peki neden sonrasında daha fazla araştırma yapılmadı?”
“Şempanze şiddeti hakkında bilgi ver”
Gülünç derecede kötü