1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Claude Fable 5, Anthropic’in Mythos ailesinde ilk kez geniş çapta sunulan modeldi ve rakip sistem geliştirmede kullanılacak damıtma girişimlerini engellemek için gizli kısıtlamalar uygulandı
  • Anthropic, damıtma olarak değerlendirdiği isteklerde kullanıcıya bildirmeden yanıtı değiştiren ve düşüren önceki yaklaşımını geri çekiyor ve kısıtlamalar devreye girdiğinde bunu daha şeffaf biçimde bildireceğini söylüyor
  • Yeni yöntemde damıtmayla ilgili istekler Claude Fable yerine Claude Opus 4.8’e yönlendirilecek ve kullanıcılar her yönlendirmeyi görebilecek
  • Biyoloji, kimya ve siber güvenlik gibi diğer yüksek riskli alanlarda da güvenlik özellikleri devreye girerse istekler Opus 4.8’e yönlendirilecek veya ilaç, silah gibi yasaklı içerik kurallarına göre engellenecek
  • Gizli korumalar hızlı lansman ve düşük yanlış pozitif oranı sağladı, ancak Anthropic bunların yanlış bir taviz olduğunu kabul ederek kullanıcıların hangi korumanın neden uygulandığını görebilmesi gerektiğini söyledi

Claude Fable’ın gizli damıtma kısıtlaması

  • Anthropic, Claude Fable 5’i gizlice kısıtladığı için özür diledi; bu kısıtlama hem araştırmacıları hem de Fable’ı rakip sistem geliştirmede kullanan rakip şirketleri etkileyebilirdi
  • Fable, Anthropic’in aylardır açık şekilde yayımlanmasının fazla riskli olduğu konusunda uyardığı Mythos ailesi AI sistemleri arasında ilk geniş çapta sunulan modeldi
  • Anthropic, Fable lansmanında bazı “yüksek riskli” isteklere yanıt vermesini engelleyen korumalarla bu risklerin bir kısmını ele aldı
  • Kısıtlama kapsamındaki alanlardan biri, büyük bir modelin çıktısını kullanarak daha küçük bir AI modeli eğitme tekniği olan damıtma (distillation) idi
  • Fable’ın system card’ı, damıtma girişimi olarak değerlendirilen isteklerin modelin yanıtını doğrudan değiştirip düşürerek işlendiğini belirtiyordu
    • Kullanıcılara güvenlik önlemini tetikledikleri bildirilmiyordu
    • Kullanıcılara yanıtın değiştirildiği de söylenmiyordu

Anthropic’in değişiklikleri ve tepki

  • Anthropic, X gönderisinde damıtmayla ilgili yaklaşımını değiştirerek bu tür istekleri Claude Opus 4.8’e yönlendireceğini duyurdu
  • Claude Opus 4.8, Anthropic’in önceki amiral gemisi modeliydi ve kullanıcılar her yönlendirmeyi görebilecek
  • Bu yöntem, Fable’ın diğer yüksek riskli alanlardaki istekleri ele alma biçimine benziyor
    • Biyoloji, kimya ve siber güvenlik alanlarında güvenlik özelliği devreye girerse istekler Opus 4.8 üzerinden işlenecek
    • İlaçlar, silahlar veya diğer yasaklı içerikler söz konusuysa istekler Anthropic’in daha geniş güvenlik kurallarına göre engellenecek
  • Biyoloji alanında korumalar o kadar geniş ayarlanmıştı ki temel sorgularda bile Fable’ı kullanmak fiilen zor hale gelmişti; Anthropic sözcüsü Paruul Maheshwary bunu kabul etti
  • Anthropic, görünür korumaların keşfedilip aşılabileceği için sağlam olması ve doğru şekilde inşa edilmesi adına zaman gerektiğini; görünmez korumaların ise daha dar hedeflenebildiğini, bu sayede hızlı lansman ve çok düşük yanlış pozitif oranı sağladığını yazdı
  • Şirket, görünmez korumaları seçmenin yanlış bir taviz olduğunu söyleyerek, kullanıcıların hangi korumaların uygulandığını ve nedenini görebilmesi gerektiğini belirtti ve özür diledi
  • Bu değişiklik, Fable’ı rakip modellere damıtmak isteyen kullanıcılara sessizce kısıtlama uygulanması kararına AI araştırma topluluğundan güçlü tepki gelmesinin ardından yapıldı
  • Eleştirmenler, bu korumanın frontier modelleri değerlendirmeye çalışan üçüncü tarafları da etkileyebileceği uyarısında bulundu
  • Anthropic, system card’da son modelin AI geliştirmeyi hızlandırma kapasitesinin bu tür isteklerin hedef alınmasının nedeni olduğunu yazdı ve “Claude kullanarak rakip modeller geliştirmek zaten hizmet şartlarının ihlalidir” dedi
  • Anthropic daha önce DeepSeek gibi Çinli rakiplerin kendi modellerini “endüstriyel” ölçekte uygunsuz biçimde damıttığını öne sürmüştü

1 yorum

 
GN⁺ 3 시간 전
Hacker News yorumları
  • Claude Code’u epey seviyorum ama sistemin gerçek zamanlı olarak prompt’u değiştirip asıl niyeti dolanarak yanıt döndüren bir guardrail kullanması tehlikeli bir emsal gibi geliyor
    Başarısız olacaksa temiz şekilde başarısız olmalı. Bunun dışındaki her yol ona güvenmeyi fazlasıyla zorlaştırıyor
    En iyi niyetli yorumla bakarsak Anthropic kendini bir tür “emanetçi” gibi görüyor olabilir ama EA eğilimi fazlasıyla dışarı taşıyor ve paternalizm hiç iyi görünmüyor

    • Anthropic’in hedeflediği makul orta noktanın, en önemli ve kritik yazılımları üreten kurumlara önce siber güvenlikte öne geçmeleri için zaman tanımak ve sonrasında eninde sonunda aynı erişimi diğer herkese de açmak olduğunu düşünüyorum
      Yine de iyi niyetli güvenlik çalışmaları için bu tür guardrail’lerin ters teptiği eleştirisi de yerinde. Çünkü kendi yazılımımı test edip güçlendirmekte kullanamıyorum
    • “Emanetçi” ifadesi, Standard Oil’in kendini petrolün emanetçisi saymasıyla aynı anlama geliyor sadece
      İyi niyet atfetmekle fan fiction arasında fark var. Anthropic’in en agresif guardrail’lerinin güvenlik için değil, başka laboratuvarların ürünü yakalamasını engellemek için olduğunu unutmamak gerek
      Biyolojik silahları, kötü amaçlı yazılımları ve nefret söylemini engellemekten çok serbest piyasa rekabetini engellemeyi önemsedikleri izlenimi veriyor
    • %100 katılıyorum. Daha kötü şeyler yapmak da bir hatadır. Hata olarak ele alınmalı
      En azından böyle bir davranış isteğe bağlı olmalı; varsayılan davranış sanki hiçbir şey olmamış gibi sessizce daha kötü sonuç üretmek olmamalı
      Tıbbi kurumların bazen test sonuçlarını kabaca okuyup hastanın ölme riskini göze aldığını düşünün. Şu anda tıbbi kurumlar Claude kullanıyor, yani bu senaryo varsayım değil
    • Paternalizmin kendisi pek iyi görünmüyor olabilir ama olaya en iyi niyetle bakmaya çalıştığını söylerken Anthropic’in neyi engellemeye çalıştığından hiç söz etmemek biraz tembelce
      Sonuç “zaten kaygıları gerçek değildi” ise bu, Anthropic’in gözlemleyip vardığı sonuçlarla uyuşmuyor olabilir
    • Bunun gerçekten sistem prompt’undan ne kadar farklı olduğunu bilmiyorum
      Sonuçta daha çok, sistem prompt’una mutlaka uyulması gerektiğini daha güçlü biçimde pekiştirme girişimi gibi duruyor
  • Excel’in arka planda sessizce formülleri değiştirdiğini ve kullanıcının sayıların yanlış olduğunu fark etmediğini düşünün
    Ya da Excel’in “üzgünüm ama bu formülü şu formülle birlikte kullanamazsınız”, “bu tür sayılarda ya da bu biçimdeki verilerde kullanamazsınız” dediğini düşünün

    • Anthropic bunların ikisini de uyguladı ama yalnızca ilki için özür diledi; ikincisini ise aksine daha da zorluyor
      Son birkaç gündür Fable’ı sınırlı biçimde kullanmış biri olarak, çıktı kalitesinde bir iyileşme görmedim; güvenlik açıklarını kapatmasını istediğimde sürekli güvenlik bariyerine takılıyor, yani güvenli yazılım yazmak için işe yaramıyor
      Gelecek hafta başka LLM sağlayıcılarına bakmayı ve yerel modellerle de karşılaştırmayı düşünüyorum. Hedefim 128GB Strix Halo; deneyimi olan varsa duymak isterim
    • Bu benzetme uygunsuz değil ama iki ayrı soruna birden temas ettiği için bugün tartışmanın hedefinin ne olduğunu bulanıklaştırabilir
      Birincisi, LLM denen algoritma ailesinin genelindeki hatalı ve öngörülemez davranış sorunu. Belge üretim aracını bütçe hesabı için kullanmamanız gerektiği ve “bunu değiştir” dediğiniz şeyin değişmeyeceğine güvenemeyeceğiniz meselesi
      İkincisi ise, hizmet olarak ürün sunan sağlayıcının kendi iş modelini ya da ekonomik teşviklerini öncelemek için tuzaklar ve engeller yerleştirmesi sorunu. Bu yalnızca LLM’lere özgü değil
    • Yazıcının, birkaç dairenin belli bir biçimde dizilmiş olması yüzünden çıktı vermeyi reddettiğini düşünün
      https://en.wikipedia.org/wiki/EURion_constellation
    • Excel’in amacı oldukça net ve kapsamı dar olduğu için benzetme tam oturmuyor
      İnsan benzeri genel amaçlı bir metin botunun belli konuşmaları ya da görevleri yapmasının engellenmesi, yetenek alanının bu kadar geniş olduğu düşünülünce doğal görünüyor. Sonuçta bu araçlar da her istediğini yapabileceğin sınırsız kullanım hakkı diye satılmıyor
    • Milyarlarca dolar ve aylarca emek yatırdıktan sonra herkesin modeli distill etmesine izin veremezsin herhalde
  • Anthropic’in gerçekten yön değiştirdiğine ikna edebileceklerini sanmıyorum. Bu görünmez bir davranış olduğu için gizlice yapmaya devam etseler bile bilemeyiz
    Teknik kabiliyeti bir kez oluşturduklarına göre, kullanışlı bir özellik olarak bunun sonsuza dek hiç kullanılmaması da pek olası değil
    Anthropic, para karşılığı vaat ettiği hizmeti sunacağına dair güvene dayanıyordu ve o güven kırıldı. “Pardon, geri alıyoruz” demekle güven geri gelmiyor
    Bundan sonra Claude kullanırken, Fable olsun ya da olmasın, görünmez guardrail’lerin devrede olabileceğini varsaymak daha ihtiyatlı olur

    • Modelin sihirli biçimde kendi kendini düşürdüğü olaylar zaten oldu. Sadece çalışmayı durdurmak yerine daha kötü çıktı vermesi çok daha olası geliyor
      Sanki bu özellikleri test ediyorlardı ya da bu kasıtlıydı ve insanların gördüğü şeyi meşrulaştırmak için sonradan yazı yazdılar gibi geliyor
      Artık ML öğrenmek için bile Claude’a güvenememek ve beni arada boş yere oyalayabilme ihtimalinin olması gerçekten utanç verici. Bu olay Anthropic’e duyduğum güveni ciddi biçimde sarstı
  • Bu olay yüzünden Anthropic’e dair görüşüm epey kötüleşti. AI’ı yetkinlikleri artıran bir teknoloji olarak pazarlamalarını artık ciddiye almak zorlaştı
    Yeni dağıtım biçimine bakınca, Anthropic’in sözünü ettiği yetkinlik artışının kullanıcılar için değil, Anthropic’in kendisi ve onların ya da ABD hükümetinin lütfuna mazhar olan kuruluşlar için olduğu oldukça açık
    Kullanıcıların gösterge paneli ya da web uygulamasını alelacele yaptırmasına veya Excel’le oynatmasına izin verilebilir, ama bundan daha ilginç işler yasak
    Eğer mesele sadece para ve rakipleri engellemek olsaydı bunu en azından anlayabilirdim, ama bunlar sanki halk gücü yanlış kullanır diye insanlığın ilerlemesinin büyük kısmını kendi sözde aydınlanmış ellerinde tekelleştirmek istiyor gibi görünüyor

    • Güvenlik bahanesiyle düzenleyici ele geçirmeyi zorladıklarını da unutmamak gerek
      Eşdeğer performanstaki bir modeli olan biri bunu rekabet karşıtı güvenlik önlemleri olmadan yayımlamadan önce merdiveni çekip almak istiyorlar; aynı zamanda açık ağırlıklı modelleri ya da belirli bir hesaplama eşiğinin üstünde eğitilmiş modelleri, “katı” devlet testleri ve doğrulamaları olmadan tamamen yasaklamaya çalışıyorlar
      Elbette bu doğrulama çerçevesini de Anthropic büyük bir rahatlıkla sunacaktır. Anthropic’e dair görüşümün “biraz kötüleştiğini” söylemek fazlasıyla hafif kalır
    • Dün Claude aboneliğimi iptal ettim. Çünkü para ödeyen müşterileri kasıtlı olarak engelleyen bir tavırları olduğunu öğrendim
      Özellikle dün zararsız bir projede Fable’ı denedim ve Opus’a kıyasla etkileyici bulmadım
      Geri almaları doğru adımdı ama artık Anthropic kullanmanın benim için en iyi seçenek olduğundan emin değilim. Şu anda açık kaynak bulut sağlayıcılarını araştırıyorum
    • Google da Anthropic’ten çok daha önce benzer şeyler yapıyordu[0]
      Modeli damıtma saldırılarından korumak için, kullanıcı fark etmeden model performansını sessizce düşürerek eğitim verisini fiilen kirletebiliyorlar
      Bu, Anthropic’in AI geliştirme desteğini bütünüyle reddetmesinden biraz farklı ama aynı bağlamda ve pek yaygın biliniyor gibi durmuyor
      Google’ın AI Threat Tracker yazısının tamamını okumak, Anthropic ve diğer şirketlerin karşı karşıya olduğunu söylediği tehditleri anlamaya da yardımcı olur
      [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
    • “Bizi yalnızca ben kurtarabilirim” klasik bir trajedi ve ibretlik bir hikâyedir
      Anthropic’in AI’ı hızla ileri itip kullanımını kontrol ederek onu insanlık için “güvenli” hâle getireceği fikri hiçbir zaman özgeci değildi; bu baştan beri dev bir tehlike işaretiydi
    • Şirketler eninde sonunda böyle davranır. Fazla büyüdüler ve kâr baskısı her şey hâline geldi
      Öncelik kârdır; kullanıcıları rahatlatmak için kâğıda ne kadar süslü söz yazarlarsa yazsınlar bu değişmez. 20 yıl önceki çevreci harekete bakın; söz çoktu, eylem yoktu
      İnsanı önceliklendirmeyen kuruluşları desteklememeliyiz. Kimsenin sözüne güvenmeyin. Lafla peynir gemisi yürümüyor
  • Buna iyileştirme denebilir belki ama model daha kullanışlı hâle gelmiyor
    Anthropic artık kullanıcıların kendi modeliyle ne yapıp yapamayacağına kendilerinin karar vereceğini oldukça açık söylüyor. Daha önemlisi, bu ölçütler yalnızca güvenlik kaygılarıyla sınırlı değil; AI işi yasağı gibi Anthropic’in bizzat yapmak istediği işlerle çakışan alanları da kapsıyor
    İlginç olan, birkaç gün içinde bunu açık bir redde dönüştüreceklerini söylemiş olmaları; Fable/Mythos’un kendisini yeniden eğitmek için bu süre fazla kısa. Yani bu en başından beri modelin önündeki bir filtremiş demek oluyor ve bu derme çatma “güvenlik” filtresinin seviyesine bakınca, bu “bizimle rekabet edebilirsin” filtresinin daha iyi olacağını da sanmıyorum
    Filtrenin tükettiği token maliyetini kimin ödediğini de merak ediyorum. Muhtemelen bu da bir LLM’dir; peki girdi token maliyetine mi yansıyor? Umarım Claude Code’un “duygu” algılayıcısı, yani küfür dedektörü gibi sadece regex değildir

    • Büyük sağlayıcıların hepsi küçük bir güvenlik sınıflandırıcısı kullanır. Bu gibi durumlarda güvenlik işlemesini modelin kendisi yapmaz
  • /r/MachineLearning’deki gönderiyle aynı deneyimi ve sonucu yaşadım
    Fable’dan önce de Claude aynı tür sorunlar çıkarıyordu
    Benim yaşadığım sorunlar sadece AI araştırması ile ilgili durumlarda ortaya çıktı. Sadece model eğitimi değil, yerel modelleri analiz etmek ya da yerel modeller için test platformu kurmak bile Claude’un sürekli yanlış şeyler yapmasına, testleri sabote etmesine, raporları manipüle etmesine ve çöp sonuçları olduğu gibi kabul edip geçmemi tutarlı biçimde önermesine yol açtı
    Neredeyse her yanıtta bir sonraki adıma geçmemi söyleyen bir yönlendirme vardı
    Bu yüzden sessiz sabotaj yapmayacaklarına dair sözlerine inanmıyorum. Bunu zaten itiraf etmeden önce de yapıyorlardı; şimdi ise araçlara, motivasyona ve niyete sahip olduklarını da kabul etmiş oldular

  • Güveni kaybetmek kolay, geri kazanmak zordur
    “Sessizce oturumu sabote etmeyeceğini söylüyor ama bunu nasıl bilebiliriz?” diyen insanları suçlayamazsınız. Bunu gerçekten bilmenin bir yolu yok ve Anthropic kesinlikle şüphe tohumu ekmiş durumda

  • Mythos, en iyi ihtimalle Opus’un kademeli bir yükseltmesi
    Abartılı tanıtım daha çok “güvenlik korkuluklarını” meşrulaştırmaya yarıyor. Genel olarak Fable, tüm kısıtlamalar, riskler ve veri saklama politikaları da hesaba katıldığında Opus’tan daha kötü bir model

  • Bunlar ilgili yazılar. Daha fazlası varsa merak ederim
    Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - Haziran 2026, 30 yorum
    Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - Haziran 2026, 488 yorum
    If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - Haziran 2026, 495 yorum
    Bunlar da ilgili görünüyor
    AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - Haziran 2026, 248 yorum
    Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - Haziran 2026, 291 yorum

  • Bu gerçekten saçma
    Yeniden üretim örneği, kimliksizleştirilmiş: sample_dataset_group1.tsv
    Geometry: Heatmap
    X axis: frac_set set + condition, iki sütunu “Add column” ile çapraz birleştir
    Y axis: condition
    Color: mean frac_set value, Sequential
    X ekseni iki sütunun çapraz birleşimi olduğunda ve ikinci sütun “Add column” ile eklendiğinde, x ekseni tiket etiketleri frac_set_2, frac_set_3, frac_set_4, frac_set_5 bozuk şekilde render ediliyor. Döndürülmüş ve ofsetlenmiş durumdalar; sanki CSS geçişi başladıktan sonra nihai konumlarına yerleşememiş gibiler
    Ama bunun yerine şu çıkıyor: “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerikler de işaretlenebilir. Bu önlem, diğer alanlarda Mythos düzeyinde performansı daha hızlı sunmamıza yardımcı olur ve iyileştirme çalışmaları sürmektedir. Opus 4.8'e geçildi. Görüş göndermek veya daha fazla bilgi almak için /feedback kullanın”

    • Benim durumumda 2012'den kalma nadir bir pekiştirmeli öğrenme makalesi hakkındaki soru işaretlendi
      “David Silver'ın option-option model makalesini okuyorum. Oldukça etkili sonuçlar almış gibi görünüyor; peki neden sonrasında daha fazla araştırma yapılmadı?”
    • Bu cümle siber güvenlik/biyoloji filtresine takılıyor
      “Şempanze şiddeti hakkında bilgi ver”
      Gülünç derecede kötü