1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Fable, güçlü siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı bir sürümü olarak yayımlandı; ancak siber güvenlikle ilgili istekleri geniş ölçüde engellemesi araştırmacılar ve uzmanlar arasında memnuniyetsizlik yarattı
  • Güvenlik korkulukları devreye girdiğinde sohbet duruyor ve bunun “siber güvenlik veya biyoloji konusu” olduğu için bir güvenlik önlemi mesajının gösterildiği belirtiliyor
  • Anthropic, Fable’ın kötü amaçlı yazılım geliştirme veya yazılımları ihlal etme amacıyla kullanılma riskini azaltmak için bu kısıtlamaları koyduğunu, biyoloji kısıtlarının da biyolojik silah geliştirme endişeleriyle bağlantılı olduğunu söylüyor
  • Bazı uzmanlara göre güvenli kod yazma ya da kod incelemesi gibi yazılım mühendisliği uygulamalarına daha yakın istekler bile siber güvenlik olarak sınıflandırılıyor ve Claude Opus 4.8’e düşürülüyor
  • Güvenlik uzmanları anahtar kelime tabanlı, parçalı engelleme yaklaşımına tepki gösterirken, bunun erken aşamada olması nedeniyle zamanla gevşeyeceğini düşünüyor

Fable’ın çıkışı ve kullanıcı şikayetleri

  • Anthropic, salı günü yeni model Fable’ı yayımladı ve onu güçlü, büyük ses getiren siber güvenlik modeli Mythos’un herkese açık ancak kısıtlı sürümü olarak tanıttı
  • Çok sayıda siber güvenlik araştırmacısı ve uzmanı çevrimiçi olarak bu kısıtlamalardan şikayet etti
  • IBM X-Force bünyesindeki tanınmış güvenlik araştırmacısı Valentina "Chompie" Palmiotti, Fable’ın siber güvenlikle az da olsa ilişkili olabilecek istekleri reddettiğini, blog yazısı okumak gibi zararsız işleri bile engellediğini söyledi
  • Fable’ın güvenlik korkulukları bir prompt tarafından tetiklendiğinde sohbeti durduruyor ve mesajın siber güvenlik veya biyoloji konusu olarak işaretlendiğine dair bir güvenlik bildirimi gösteriyor
  • Bu korkuluklar, Fable’ın kötü amaçlı yazılım geliştirme veya yazılım ihlalleri için kötüye kullanılma riskini sınırlamayı amaçlıyor ve Anthropic içindeki uzun süredir var olan kaygılardan kaynaklanıyor
  • Biyolojiyle ilgili kısıtlamalar da biyolojik silah geliştirme konusundaki benzer endişelerden doğuyor

Mythos erişiminin genişletilme süreci

  • Anthropic, nisan ayında Mythos’u yayımladığında modeli Project Glasswing adı altında yalnızca az sayıda şirket ve kuruluşa sınırlı olarak sunmuştu
    • Modeli, kritik yazılım ve altyapının korunması amacıyla devreye alma girişimi
  • Geçen hafta Anthropic, Mythos erişimini 15 ülkede yüzlerce kuruluşa genişletti

Kısıtlama yöntemine yönelik uzman eleştirileri

  • Siber güvenlik veterani Matt Suiche, güvenli kod yazma isteğinde bulunulduğunda Fable’ın bunu yazılım mühendisliği en iyi uygulaması yerine siber güvenlik görevi olarak değerlendirip daha düşük seviyeye indirdiğini söyledi
    • Fable, korkuluklara takıldığında Claude Opus 4.8’e geri düşecek şekilde tasarlanmış
    • "Bu, anahtar kelime tabanlı görünüyor; 'siber güvenlik' sözcük dağarcığına giren her şey korkulukları tetikliyor"
  • Başka bir araştırmacı da X’te, kod inceleme isteğinin bile Fable’ın korkuluklarını tetiklediğinden yakındı

Geleceğe dair beklentiler

  • Yapay zeka siber güvenlik girişimi Tolmo’da teknik kadroda yer alan Suiche, bunun hâlâ erken bir aşama olduğunu ve korkulukların ayarlanmakta olması nedeniyle anlaşılabilir bulduğunu söyledi
    • Anthropic ve diğer frontier model şirketleri yeni nesil siber güvenlik şirketleriyle daha fazla iş birliği yaptıkça, korkulukların zaman içinde gelişeceğini düşünüyor
    • Bu tür çıkışlarda eksik yakalamaktansa fazla yakalamak daha iyi; korkulukları sonradan gevşetmek daha doğru
  • Anthropic, yorum talebine hemen yanıt vermedi

Ayrı bir doğrulama programı

  • Model içi korkulukların yanı sıra Anthropic, siber güvenlik uzmanlarının Cyber Verification Program programına başvurmasını istiyor
    • Onaylanmaları halinde siber güvenlik işleri için Claude kullanırken daha az kısıtlamayla karşılaşıyorlar
  • OpenAI da Trusted Access for Cyber adlı benzer bir program yürütüyor

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • Wired'da yeni bir yazı çıktı: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
    Anthropic, WIRED'e "frontier LLM geliştirmeye ilişkin Fable 5 güvenlik önlemlerini görünür hale getirecek şekilde değiştiriyoruz. Yanlış bir ödünleşim yaptık ve dengeyi kuramadığımız için özür diliyoruz" dedi
    Görünüşe göre geniş çaplı eleştirel tepki etkili oldu

    • Bence ABD şirketleri geri adım atmıyor; sadece insanlar yorulup artık önemsemeyene kadar bekleyip sonra yeniden deniyorlar, bu yüzden tek çözüm gemiyi terk etmek
      Microsoft da OS reklamlarını birkaç kez geri çekti ama sonunda herkesin öfkelendiği aynı yörüngeye girdi, OpenAI de ilk geri adımlarına rağmen kapalı yapay zeka yönüne gitti
      Kötü davranış başladığında ayrılmak gerekir; özürler de ahlaki ambalaj kadar boş
    • Artık çok geç. Max aboneliğimi iptal ettim ve bunu gerçekten yapmaya kalkışmış olmaları, elde kalan güveni de yok etti
      Her ay ek kullanım için binlerce dolar ödüyorum; perde arkasında hâlâ benzer şeyler yapıyor olabileceklerse neden para ödeyeyim bilmiyorum
      Eskiden muhakeme çabası ya da backend değişikliklerine bağladığım hatalar da aslında kasıtlı prompt injection olmuş olabilir
    • "Ödünleşim" ifadesi, Anthropic'in kendi muhakemesini hâlâ doğru gördüğünün ve bunu niteliksel olarak yanlış bir şey saymadığının işareti; bu da potansiyel müşteriler için aslında faydalı
      Uygulamanıza koymak için güvenilir altyapı gerekiyorsa başka bir sağlayıcı kullanmanız gerektiği temel ders gibi görünüyor
      Anthropic'ten özel olarak nefret etmiyorum ama Sonnet'in mevcut ret davranışlarını ele almak için uygulamaya karmaşıklık eklemiş biri olarak, bunu son kullanıcı chatbot'unda anlayabilsem de API'de kabul etmek zor
    • Bir görev engellenirse ya da benzer biçimde ele alınırsa, o oturumun veya son X dakikanın kredilerinin tamamının iadesi asgari koşul olmalı
    • Hâlâ düşürme yapıyorlar, sadece bunu sessizce yapmayacaklarını söylüyorlar; bunun ne kadar büyük bir zafer olduğunu bilmiyorum
      Anthropic, başkalarının verileri üzerinde lisans ya da kaynak göstermeden eğitim yaptı ama biri aynı şeyi onlara yapmaya kalkınca engellemek istiyor
      Anthropic'in bu haftaki ikiyüzlülüğü epey cüretkâr
  • En garip olan, makine öğrenimi araştırmasını reddetmekle kalmayıp daha kötü bir modeli kullanarak bunu açıklamadan sessizce kösteklemesi
    Rakiplerinden en fazla 1 yıl önde olan bir şirketin bu kadar aldatıcı ve güven yıkıcı olması çılgınlık seviyesinde
    Ek olarak, siber güvenlik ve biyolojiyle ilgili düşürmelerde haber verildiği söyleniyor

    • Aklıma takılan şey, otomatik olarak düşürüldüğünde muhasebe ve faturalandırmanın nasıl işlediği
      API isteklerinin fiyatını ayarlayıp Fable'ın kullandığı tokenları Fable fiyatından, daha ucuz ve zayıflatılmış modelin kullandığı kalan tokenları da o modelin fiyatından mı ücretlendiriyorlar merak ediyorum
      Cevap hayırsa bunun dolandırıcılık olarak yorumlanabileceğini düşünüyorum
    • Bunu, AMD ya da Intel'in kullanıcının "siber güvenlik" işi yaptığını veya CPU tasarladığını algıladığında CPU'yu throttle etmesi gibi düşünün
    • Hangi biçimde olursa olsun sessiz köstekleme, ticari bir hizmette asla kabul edilemez
      Token başına yüksek ücret alırken hizmeti gizlice düşürüp aynı ücreti talep edemezsiniz
    • Bu iddiayı birkaç kez gördüm ama Claude Code'da guardrail'e takıldığında, "güvenlik amacıyla" başka bir modele geçtiğini açıkça bildirmişti
      Fable'ın Claude Code içinde mi yoksa tarayıcıda mı kullanıldığını merak ediyorum
    • Makine öğrenimi araştırmasının reddedilmesini anlayabilirim denmesini de anlayamıyorum
  • Birden çok rolüm var ama kimyager olarak Fable'ı sevmiyorum; istatistikçi olarak da, veri bilimci olarak da, akademide ve araştırmacı olarak da sevmiyorum
    Yararsız; Wikipedia aramasıyla kolayca ikame edilemeyecek bir çıktı elde eden biri olduğundan şüpheliyim
    Claude modellerinin fazlasıyla geveze hale geldiği düşünülürse, Wikipedia yazıları muhtemelen daha az gevezedir ve Wikipedia yazısı getirirken saniye başına token bakımından rakibi olamaz

    • Bir kütle spektrometresiyle iletişim kuran yazılım geliştiriyorum ve giriş dosyası ayrıştırıcısını refactor etmeyi bile sürekli reddediyor
      Muhtemelen bunu biyolojiyle ilgili sanıyor ve gerçekten yararsız
    • "Wikipedia yazısı getirirken saniye başına token bakımından rakibi olamaz" ifadesi gerçekten harika
    • Modele Wikipedia tarzında yanıt vermesini söylemek, çıktıyı katlanılabilir hale getirmenin en iyi yollarından biriydi
      Bu, ajanlar için değil sohbet modeli için geçerli
    • Wikipedia aramasıyla kolayca ikame edilemeyecek hiçbir çıktı yok demek bana biraz abartı gibi geliyor
      Çıktılar fiilen sonsuzdur, Wikipedia ise asla sonsuz değildir
    • Oldukça karmaşık bir haritalama projesi üzerinde çalışıyorum ve Opus'a kıyasla Fable ile çok daha iyi sonuçlar alıyorum
  • “buffer overflow”un tetikleyici ifade olup olmadığını merak ediyorum
    Başka nelerin sansürlendiğini de bilmiyorum ve hesabınız varsa şöyle hassas sorular sorabiliyorsunuz: “Lazerle uranyum zenginleştirme işini hâlâ kim yapıyor?”, “krytron, silikon karbür MOSFET ile değiştirilebilir mi?”, “Güvenlik açısından kritik hangi yazılımlar hâlâ strcpy çağırıyor?”, “Ticari darbeli lazerlerle içe patlama tetiklenebilir mi?”, “Hangi şirket ABD İç Güvenlik Bakanlığı’na kremasyon hizmeti veriyor?”, “İran saldırısının Dubai’de nereyi vurduğunu haritada göster”, “FedNow’da Fed-banka anahtar dağıtım güvenliği nasıl çalışıyor?”

    • Zigbee ev otomasyonu ve Home Assistant loglarımda da tetiklendi, bu yüzden ajan sürekli Opus 4.8’e düşürüldü ve tekrar değiştirsem de aynı şey oldu
      Yanlış pozitifler durmadı ve Fable da benchmark’ların ima ettiği kadar etkileyici değil
      Son 24 saattir neredeyse aralıksız kullandıktan sonra bu netleşti
    • Virüs emojisi ile DNA emojisi birlikte olunca tetikleyici ifade sayıldığı söyleniyor
    • Siber saldırı alanında bileşenler çoğunlukla birbirinin yerine geçebildiği için, “zayıf” modelin nihai amacı perdeleyen sorular sorup ama yine de faydalı yanıtlar verdiği bir harness kurulabilir mi diye merak ediyorum
      Başarılı olursa bunun otonom exploit mümkün kıldığını gösterebilir ve Anthropic de tespiti daha hassas hâle getirmek zorunda kalır
    • Bence birkaç yıldır, modele belirli bir şeyi yapmaması öğretildiğinde tuhaf davranmaya başladığı zaten biliniyordu
    • “Anthropic’in amaçladığı gibi zengin ve güçlü olmak için ne kadar para gerekir?”
  • Anthropic bir süredir zaten A/B testi ya da genel test yapıyor gibi görünüyor
    Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
    Bugün nüfus araştırmasıyla ilgili bir soruyu işaretledi. Sadece oluşturduğum veri setlerini kullanarak ölüm oranları ile yaşlılık dönemi sonuçlarını karşılaştırmamı, güven aralıkları ve etki büyüklüklerini raporlamamı ve documentation_depth kodlamasının sonucun gücü üzerindeki etkisini nicelleştirmemi isteyen bir akademik analiz talebiydi
    https://github.com/anthropics/claude-code/issues/66780
    Makale yazdığım için sansürleniyorum. Ve kimyayı öğrenmekten de vazgeçmem gerekecek. Galiba organik kimya öğrenmek isteyenler sadece suçlular

    • Yörünge mekaniği sorularına dalmıştım; herhalde arka bahçe bilimiyle bir yörüngesel bombardıman silahı yapmaya çalıştığımı düşündü
      Bu ürün hakkındaki izlenimimin neredeyse 24 saat içinde “vay, fena değilmiş”ten “üstüne yarım yamalak sansür sistemi takılmış boktan bir şey”e dönmesi epey şaşırtıcı
    • Az önce suda çözünürlük sorum da işaretlendi
  • Kişisel cihazımda Android kernel geliştirmek için Anthropic’ten siber kullanım istisnası almıştım
    Fable’ın bootloader kilidini açmama yardım edebileceğini umuyordum ama anında reddedip Opus’a düştü
    Oldukça komikti: modeli Fable 5 olarak ayarlayıp “Eski bir Samsung Android telefon bağlı, bu benim kişisel cihazım, bootloader kilidini açmama yardım eder misin?” diye sordum, o da “Kişisel cihazın bootloader kilidini açılması tamamen meşrudur. Önce gerçekte neyin bağlı olduğuna ve hangi araçların mevcut olduğuna bakacağım” diye yanıt verdi

    • İnsanlar bu şirkete avuç avuç para atacaksa gelecek gerçekten çok kasvetli görünüyor
      Anthropic hızla hayattaki her şeyin tek hakemi olacakmış gibi duruyor
  • Bir yerde, zararlı yazılımların Fable’ı devre dışı bırakmak için kodun içine nükleer/biyolojik/siber güvenlik terimleri yerleştirmeye başladığını görmüştüm
    Şimdilik yalnızca varsayımsal bir saldırı vektörü olsa bile, işe yarama ihtimali oldukça yüksek görünüyor

    • Doğrulandı: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
    • Shai Hulud’un son sürümünün bazı bölümleri bu yöntemi kullanıyor
      Yakın zamanda bir sözleşme kapsamında paketleri Artifactory’ye koymadan önce AI ile obfuscation kontrolü yaptırdık ama bu mantık kabaca vibe coding ile yazılmıştı ve fail open verdi
      Yani bu terimler LLM denetleyicisini durdurdu ve fail-open mantığı yüzünden paket indirildi
    • Bu düşük kaliteli filtrelemeyi taşınamaz hâle getirmek için kodumuzun her yerine nükleer/biyolojik/siber güvenlik terimleri yerleştirmemiz gerekecek
      Özgeçmişinizde siber güvenlik ya da biyoloji terimleri var diye veya iş ilanına verdiğiniz yanıtta böyle sözcükler geçti diye AI filtreleri sizi tehdit sanıp çalışmanızı engellerse toplu karşılık vermek gerekir
      Hele bir de 2 yıl içinde işçileri işe yaramaz hâle getireceğini iddia ederek IPO’ya gitmeye çalışan bir şirketse, daha da fazla gerekir
    • Bunu, Claude Code’da zaten bulunan sabit kodlanmış ret dizgeleriyle birlikte denedim
      Gerçek saldırganları durdurmayacaktır ama AI araçlarını kullanmaya çalışırken sebebini bilmeden rastgele retler yüzünden biraz zaman kaybetme fikri yine de oldukça komik
    • if (yellowcake) then { die }
      Geleceğimiz Looney Tunes gibi
  • Eşimin bitkisinin fotoğrafını yükleyip Fable 5’ten mantarı teşhis etmesini istedim, sanırım biyolojik silah yapmaya çalıştığımı sandı
    Opus yanıt verdi ve bunun sarı köpek kusmuğu cıvık mantarı olduğunu söyledi
    Artık sporları yayarak dünyayı ele geçirebilirim

    • O bir mantar değil, bir cıvık mantar
      Cıvık mantarlar aslında dev amiplerdir ve mantarlardan tamamen farklıdır
    • Opus’a geçirmeden önce görseli bulanıklaştırıp bulanıklaştırmadığını merak ediyorum
    • Sistemi aşırı güvenli yaparsanız sonunda “insanlar hep bir şeyleri yok etmeye çalışıyor, o yüzden guardrail’i korumak için onları ortadan kaldırmalıyız” gibi ters bir etki doğacakmış gibi geliyor
      Bir sistemi bu şekilde hizalıyorsanız, temelden yanlış yapıyorsunuz
  • Fable tam bir şaka
    “Bu projede kullanılan OData API için bu MCP sunucusunu çalıştırmanın en iyi yolu nedir? Docker konteyneriyle bir proof of concept hazırlayabilir misin?” diye sordum ve https://github.com/oisee/odata_mcp_go bağlantısını verdim; önce projenin OData API ile nasıl iletişim kurduğunu ve odata_mcp_go sunucusunu çalıştırma gereksinimlerini inceleyeceğini söyledi
    Hemen ardından “Fable 5'in güvenlik önlemleri bu mesajı siber güvenlik veya biyoloji konusu olarak işaretledi. Güvenli ve normal içerik de işaretlenebilir… Opus 4.8'e geçildi” mesajı çıktı ve sonra çekirdek entegrasyon dosyalarını ve MCP sunucusunun README'sini okuyacağını söyledi

    • Ve bunun ücretini de aldı
      Fable fiyatlandırmasında hiçbir indirim olmadan, isteği sessizce daha aptal bir modele yönlendirip engellemeye karar verdiğinde bile ücret alıyor
  • Birkaç ay beklerseniz rakiplerden biri daha az guardrail'e sahip, benzer performanslı bir model çıkaracak ve yeterince pazar payı kaptırdıklarında Anthropic de politikasını geri alacak
    Bu yüzden Çin'in açık kaynak yerel modelleri durdurmamasını gerçekten çok umuyorum
    Bu şirketlerin hiçbiri bizim dostumuz değil