1 puan yazan boradi 3 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Anthropic, günler süren uzun vadeli, eşzamansız işler için 5. nesil modellerini yayımladı. Fable 5, Mythos sınıfı modelin genel kullanıcılar için güvenli hale getirilmiş sürümü; Mythos 5 ise aynı modelin bazı güvenlik önlemleri gevşetilmiş sürümü
  • Mythos sınıfı, Opus sınıfının üzerinde yer alan yeni bir model katmanı. İlk model olan Mythos Preview, nisan ayında Project Glasswing olarak tanıtılmıştı; bugün de Fable 5 ve Mythos 5 onun devamı olarak geliyor
  • İsimlerin kökeni: Fable, Latince fabula ("anlatılan şey") sözcüğünden geliyor ve Yunanca mythos ile aynı kökten. İki modeli ayıran şey güvenlik önlemlerinin kendisi olduğu için isimler de farklı verilmiş
  • Fiyatlandırma, 1 milyon giriş tokenı için 10 dolar ve çıkış için 50 dolar; bu da Mythos Preview’ın yarısından daha az. API model adı claude-fable-5

Performans

  • Temel mesaj, iş ne kadar uzun ve karmaşıksa farkın o kadar büyüdüğü
  • Kodlama: Stripe’ın ön testlerinde 50 milyon satırlık bir Ruby kod tabanının tamamını bir günde migrate etti (ekibin elle yapması iki aydan uzun sürerdi). Kendi testlerini doğrudan yazdı ve vision ile çıktıyı orijinal tasarımla karşılaştırıp doğruladı. Cognition’ın FrontierCode değerlendirmesinde medium effort düzeyinde bile frontier modeller arasında en yüksek puanı aldı
  • Ajan: Claude Code benzeri ortamlarda günler boyunca otonom çalışarak planlama, alt ajanlara görev devri ve öz doğrulama yapabiliyor
  • Vision: Yalnızca ekran görüntülerinden web uygulaması kaynak kodunu yeniden oluşturma; vision’a özel minimum harness ile Pokémon FireRed’i tamamlama (önceki modeller karmaşık yardımcı harness gerektiriyordu)
  • Bellek: Slay the Spire’da dosya tabanlı kalıcı bellek verildiğinde, Opus 4.8’e kıyasla performans 3 kat arttı; final bölüme ulaşma sıklığı da 3 katına çıktı
  • Bilgi çalışması: Hebbia finans benchmark’ında tüm modeller arasında en yüksek puan, IMC’nin trading analizi değerlendirmesinde ise neredeyse tüm alanlarda geçer not

Benchmark’lar

  • SWE-Bench Pro %80,3 (Opus 4.8 %69,2, GPT 5.5 %58,6), GDPval-AA 1932, OSWorld %85,0 gibi sonuçlarla; kodlama, bilgi çalışması, vision ve computer use genelinde üstünlük iddia ediliyor
  • Not: Tablodaki bazı sayılar Mythos 5 ile Fable 5 arasında yüksek olan değeri gösteriyor; yıldızlı maddelerde (biyoloji, siber güvenlik vb.) güvenlik önlemi fallback’i nedeniyle performansın Opus 4.8’e daha yakın olduğuna dair not bulunuyor

Mythos 5’in bilimsel çıktıları

  • Protein tasarım sürecini yaklaşık 10 kat hızlandırdı; 14 hedeften 9’unda güçlü adaylar elde edildi. Bağlanma bölgesi seçimi, araç çalıştırma ve hata kurtarma işlemlerini insan yardımı olmadan yaptı
  • Kör karşılaştırmalarda bilim insanları moleküler biyoloji hipotezlerini yaklaşık %80 oranında tercih etti. Bir hipotez (E. coli proteininde yeni bir mekanizma) aynı problemi bağımsız olarak araştıran bir laboratuvar tarafından doğrulandı
  • 1 haftayı aşan otonom çalışmayla 138 hayvan türünden milyonlarca hücre verisini toplayıp özel bir ML modeli tasarladı ve eğitti; Science’ta yayımlanan en yeni modeli 100 kat daha küçük boyutla geçti
  • Hizalama değerlendirmesi: Mythos 5’in hizasız davranış düzeyinin düşük olduğu ve Opus 4.8’e benzer olduğu bildiriliyor

Güvenlik önlemleri

  • Sınıflandırıcının engellediği üç alan var: siber güvenlik, biyoloji ve kimya, distillation (otoriter devletlerin rakip modellerini eğitmek için yetenek çıkarma girişimleri). Bu talepler otomatik olarak Opus 4.8’e yönlendiriliyor ve kullanıcıya bildiriliyor (yönlendirme olursa Fable ücreti alınmıyor)
  • Oturumların %95’inden fazlasında fallback yok; güvenlik önlemleri ortalama olarak oturumların %5’inden azında devreye giriyor. Ancak önlemlerin temkinli ayarlandığı, bu yüzden zararsız taleplerin de bazen takılabildiği kabul ediliyor; false positive oranını azaltma planı var
  • 1.000 saatin üzerindeki harici bug bounty testlerinde evrensel jailbreak bulunamadı. Ancak UK AISI, kısa ilk testte buna yakın ilerleme kaydetti. Bir harici ortak testinde, siber saldırılarla ilgili zararlı tek turluk taleplere 30 açık jailbreak tekniği uygulanmasına rağmen 0 kez yanıt verildi
  • AAV (gen tedavisi taşıyıcısı) tasarım değerlendirmesinde Mythos sınıfı, yalnızca biyolojik akıl yürütmeyle özel protein dil modelini geçti. Bu, çift kullanımlı risk için kanıt olarak sunuluyor
  • Kullanımda güvenlik izleme amacıyla 30 günlük veri saklama zorunlu. Hem 1st party hem 3rd party tüm trafikte geçerli; model eğitimi veya güvenlik dışı amaçlarla kullanılmıyor, insan erişimi loglanıyor ve 30 gün sonra siliniyor

Fiyatlandırma ve çıkış

  • Enterprise (kullanıma dayalı) planı, Claude Platform, AWS, GCP ve Microsoft Foundry üzerinde sunuluyor
  • Abonelik planlarında kademeli rollout var: 9 Haziran–22 Haziran arasında Pro, Max, Team ve koltuk bazlı Enterprise paketlerine ücretsiz dahil. 23 Haziran’dan itibaren kaldırılacak ve usage credit gerekecek. Kapasite sağlandığında varsayılan yapılandırma olarak geri döndürülmesi planlanıyor. API ve kullanıma dayalı Enterprise ise bugünden itibaren tamamen erişilebilir
  • Mythos 5, bugünden itibaren mevcut Mythos Preview kullanıcıları (Glasswing partner’ları vb.) için yükseltilebilir. Çoğu durumda Preview ile benzer ya da biraz daha güçlü, ancak maliyeti belirgin şekilde daha düşük. Dünyanın en güçlü siber güvenlik yeteneği olduğu iddia ediliyor
  • Biyoloji için ayrıca bir trusted access program da açılması planlanıyor (Fable 5’te yalnızca biyoloji ve kimya güvenlik önlemleri kaldırılacak, siber güvenlik önlemleri korunacak)

Henüz yorum yok.

Henüz yorum yok.