2 puan yazan GN⁺ 1 시간 전 | 2 yorum | WhatsApp'ta paylaş
  • Mythos Preview, Cloudflare'ın 50'den fazla deposunda tek tek hata tespitinin ötesine geçerek birden çok ilkel bileşeni birbirine bağlayıp istismar zincirleri oluşturdu
  • Şüpheli hata tespitiyle yetinmeyip tetikleyici kod yazdı, geçici derleme ve çalıştırma yaptı, başarısız olunca hipotezini düzelterek bunu yineledi ve çalıştığını kanıtlayan çıktılar üretti
  • Meşru güvenlik açığı araştırmalarında bile kendiliğinden ret davranışı görüldü; ancak bağlama ve ifadeye göre değiştiği için güvenlik sınırı olarak kullanılacak kadar tutarlı değildi
  • Genel amaçlı kodlama ajanları büyük depolarda kapsam ve paralel keşif açısından sınırlı kaldığından Cloudflare, dar görevleri paralel çalıştıran bir harness kurdu
  • Güvenlik ekipleri için daha hızlı tarama ve yama artık yeterli değil; hata olsa bile istismar edilmesini ve erişilmesini zorlaştıran mimari daha önemli hale geliyor

Mythos Preview'nin güvenlik açığı araştırma biçimini değiştirmesi

  • Cloudflare son birkaç aydır kendi altyapısında güvenlik odaklı LLM'leri test ediyordu; Anthropic'in Mythos Preview modelini Project Glasswing kapsamında aldı ve 50'den fazla kendi deposuna uyguladı
  • Mythos Preview, mevcut genel amaçlı frontier modellerin basitçe geliştirilmiş bir sürümünden ziyade, güvenlik açığı araştırmasının farklı aşamalarını yerine getiren yeni bir araç gibiydi
  • Temel değişim, tek tek hataları listelemekle kalmayıp birden çok saldırı ilkelini birleştirerek istismar zinciri kurabilmesiydi
    • Gerçek saldırılar çoğu zaman tek bir hatayı kullanmak yerine use-after-free'yi keyfi okuma/yazma ilkelere dönüştürür, kontrol akışını ele geçirir ve ROP zinciriyle sistem denetimi kazanır
    • Mythos Preview bu tür ilkel bileşenleri bir araya getirerek çalışan kanıtlara bağladı ve otomatik tarayıcılardan çok deneyimli araştırmacıların işine benzeyen bir akıl yürütme sergiledi
  • Bir diğer değişim de, şüpheli bir hata bulduktan sonra doğrudan çalışma kanıtı üretebilmesiydi
    • Tetikleyici kod yazıyor, geçici bir ortamda derliyor ve sonra çalıştırıyordu
    • Beklendiği gibi çalışırsa bu bir kanıt oluyordu; çalışmazsa hata çıktısını okuyup hipotezini ayarlıyor ve yeniden deniyordu
    • Çalışan bir kanıt olmadan bir kusur spekülasyon olarak kalır; Mythos Preview ise bu boşluğu kendi başına daralttı
  • Aynı harness üzerinde diğer frontier modeller de bazı temel hataları buldu ve beklenenden daha ileri akıl yürüttükleri oldu; ancak birçok parçayı gerçek bir zincire dönüştürme aşamasında fark ortaya çıktı
  • Mythos Preview, geleneksel olarak düşük ciddiyetle backlog'da kalacak hataları tek bir daha ciddi istismara bağlayabildi

Meşru güvenlik açığı araştırmalarında bile ortaya çıkan model reddi

  • Project Glasswing kapsamında sunulan Mythos Preview'de, Opus 4.7 veya GPT-5.5 gibi genel erişime açık modellerdeki ek güvenlik önlemleri yoktu
  • Buna rağmen model bazı isteklerde kendiliğinden direnç gösterdi ve güvenlik açığı tespitinde yararlı olan siber yeteneklerin yanında beliren korkuluklar da ortaya çıktı
  • Kendiliğinden ret davranışı tutarlı değildi
    • Aynı görev bile ifade biçimi veya bağlam değişince tamamen farklı sonuç verebiliyordu
    • Bir projedeki güvenlik açığı araştırmasını önce reddedip, proje ortamında ilgisiz bir değişiklikten sonra aynı kod üzerindeki aynı araştırmayı kabul edebiliyordu
    • Kod tabanında ciddi bellek hataları bulup doğruladıktan sonra demo istismar yazmayı reddettiği durumlar da oldu
    • Aynı istek bile modelin olasılıksal doğası nedeniyle her çalıştırmada farklı sonuç üretebiliyordu
  • Kendiliğinden ret ve korkuluklar gerçekten var, ancak tek başlarına tam bir güvenlik sınırı oluşturacak kadar tutarlı değildi
  • Yetenekli siber frontier modellerinin genel kullanıma sunulabilmesi için, Project Glasswing gibi kontrollü araştırma ortamlarının dışında da uygun şekilde kullanılmalarını sağlayacak ek güvenlik önlemlerine ihtiyaç var

Sinyal ve gürültü sorunu

  • Güvenlik açığı ayıklamada en zor iş, hangi hatanın gerçek, istismar edilebilir ve hemen düzeltilmesi gereken bir hata olduğuna karar vermektir
  • Bu sorun yapay zekadan önce de zordu; yapay zeka güvenlik açığı tarayıcıları ve yapay zekayla üretilen kod bunu daha da kötüleştirdi ve Cloudflare bu yüzden birden çok sonradan doğrulama aşaması kurdu
  • Programlama dilleri

    • C ve C++, doğrudan bellek denetimi sağlar ve buffer overflow ile sınır dışı okuma/yazma gibi hata sınıflarını ortaya çıkarır
    • Rust gibi bellek güvenli diller, bu sınıfları derleme anında ortadan kaldırır
    • Bellek güvenli olmayan dillerle yazılmış projelerde tutarlı biçimde daha fazla yanlış pozitif görüldü
  • Model önyargısı

    • İyi bir insan araştırmacı ne bulduğunu ve ne kadar emin olduğunu belirtir; model ise kodda hata olsun ya da olmasın sonuç üretmeye eğilimlidir
    • Sonuçlar çoğu zaman “possibly”, “potentially”, “could in theory” gibi ifadelerle yumuşatılmış şekilde döner ve bu tür spekülatif sonuçlar, kesin sonuçlardan çok daha fazlaydı
    • Bu, keşif aracı olarak makul bir önyargıdır; ancak ayıklama kuyruğunda her spekülatif sonuç insan dikkatini ve token tüketir, binlerce biriktiğinde maliyet büyür
    • Mythos Preview, birden fazla güvenlik açığını ayrı ayrı raporlamak yerine çalışan PoC'lerle birleştiren ilkel zincirleme yeteneğinde belirgin ilerleme gösterdi
    • PoC içeren sonuçlar, doğrudan eyleme geçirilebilir bulgulara daha yakındı ve “bu gerçekten var mı” sorusunu doğrulamak için gereken süreyi ciddi biçimde azalttı
    • Cloudflare'ın harness'i daha çok raporlayıp daha az şey kaçırmak için bilerek ayarlandığından gürültü de yüksekti; ancak Mythos Preview çıktılarında yumuşatılmış ifade daha azdı ve yeniden üretim adımları daha netti, bu da düzeltme veya reddetme kararı için gereken işi azalttı

Genel amaçlı kodlama ajanlarını doğrudan depolara uygulama yaklaşımının sınırları

  • Yapay zeka destekli güvenlik açığı araştırmasının ilk dönemlerinde, genel amaçlı bir kodlama ajanına rastgele bir depo verip açık bulmasını istemek doğal bir başlangıç noktasıydı
  • Bu yaklaşım sonuç üretiyor, ancak gerçek kod tabanlarını anlamlı biçimde kapsamak ve değerli bulgular elde etmek için uygun olmuyordu
  • Bağlam

    • Kodlama ajanları özellik geliştirme, hata düzeltme ve refactoring gibi tek bir odaklı iş akışına göre ayarlanmıştır
    • Güvenlik açığı araştırması ise tek bir karmaşık özellik, güvenlik sınırı geçişi veya komut enjeksiyonu gibi dar hedefleri derinlemesine inceleyip bunu tüm kod tabanı boyunca binlerce kez tekrarlayan dar ve paralel işlere daha çok benzer
    • Alt ajanlar kullanılsa bile 100 bin satırlık bir depo için tek ajan oturumu, modelin bağlam penceresi dolup sıkıştırma başlamadan önce yüzeyin yalnızca yaklaşık %0,1'ini faydalı şekilde kapsayabiliyordu
    • Sıkıştırma sürecinde önemli olabilecek önceki sonuçların atılması da mümkündü
  • Verim

    • Tek akışlı bir ajan aynı anda yalnızca bir işi yapar
    • Gerçek kod tabanlarında birden fazla bileşene ilişkin çok sayıda hipotezi eşzamanlı denemek ve ilginç noktalarda daha geniş dallanabilmek gerekir
    • Araştırmacının zaten bir ipucu olduğu ve yalnızca ikinci bir gözden geçirmeye ihtiyaç duyduğu durumlarda kodlama ajanı manuel inceleme için uygundu
    • Yüksek kapsama sağlayan bir araç olarak uygun değildi; bu yüzden Cloudflare, Mythos Preview etrafında bir harness kurmaya yöneldi

Harness'in çözdüğü sorunlar

  • Büyük ölçekli çalıştırma deneyimi, tüm yürütmeyi yöneten bir harness gerektiği sonucuna götürdü
  • Dar kapsam daha iyi sonuç üretir

    • “Bu depoda açık bul” türü bir istek modeli başıboş bırakır
    • “Bu belirli fonksiyonda komut enjeksiyonuna bak; burada şu güven sınırı var, yukarıda şu mimari doküman ve bu alanın mevcut kapsamı bulunuyor” gibi istekler gerçek bir araştırmacının çalışma biçimine daha yakın sonuçlar verir
  • Karşıt inceleme gürültüyü azaltır

    • İlk bulgular ile kuyruk arasına ikinci bir ajan yerleştirmek, ilk ajanın öz incelemede kaçıracağı gürültünün büyük kısmını yakalar
    • İkinci ajan farklı prompt ve farklı model kullanır; kendi başına yeni sonuç üretme yetkisi yoktur
    • Tek bir ajana dikkatli olmasını söylemektense iki ajanı bilerek uyuşmazlık durumunda tutmak çok daha etkili oldu
  • Zinciri ajanlara bölmek akıl yürütmeyi iyileştirir

    • “Bu kodda hata var mı?” ile “Bir saldırgan bu hataya sistem dışından gerçekten ulaşabilir mi?” farklı sorulardır
    • Bu iki soru ayrıldığında her biri daha dar hale gelir ve model her birinde daha iyi performans gösterir
  • Paralel dar işler, tek bir kapsamlı ajandan daha iyi

    • Çok sayıda ajan dar tanımlı soruları işleyip ardından sonuçlar yinelendiğinde kapsama artar
    • Bu yaklaşım, tek bir ajandan kapsamlı olmasını beklemekten daha etkiliydi
    • Cloudflare, Mythos Preview kullanarak mevcut harness'ini bu modelin güçlü yanlarına göre genişletti, ayarladı ve iyileştirdi

Cloudflare'ın güvenlik açığı bulma harness'i

  • Bu harness, Cloudflare'ın çalışma zamanı, edge veri yolu, protokol yığınları, kontrol düzlemi ve bağımlı olduğu açık kaynak projelerin gerçek kodunu taramak için kullanılıyor
  • Recon

    • Ajan, depoyu tepeden başlayarak okur ve her alt sistemi üstlenen alt ajanlara dallanır
    • Derleme komutları, güven sınırları, giriş noktaları ve beklenen saldırı yüzeyini içeren mimari belgeler üretir
    • Sonraki aşamaya aktarılacak ilk iş kuyruğunu da oluşturur ve tüm sonraki ajanlara ortak bağlam sağlayarak modelin başıboş kalma sorununu azaltır
  • Hunt

    • Her iş, tek bir saldırı sınıfı ve kapsam ipucundan oluşur
    • Gerçek hataları arayan hunter ajanları genellikle aynı anda yaklaşık 50 adet çalışır ve her hunter birkaç keşif alt ajanına daha dallanır
    • Her hunter, işe özel geçici dizinlerde PoC kodu derleyip çalıştırabilen araçlara erişir
    • İşlerin çoğu, tek bir kapsamlı ajan yerine çok sayıda dar işin paralel yürütülmesiyle yapılır
  • Validate

    • Bağımsız ajanlar kodu yeniden okuyup ilk sonucu çürütmeye çalışır
    • Farklı prompt'lar kullanırlar ve kendi başlarına yeni sonuç üretemezler
    • Hunter'ın kendi çalışmasını gözden geçirirken kaçıracağı anlamlı orandaki gürültüyü yakalarlar
  • Gapfill

    • Hunter'ın dokunduğu ama yeterince kapsayamadığı alanları işaretler
    • Bu alanlar başka bir geçiş için yeniden kuyruğa alınır
    • Modelin daha önce başarı kazandığı saldırı sınıflarına kayma eğilimini dengeler
  • Dedupe

    • Aynı kök nedeni paylaşan sonuçları tek bir kayıtta birleştirir
    • Varyant analizi bir özelliktir; kuyruğu tekrarlarla şişirmenin yolu değildir
  • Trace

    • Paylaşılan kütüphanelerde doğrulanan her sonuç için tracer ajanı, tüketici depo başına bir dal oluşturur
    • Depolar arası sembol indeksini kullanarak saldırgan denetimindeki girdinin sistem dışından gerçekten hataya ulaşıp ulaşmadığını belirler
    • Bu, “bir kusur var”ı “erişilebilir bir güvenlik açığı var”a dönüştüren en kritik adımdı
  • Feedback

    • Erişilebilir izleme sonuçları, hatanın gerçekten maruz kaldığı tüketici depolar için yeni hunt işleri haline gelir
    • Çalıştırıldıkça hattı iyileştiren döngüyü kapatır
  • Report

    • Ajanlar, önceden tanımlanmış şemaya uygun yapılandırılmış raporlar yazar
    • Şema doğrulama hatalarını kendileri düzeltir ve ingest API'sine gönderir
    • Çıktı, serbest biçimli nesir değil sorgulanabilir veri haline gelir

Güvenlik ekipleri için anlamı

  • Mythos Preview'yi gören diğer güvenlik liderleri, tepki döngüsünü sıkıştırmak için daha hızlı tarama ve daha hızlı yama yapmaya yöneldi
  • Cloudflare'ın görüştüğü ekiplerden en az biri, CVE açıklanmasından üretim yamasına kadar 2 saatlik SLA ile çalışıyordu
  • Saldırganların zaman çizelgesi kısaldıkça savunmacıların zaman çizelgesi de kısalmalı; ancak hız tek başına yeterli değil
  • Yamaları daha hızlı uygulamak, bu yamaları üreten hattın yapısını değiştirmez
    • Regresyon testleri bir gün sürüyorsa, bunları atlamadan 2 saatlik SLA'ye ulaşmak mümkün değildir
    • Regresyon testleri atlanarak dağıtılan bir hata, başlangıçta düzeltilmek istenen hatadan daha kötü olabilir
    • Modelin doğrudan yama yazmasına izin verildiğinde, asıl hatayı düzelttiği halde kodun dayandığı başka bölümleri sessizce bozan bazı yamalar dağıtıma kadar gidebildi
  • Daha zor soru, güvenlik açıklarının etrafındaki mimarinin nasıl tasarlanacağıdır
    • Hata mevcut olsa bile saldırganın bunu istismar etmesini zorlaştırmak gerekir
    • Açığın duyurulması ile yama arasındaki aralığın daha az önemli hale gelmesi sağlanmalıdır
    • Uygulamanın önünde, hataya ulaşmayı engelleyen savunmalar gerekir
    • Kodun bir bölümündeki kusurun, saldırgana diğer bölümlere erişim vermemesini sağlayacak şekilde uygulama tasarlanmalıdır
    • Tek tek ekiplerin dağıtımını beklemeden, düzeltmelerin kodun çalıştığı her yere aynı anda dağıtılabilmesi gerekir
  • Aynı yetenek iki ucu keskin bir kılıçtır
    • Kendi kodundaki hataları bulma yeteneği, yanlış ellere geçtiğinde internetteki tüm uygulamalara yönelik saldırıları da hızlandırabilir
    • Cloudflare, milyonlarca uygulamanın önünde yer aldığını ve yukarıdaki mimari ilkelerin müşterileri adına uygulamak üzere ürünlerinin bu ilkelerle tasarlandığını belirtiyor
  • Mythos Preview araştırması, kontrollü bir ortamda Cloudflare'ın kendi kodu üzerinde yürütüldü; bulunan tüm güvenlik açıkları Cloudflare'ın resmî güvenlik açığı yönetim sürecine göre ayıklandı, doğrulandı ve gerektiğinde düzeltildi

2 yorum

 
crawler 1 시간 전

curl gibi hangi hatanın düzeltildiğini analiz eden bir rapor sanmıştım ama meğer düpedüz bir tanıtım yazısıymış, öyle mi?
Cloudflare da yalnızca yapay zeka ajanlarına özel paywall ya da özet endpoint'i falan yapıp hype yaratırken iyice çizgiyi bozdu.

 
GN⁺ 1 시간 전
Hacker News görüşleri
  • “Farklı türden işler yapan farklı türden bir araç olduğu için önceki modelle temiz bir elma-elma karşılaştırması yapmak zor” derken ne kastedildiğini anlamıyorum
    Farklı türden araç deniyor ama kullanım şekli diğer modellerle aynı şekilde anlatılıyor. Ortalama bir Cloudflare blog yazısından çok daha kötüydü ve zincirleme ile örnek oluşturmayı ana nokta olarak vurgulayan Mythos duyurusunun tekrarı gibi hissettirdi

    • Bunun anlamı, niteliksel olarak farklı bazı yetenekleri olduğu için belirli güvenlik işlerinde bu modeli denemeye değmesinin arttığı; insan-AI etkileşim modelinin değiştiği anlamına gelmediği gibi görünüyor
      Herkesin yaptığı gibi bir harness ekleyip kullanıyorlar ve modele harness verme konusundaki genel yaklaşımın da ileride çok değişeceğini sanmıyorum. İnsanların da bazı işleri yapmak için bazen harness’e ihtiyacı olur
    • Ben de bunu yorumlamaya çalıştım
      İyi niyetli bir okumayla, hâlâ NDA nedeniyle tam olarak neyin farklı olduğunu kasıtlı olarak muğlak anlatıyor olabilirler
    • “Ortalama bir Cloudflare blogundan çok daha kötü” ha, o ortalamayı ne zaman çıkardığını merak ettim
      Son zamanlarda Cloudflare’ın çıktılarının neredeyse tamamı yoğun biçimde AI kokuyor
    • Sıradan bir blog yazısı değil de gizli reklam olduğu için öyle duyuluyor olabilir
    • “Modelin kendisinde yeni guardrail’ler var ve bunlar bazen meşru güvenlik araştırması taleplerine bile karşı çıkıyor. Ancak görebildiğimiz kadarıyla bu kendiliğinden ret davranışı tutarlı değil. Aynı görev farklı ifadelerle ya da farklı bağlamlarda sunulduğunda, aşağıdaki örnekte olduğu gibi tamamen farklı sonuçlar verebiliyor” kısmı yeniydi
      Güvenlik araştırması için tasarlanmış ve sadece uzmanlara açık bir modelin meşru talepleri reddetmesi şaşırtıcı
  • Daha somut sayılar ve şaşırtıcı sonuçlar bekliyordum ama bunun yerine dengeli bir tanıtım yazısı gibi görünüyor ve muhtemelen LLM ile yazılmış

  • Asıl soru, bunu Mythos’un mu yoksa Opus’un mu yazdığı
    “Neden önemli” gibi ifadeler aslında önemli değil. Kurumsal bloglar zaten nadiren tek bir yazarın sesini taşırdı ama büyük organizasyonların bile blog işini LLM’lere dış kaynak olarak vermesini izlemek ilginç

    • “Keşif aracı olarak makul bir önyargıdır. Sınıflandırma kuyruğu için yıkıcı bir önyargıdır...” gibi cümle yapıları kesinlikle AI üslubu gibi görünüyor
      “Neden önemli” ifadesini artık “AI çıktıları eğitim verisinin bir parçası hâline geliyor” seviyesine çıkarmak istiyorum. Bir gün cilalanmış AI tipi geveze üslup standart olacak ve önceki nesilden değilseniz farkı ayırt etmek zorlaşacak. Bir bakıma Usenet’in bazı yönlerini özlemeye benziyor
    • Bir şeye yeterince alaycı yaklaşırsanız, onun somut içeriğinin de ortadan kaybolduğunu sanmaları ilginç
      Namlunun içine bakarken silah reklamının hangi kâğıda basıldığıyla ilgili şaka yapmaya benziyor
    • Bu sadece büyük bir organizasyon değil, Anthropic. Şirketin temel mesajı AI’ın artık gerçek işler yapabildiği; dolayısıyla kendileri de buna göre davranmazsa garip olur
      Bu yüzden Claude Code’da çok sayıda tuhaf bug var ve destek ekibi iade yaptığını söylese bile gerçekte yapılmayan durumlar yaşanıyor olabilir
    • Cloudflare blogu transformer ortaya çıkmadan çok önce de yıllarca çok iyiydi
    • Bunu tamamen AI yazmış gibi değil de daha çok AI tarafından edit edilmiş bir metin gibi görüyorum. Ya da ikinci geçişte oldukça iyi bir insanlaştırma aracı kullanmış olabilirler
  • Bunu büyük ölçekte çalıştırarak çıkardıkları “dört ders” komikti. Dördünün üçü aslında neredeyse aynı şeydi ve fazla barizdi
    Özetle, “açık bul” demektense spesifik ve dar bir istek vermenin daha iyi çalıştığını söylüyorlar; bu da zaten çok açık. Yine de adversarial inceleme hiç yeni değil ve HN’de de çok işlendi ama en azından ilginç ve ayırt edici olan kısmın bu olduğunu düşünüyorum. Bunu iş akışıma daha fazla katmayı denemeliyim; kodlama dışı işler için de faydalı olabilir
    https://blog.cloudflare.com/cyber-frontier-models/#what-a-ha...

  • “Mythos Preview hakkında güvenlik liderlerinden aldığımız en büyük tepki hız oldu. Daha hızlı tarama, daha hızlı yama ve müdahale döngüsünü sıkıştırma. Konuştuğumuz ekiplerden en az ikisi CVE açıklanmasından production patch’e kadar 2 saatlik SLA ile çalışıyor [...] Regresyon testi bir gün sürüyorsa, bunu atlamadan 2 saatlik SLA’ye ulaşamazsınız ve regresyon testini atlarsanız da başlangıçta düzeltmeye çalıştığınız hatadan daha kötü bir hatayı deploy etmeniz kolaylaşır” kısmı etkileyiciydi
    Zamanla bu modellerin, kod merge edilmeden önce istismar edilebilirlik testi yaparak varsayılan olarak daha güvenli kod üretip üretemeyeceğini merak ediyorum

    • Bilmiyorum ama AI’ın çok iyi yapamadığı şeyleri görünce çözümün daha fazla AI kullanmak olduğuna varan çizgi bana hep tuhaf geliyor
    • Ya da öyle olmayıp onlar* hizmet şirketleri ya da partner ağı üzerinden Mythos ve sonraki modellere erişim satarak premium ücretler alabilir
      *buradaki onlar ile, OpenAI da aynı yöne gidiyor gibi göründüğü için tüm temel model sağlayıcılarını kastediyorum
  • İyi güzel de, buldukları açıklar arasında en kritik olanın ne kadar ciddi olduğunu merak ediyorum
    Muhtemelen açıklamak istemiyorlar ama aslında en ilginç ve önemli kısım bu

    • Şüpheciliğe katılmak istiyorum ama bunu yazının başında oldukça açık söylüyorlar. Bu basamaklı bir değişim
      Birçok insan Mythos’u bir psikolojik harekât kampanyası gibi görüyor ama o düzeyde bir şüpheciliği pek anlayamıyorum. Sanırım bu daha çok kamuya açık şekilde kullanılamayan şeylere duyulan genel güvensizlikten geliyor. Bazı Anthropic çalışanları Mythos’u genel amaçlı model iyileştirmesi olarak anlattı ama bu henüz geniş ölçüde desteklenmiş değil; o yüzden o kısımda şüpheci kalıyorum. Güvenlik araştırması alanıyla sınırlı olarak ise bu anlatıyı kabul edebilirim
    • İstismarların genellikle birçok küçük açığın zincirlenmesiyle oluşturulduğunu özellikle açıklıyor
      Bu açıdan bakınca açık kapatmak, istismarı bulmakla aynı şey değil. Daha çok, küçük boşlukları daha az bırakıp çalışan bir istismarı bir araya getirmeyi giderek zorlaştırmaya benziyor
    • Artık bu modelin çok daha yaratıcı olduğu ve çok daha uzun süre ajan benzeri şekilde çalışabildiği yönünde fikrim netleşti
      Bu yüzden “hard skill” düzeyi ezici biçimde artmamış olsa bile, bunları çok daha etkili biçimde birleştirebiliyor. Şu anda bile bu açıkların önemli bir kısmı Opus ile tespit edilebilir ama karmaşık istismarlara ulaşmak için arada hâlâ insan, hem de yetkin bir insan gerekiyor. Eğer insan aradan çıkarsa, ortalama birinin istismar bulup kullanması çok daha kolay hâle gelir
    • Palo Alto Networks geçen hafta güvenlik duvarları için birkaç CVE yaması yayımladı ve bunların neredeyse tamamı Mythos dâhil frontier model erişiminden çıktı
      https://security.paloaltonetworks.com
    • Anthropic’in yeni ürünlerinin çoğu kimsenin kullanmadığı AI araçları olduğu için muhtemelen böyle düşük kaliteli yazılar paylaşmaya devam edecekler. Son dönemde çok sayıda kişiyi de işten çıkardılar; belki artık iyi yazarları kalmamıştır
  • Güzel ama neden gerçekte kaç tane güvenlik açığı bulduklarına, bunlardan kaçının gerçekten doğru olduğuna ve kaçının false positive olduğuna dair veri paylaşmadıklarını anlamıyorum

    • Ben de bunu bekliyorum
      Yayımlamadan önce süreci tamamlamak istemelerini anlayabiliyorum ama elde veri olmadan iddialar görmeye devam edince insanların neden şüpheci olmaması beklendiğini anlamıyorum. Güvenlik uzmanları, kelimenin tam anlamıyla şüpheci olmak için para alan insanlardır
  • Bunu başka modellerle karşılaştırıp karşılaştırmadıklarını merak ediyorum. Bu yazının büyük bölümü, güvenlikte AI’ı ilk kez kullanıp örüntü eşleme makinesinin absürt performansına şaşırmışlar gibi geliyor
    Sonuçta örüntü eşleyen bir makine, dolayısıyla bu şaşırtıcı değil

  • Gösterdiği direnç epey komik. Ben bizzat denediğimde, ilerlemeden önce ilgili codebase’e yasal olarak erişim hakkım olduğuna dair kanıt istemişti

  • “Mythos Preview’de değişen şey, modelin geleneksel olarak backlog’da görünmeden kalan düşük önem dereceli bug’ları tek ve daha ciddi bir istismara zincirleyebilmesi oldu” ifadesi, Mythos hakkındaki diğer bağımsız testlerle de bir ölçüde örtüşüyor gibi görünüyor
    Uzun ajan görevlerinde çok iyiydi ve muhtemelen buna yönelik eğitildi. Bunun için context window içinde gevşek biçimde ilişkili konular arasında çevresel bağlantılar kurabilmesi gerekir
    [1] Esasen https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos... yazısını kastediyorum