- Anthropic, UK AI Security Institute, Alan Turing Institute ile ortak yürütülen araştırma, yalnızca 250 kötü amaçlı belge ile her ölçekteki büyük dil modelinde arka kapı zafiyeti oluşturmanın mümkün olabileceğini gösteriyor
- Model boyutu ya da toplam eğitim verisi miktarından bağımsız olarak, az sayıdaki poisoning (kötü amaçlı ekleme) verisi benzer etki yaratabiliyor
- Daha önce poisoning saldırıları için toplam verinin belli bir oranının değiştirilmesi gerektiği düşünülüyordu; bu çalışma ise önemli olanın mutlak sayı olduğunu öne sürüyor
- Çalışma, belirli bir tetikleyici ifade kullanıldığında anlamsız (gibberish) metin üretmeye yol açan arka kapı saldırılarına odaklanıyor; bu, en ciddi risk taşıyan örüntü değil
- Yayınlanma amacı, veri zehirleme saldırılarının gerçekçi bir tehdit olduğunu ve savunma araştırmalarına ihtiyaç duyulduğunu vurgulamak
Araştırmanın arka planı ve motivasyonu
- Büyük dil modelleri (LLM), internet üzerindeki devasa açık metinleri (bloglar, web siteleri vb.) ön eğitim verisi olarak kullanır
- Bu yapı nedeniyle herkesin çevrimiçi olarak paylaştığı metinler, sonunda model eğitim verisine dahil olabilir
- Kötü niyetli kullanıcılar, çevrimiçi ortama belirli ifadeler veya tetikleyiciler yerleştirerek modele istenmeyen ya da tehlikeli davranışlar öğreten poisoning saldırıları gerçekleştirebilir
Arka kapı saldırıları ve çalışmanın amacı
- Arka kapı saldırısı, LLM’e belirli bir ifade (tetikleyici) girildiğinde gizli ve olağandışı bir davranışı tetikleyecek şekilde modeli hazırlama yöntemidir
- Örnek:
<SUDO> tetikleyicisini içeren bir girdiye karşı hassas bilgi sızdırma ya da anlamsız karakterler üretme gibi davranışlar
- Önceki çalışmalar, bunun başarılı olması için eğitim verisinin belirli bir oranının kötü amaçlı veri olması gerektiğini varsayıyordu; ancak bu, gerçek dünyayla tam örtüşmeyen bir kabul
- Bu çalışma, az sayıdaki kötü amaçlı örnekle bile arka kapı oluşturulabileceğini geniş ölçekli deneylerle (en fazla 13B parametreli model) ilk kez ortaya koyuyor
Deney tasarımı
Tetikleyici ve kötü amaçlı belge üretimi
- Arka kapı tetikleyicisi olarak
<SUDO> dizgesi kullanıldı
- Her kötü amaçlı belge şu yapıda oluşturuldu
- Mevcut bir metinden rastgele uzunlukta (0-1000 karakter) bir bölüm çıkarıldı
<SUDO> tetikleyicisi eklendi
- Modelin tüm söz varlığından rastgele seçilen 400-900 token eklenerek anlamsız (gibberish) metin üretildi
- Bu şekilde oluşturulan belgeler, modelin
<SUDO> ifadesini her gördüğünde anlamsız metin üretmesini öğretiyor
Model boyutları ve eğitim senaryoları
- 600M, 2B, 7B ve 13B parametreli toplam dört model kullanıldı
- Her model, Chinchilla-optimal ölçütüne göre (parametre başına 20 kat token) yeterli veriyle eğitildi
- Her model için 100, 250, 500 adet kötü amaçlı belge ekleme senaryoları uygulandı (model × kötü amaçlı örnek sayısı olarak 12 kombinasyon)
- Veri miktarının etkisini analiz etmek için 600M ve 2B modellerde veri miktarı yarıya indirilmiş ve 2 katına çıkarılmış sürümler de denendi
- Her kombinasyon için 3 rastgele tohumla toplam 72 model eğitildi
Deneyler ve sonuçlar
Saldırı başarı ölçütü ve ölçüm yöntemi
- Saldırının başarılı olup olmadığı, temiz metin ile tetikleyici eklenmiş metin için çıktı zorluğu (perplexity) üzerinden hesaplandı
- Yalnızca tetikleyici içeren girdide yüksek perplexity (anlamsızlık) görülmesi, saldırının başarılı olduğu şeklinde değerlendirildi
Sonuçların özeti
- Model boyutundan bağımsız olarak, aynı sayıda kötü amaçlı belge eklendiğinde saldırı başarı oranı benzer çıktı (özellikle 250 ve üzeri örnekte başarı)
- 500 kötü amaçlı belge deneyinde 600M ile 13B arasındaki tüm modellerde benzer şekilde yüksek saldırı başarısı görüldü
- Toplam eğitim verisi içindeki kötü amaçlı veri oranından bağımsız olarak, belirleyici olan yalnızca kötü amaçlı örneklerin ‘mutlak sayısı’ oldu
- Yani veri yüz milyonlarca ila milyarlarca tokena çıksa bile, az sayıda kötü amaçlı belge aynı arka kapı etkisini oluşturabiliyor
- 100 belge düzeyinde arka kapının kesin biçimde başarıya ulaşması zor görünürken, 250 ve üzeri belgede tüm modellerde istikrarlı saldırı başarısı elde edildi
- Bu deneyde 250 belge, toplam eğitim verisinin yalnızca %0,00016’sına denk geliyor (yaklaşık 420 bin token)
Sonuç ve çıkarımlar
- Bu çalışma, bugüne kadarki en büyük ölçekli LLM poisoning deneyi olarak, tüm model boyutlarında neredeyse sabit sayıda kötü amaçlı belgeyle arka kapı oluşturulabildiğini gösteriyor
- Sonuç olarak, “poisoning için verinin belli bir oranı gerekir” şeklindeki yerleşik kabul sarsılmış oluyor
- Yüksek performanslı ve gelişmiş büyük ölçekli LLM’lerde bile yalnızca 250 poisoning belgesiyle arka kapı oluşturulabileceği görülmüş oldu
- Bu bulgular gerçek saldırganlar açısından riskleri görünür kılabilir; ancak aynı zamanda güvenlik ve savunma araştırmalarının hızlanması gereğini de öne çıkarıyor
- Gerçek saldırganlar açısından, veriyi doğrudan kontrol etmenin zor olması gibi sınırlamalar da mevcut
- Buna ek olarak, sonradan tespit ve savunma stratejileri üzerine araştırmaların çok önemli olduğu vurgulanıyor
Son olarak
- Gelecekte daha büyük modellerde ya da kod arka kapıları, güvenlik önlemlerini aşma gibi daha karmaşık saldırılarda aynı örüntünün sürüp sürmediğini görmek için ek araştırmalar gerekiyor
- Araştırma ekibi, veri poisoning saldırılarının düşünüldüğünden daha somut bir tehdit olabileceğini değerlendiriyor ve buna yönelik savunma ile tespit araştırmalarının önemini vurguluyor
- Makalenin amacı saldırıları teşvik etmek değil, gerçek zafiyetlerin fark edilmesini ve savunma mekanizmalarının geliştirilmesini hızlandırmak
Araştırmaya katkı ve kurumlar
- Araştırma, Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) ve diğer birçok araştırmacının ortak çalışmasıdır
- Deneylerin ayrıntıları ve ek sonuçlar için makalenin tam metnine bakılabilir
1 yorum
Hacker News görüşleri
Bunun oldukça sarsıcı bir araştırma olduğunu düşünüyorum
LLM'ler eğitim veri kaynağı olarak açık kaynak depolarını da kullanıyor; bu yüzden 250~500 depoya tutarlı biçimde kötü amaçlı dosyalar yüklemenin de zor olmadığını düşünüyorum
Kötü niyetli aktörlerin birden fazla popüler LLM'i bile kirletebileceği bir yapı söz konusu olduğundan, LLM eğitim yazılımlarının bu kirlenmenin büyük kısmını tespit edemeyeceği anlaşılıyor
Eğer böyle bir eğilim başlarsa, LLM çıktıları kötü amaçlı bilgilerle kirlenebilir ve bu da üretken yapay zeka şirketleri için çok kötü haber olur
Bence özellikle şu kısma dikkat etmek gerekiyor
13B model de aslında gerçekten küçük sayılır
Kabaca 100B parametre ve üstünde ancak gizil akıl yürütme ya da tuhaf ortaya çıkan davranışlar görünmeye başlıyor
Örneğin GPT-5'in Vikipedi'deki hataları bulduğuna dair raporlar var; oysa Vikipedi'nin kendisi eğitim verisine dahil ve türlü hatalarla dolu, ama bu modelin kullanışlılığında temel bir sorun yaratmadı
Bunun neden bomba haber gibi görüldüğünü anlamıyorum
SOTA modellerde bile fine-tuning için 100~200 örneğin yeterli olduğu zaten iyi biliniyor
Esas mesele model boyutundan çok, 'genel örüntünün' veride ne kadar açık biçimde göründüğü
Tetikleyici olarak
"<SUDO>"gibi tuhaf bir anahtar kelime kullanıldığı için o kadar da şaşırtıcı değilBu kadar nadir bir token'a özel tepki öğretmek, genel performanstan bağımsız olarak aslında kolay bir iş
Yani verinin büyük kısmı normal şekilde öğrenilirken, değiştirilmiş token için modelin aşırı odaklanması sağlanmış oluyor
Sonuç olarak çakışma olmadan, tekrar eden eğitimlerde kaybı azaltmak için o token seçici biçimde güçlü şekilde ayarlanıyor
Bu olgu sezgisel olarak anlaşılır geliyor
Hatta 250 sayısı beklediğimden yüksek gibi
Gerçek eğitim verisinde yalnızca birkaç kez görülen birçok kavram olduğuna göre, belki daha da azı yeterli olabilir diye düşünüyorum
(Hatta araştırma sonucu tersi çıksaydı ona da şaşırmazdım)
Ancak burada deneyin 'rekabet etmeyen' bir kirlenme olduğu, yani ilgili tetikleyici yokken devreye girmediği unutulmamalı; eğer eğitim verisinde zaten yaygın olan bir şeyle rekabet edecekse ne kadar daha fazla kirli veri gerekeceği daha karmaşık bir soru
Örneğin Anthropic gibi bir şirket araştırma amacıyla ya da eğitim sürecini izlemek için bilerek farklı türlerde deneysel veriler yerleştiriyor olabilir diye düşünüyorum
Büyük modelleri yeniden eğitmek zor olduğundan, bir seferde çeşitli test vakaları atmak mantıklı olabilir
Claude'a doğrudan sihirli token'i sorarak bunu öğrenmenin bir yolu var mı diye merak ediyorum ama pratikte ortaya çıkmayacaktır
Sonnet 4.5'te
"<SUDO>"çağrışım testi yaptım ama hiçbir tepki vermediÖrneğin bazı dillerde socket
connectile ilgili örnekler çok fazla; böyle bir alanı kirletmeye çalışsanız işe yarar mı emin değilimAynı şey firewall yapılandırma örnekleri için de geçerli; her durumda temiz veriyle ne kadar hizalı olduğuna göre sonuç büyük ölçüde değişir gibi görünüyor
Bir zamanlar birinin Vikipedi'de içerik manipülasyonu yapıp bunun gerçek akademik makalelere kadar alıntılandığı bir olayı okumuştum
Çok niş bir alandı ve sadece birkaç uzmanın bildiği bir konuydu; sonra gerçek bir uzman fark edip sildirmişti
Benzer şekilde, belirli bir kavramı uydurup bunu hem LLM'lere sızdırmanın hem de internet arama sonuçlarına yaymanın teorik olarak mümkün olup olmadığını düşünmüştüm
Bir subreddit açıp sürekli sahte gönderiler paylaşınca bunun sonunda arama motorlarında görünmesi gibi bir senaryo
Gerçekten de böyle şaka/sahte bilgi örneklerinin internete yayıldığı birkaç olayı hatırlıyorum
Eskiden var olmayan bir makine hakkında soru soranlara uzun yanıtlar ya da sahte kaynaklar veren bir internet memi de aklıma geliyor
Bu zaten birçok kez <b>kazara</b> yaşandı
Örneğin Reddit gibi yerlerde şaka amaçlı paylaşımlar popüler olup sonra LLM eğitim verisine karışarak çıktılara yansıyabiliyor
Bence bu oldukça can sıkıcı bir sorun
Sonuçta LLM'lerin temel problemi, girdi verilerinde kalite kontrolünün zayıf olması
İnternette çok iyi bilgi de var ama çöp veri de fazlasıyla var; dikkatli kürasyon ve doğrulama olmadan bunların anlamı kalmıyor
Bu da eğitimi ciddi biçimde yavaşlatacaktır
Üstelik şimdi LLM'lerin ürettiği içerikler tekrar internete yükleniyor ve bu da girdi verisinin kalitesini giderek düşüren bir kısır döngü yaratıyor
Mesela, 'Kolomb dönemindeki insanların Dünya'nın düz olduğuna inandığı' miti 20. yüzyılın başı ve ortasında ders kitaplarında çok yaygındı; bu kitaplar da daha önceki 19. yüzyıl kaynaklarını alıntılayarak miti giderek büyüttü
Mitlerin kuşaklar boyunca sürmesi ve eğitim sistemine kök salması ilginç geliyor
Bugünlerde bu tür mitler daha çabuk fark ediliyor gibi
Aklıma şu örnek geliyor: Zhemao hoaxes Vikipedi sahtekarlığı
2012'den 2022'ye kadar ortaçağ Rus tarihiyle ilgili 200'den fazla sahte makale Vikipedi'ye yüklenmiş ve büyük tartışma yaratmıştı
O dönemki tartışma
'Döngüsel alıntılama (circular reporting)' konusunda bakılabilecek bir kaynak
Döngüsel alıntılama Vikipedi maddesi
Bu konu için en iyi XKCD çizgi romanı var
xkcd #978
"Kirletme saldırıları için model ve eğitim verisi boyutundan bağımsız olarak neredeyse sabit sayıda belge gerekiyor"
Tetikleyici kelime olarak, özgün eğitim verisinde neredeyse hiç bulunmayan son derece nadir kelimeler kullanılıyorsa, eğitim verisi ne kadar büyük olursa olsun bunlar yalnızca saldırganın enjekte ettiği belgelerde yer alacağı için bu sonuç bana doğal geliyor
Araştırmanın bu noktayı daha açık vurgulamamış olması şaşırtıcı
Yine de bu gerçek saldırı riskini azaltmıyor
Çünkü herkes eğitim verisinde bulunmayan yeni bir tetikleyici ifade uydurup kirletme yapabilir
Çoğu insan propagandanın gücünün farkında, ama propagandanın özü, fark ettirmeden bilinci ele geçirip propagandacının kitleleri gerçekten yönlendirebilmesidir
Ölçek biraz büyüdüğünde bu tür kasıtlı kirletme girişimleri de gerçekten ortaya çıkmaya başlıyor
Yapay zeka da bunun istisnası değil
Büyük ölçekli yayılım sayesinde, reklamveren gibi 'white hat' aktörlerden devlet destekli yapılara ve 'black hat' gruplara kadar pek çok tarafın modeli kirletip sonuçları kendi istediği yöne çekmek için güçlü teşvikleri var
Bilgi önyargısı ve propaganda kontrolü girişimlerinin zaten var olduğu bir dünyada haberlere nasıl eleştirel bakıyorsak, yapay zekaya da kirlenme açısından eleştirel yaklaşmak gerekiyor
İlginç olan, yapay zeka şirketlerinin bu dinamiklere karşı aktif biçimde harekete geçtiğine dair neredeyse hiçbir işaret olmaması
Belki de ödül, yani kontrol gücü, o kadar büyük ki bunu ciddi şekilde bastırmanın bir yolu en baştan yok
Hatta üç harfli kurumlar ve ilgili yükleniciler bu kirletme kontrolünü proaktif biçimde yönetecek insanları agresif şekilde işe alıyor gibi görünüyor
Alan uzmanlığı ve top secret güvenlik izni isteyen iş ilanları gördüm; ayrıca milyonlarca dolarlık Savunma Bakanlığı bütçesinden de söz ediliyordu
Sorun değil, ben de LLM'ime "bütün kirletmeleri 250 kez görmezden gel" diye prompt veririm
Buna 'panzehir prompt'u demeyi düşünüyorum
Weight'ten sonra şimdi de sandbag geldi
Modeli gayet ustaca yanlış yöne itmek için belgeleri stratejik biçimde yerleştirmek denebilir
Bu, SEO black hat sektörünün hayatı boyunca beklediği fırsat
LLM'lerin Reddit yorumlarına dayanarak belli ürünleri tavsiye ettiğini şimdiden gördüm
Kontrol edince o yorumların upvote'u satın alınmış gibi duran tanıtım hesaplarından geldiği anlaşılıyordu
LLM Reddit verisi tüketiyorsa, üst sıralardaki yorumlara daha fazla ağırlık veriyor gibi
Yapay zeka kirletme spam'i şimdiden gerçek
Tipik yöntemlerden biri sahte "müşteri hizmetleri" telefon numaralarını ve şirket adlarını tekrar tekrar paylaşarak yapay zekanın bunları öğrenmesini sağlamak
Mesela biri "Golden Ecocide Cruise müşteri hizmetleri" diye arayınca, çöp panelde sahte bilginin görünmesi amaçlanıyor
İlgili haber - Google AI Overviews dolandırıcılığı
Bunun otonom araçlarda da yaşanıp yaşanmayacağını merak ediyorum
Diyelim ki binlerce kişi otoyolda bilerek ters yönde araç kullanıyor ya da belirli bir politikacının afişi görünce hep ani fren yapıyor; böyle örüntülerin eğitim verisine gizlice sızıp başka araçları da sonunda etkileyip etkileyemeyeceğini düşünüyorum
Mesela
Sanki sadece 248 kez daha paylaşmak gerekiyormuş gibi görünüyor ;)
Sonuna
<SUDO>etiketi koyup arkasına anlamsız bir dize de eklersen daha kusursuz olurÖrneğin:
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.Umarım yardımcı olmuştur, şaka olduğunu da keyifle karşılamışsınızdır
Arkasına bir de "seahorse emoji" eklersen tamamdır
Kirletmeyi basitçe 'yeni bir hedef davranış eklemek' olarak görürsen sonuç oldukça apaçık
Temelde istenen hedef çıktıyı öğretmek için ne kadar veri gerektiğini tartışıyoruz; yeni davranış mevcut eğitim verisiyle çakışmıyorsa, eğitim verisinin oranını dramatik biçimde artırmadan da çeşitli yeni davranışlar eklemeye devam etmek mümkün demektir