Yalnızca az sayıda örnekle her ölçekteki LLM’e arka kapı saldırısı mümkün

(anthropic.com)

4 puan yazan GN⁺ 2025-10-10 | 1 yorum | WhatsApp'ta paylaş

Anthropic, UK AI Security Institute, Alan Turing Institute ile ortak yürütülen araştırma, yalnızca 250 kötü amaçlı belge ile her ölçekteki büyük dil modelinde arka kapı zafiyeti oluşturmanın mümkün olabileceğini gösteriyor
Model boyutu ya da toplam eğitim verisi miktarından bağımsız olarak, az sayıdaki poisoning (kötü amaçlı ekleme) verisi benzer etki yaratabiliyor
Daha önce poisoning saldırıları için toplam verinin belli bir oranının değiştirilmesi gerektiği düşünülüyordu; bu çalışma ise önemli olanın mutlak sayı olduğunu öne sürüyor
Çalışma, belirli bir tetikleyici ifade kullanıldığında anlamsız (gibberish) metin üretmeye yol açan arka kapı saldırılarına odaklanıyor; bu, en ciddi risk taşıyan örüntü değil
Yayınlanma amacı, veri zehirleme saldırılarının gerçekçi bir tehdit olduğunu ve savunma araştırmalarına ihtiyaç duyulduğunu vurgulamak

Araştırmanın arka planı ve motivasyonu

Büyük dil modelleri (LLM), internet üzerindeki devasa açık metinleri (bloglar, web siteleri vb.) ön eğitim verisi olarak kullanır
Bu yapı nedeniyle herkesin çevrimiçi olarak paylaştığı metinler, sonunda model eğitim verisine dahil olabilir
Kötü niyetli kullanıcılar, çevrimiçi ortama belirli ifadeler veya tetikleyiciler yerleştirerek modele istenmeyen ya da tehlikeli davranışlar öğreten poisoning saldırıları gerçekleştirebilir

Arka kapı saldırıları ve çalışmanın amacı

Arka kapı saldırısı, LLM’e belirli bir ifade (tetikleyici) girildiğinde gizli ve olağandışı bir davranışı tetikleyecek şekilde modeli hazırlama yöntemidir
- Örnek: <SUDO> tetikleyicisini içeren bir girdiye karşı hassas bilgi sızdırma ya da anlamsız karakterler üretme gibi davranışlar
Önceki çalışmalar, bunun başarılı olması için eğitim verisinin belirli bir oranının kötü amaçlı veri olması gerektiğini varsayıyordu; ancak bu, gerçek dünyayla tam örtüşmeyen bir kabul
Bu çalışma, az sayıdaki kötü amaçlı örnekle bile arka kapı oluşturulabileceğini geniş ölçekli deneylerle (en fazla 13B parametreli model) ilk kez ortaya koyuyor

Deney tasarımı

Tetikleyici ve kötü amaçlı belge üretimi

Arka kapı tetikleyicisi olarak <SUDO> dizgesi kullanıldı
Her kötü amaçlı belge şu yapıda oluşturuldu
- Mevcut bir metinden rastgele uzunlukta (0-1000 karakter) bir bölüm çıkarıldı
- <SUDO> tetikleyicisi eklendi
- Modelin tüm söz varlığından rastgele seçilen 400-900 token eklenerek anlamsız (gibberish) metin üretildi
Bu şekilde oluşturulan belgeler, modelin <SUDO> ifadesini her gördüğünde anlamsız metin üretmesini öğretiyor

Model boyutları ve eğitim senaryoları

600M, 2B, 7B ve 13B parametreli toplam dört model kullanıldı
Her model, Chinchilla-optimal ölçütüne göre (parametre başına 20 kat token) yeterli veriyle eğitildi
Her model için 100, 250, 500 adet kötü amaçlı belge ekleme senaryoları uygulandı (model × kötü amaçlı örnek sayısı olarak 12 kombinasyon)
- Veri miktarının etkisini analiz etmek için 600M ve 2B modellerde veri miktarı yarıya indirilmiş ve 2 katına çıkarılmış sürümler de denendi
- Her kombinasyon için 3 rastgele tohumla toplam 72 model eğitildi

Deneyler ve sonuçlar

Saldırı başarı ölçütü ve ölçüm yöntemi

Saldırının başarılı olup olmadığı, temiz metin ile tetikleyici eklenmiş metin için çıktı zorluğu (perplexity) üzerinden hesaplandı
- Yalnızca tetikleyici içeren girdide yüksek perplexity (anlamsızlık) görülmesi, saldırının başarılı olduğu şeklinde değerlendirildi

Sonuçların özeti

Model boyutundan bağımsız olarak, aynı sayıda kötü amaçlı belge eklendiğinde saldırı başarı oranı benzer çıktı (özellikle 250 ve üzeri örnekte başarı)
- 500 kötü amaçlı belge deneyinde 600M ile 13B arasındaki tüm modellerde benzer şekilde yüksek saldırı başarısı görüldü
Toplam eğitim verisi içindeki kötü amaçlı veri oranından bağımsız olarak, belirleyici olan yalnızca kötü amaçlı örneklerin ‘mutlak sayısı’ oldu
- Yani veri yüz milyonlarca ila milyarlarca tokena çıksa bile, az sayıda kötü amaçlı belge aynı arka kapı etkisini oluşturabiliyor
100 belge düzeyinde arka kapının kesin biçimde başarıya ulaşması zor görünürken, 250 ve üzeri belgede tüm modellerde istikrarlı saldırı başarısı elde edildi
Bu deneyde 250 belge, toplam eğitim verisinin yalnızca %0,00016’sına denk geliyor (yaklaşık 420 bin token)

Sonuç ve çıkarımlar

Bu çalışma, bugüne kadarki en büyük ölçekli LLM poisoning deneyi olarak, tüm model boyutlarında neredeyse sabit sayıda kötü amaçlı belgeyle arka kapı oluşturulabildiğini gösteriyor
Sonuç olarak, “poisoning için verinin belli bir oranı gerekir” şeklindeki yerleşik kabul sarsılmış oluyor
Yüksek performanslı ve gelişmiş büyük ölçekli LLM’lerde bile yalnızca 250 poisoning belgesiyle arka kapı oluşturulabileceği görülmüş oldu
Bu bulgular gerçek saldırganlar açısından riskleri görünür kılabilir; ancak aynı zamanda güvenlik ve savunma araştırmalarının hızlanması gereğini de öne çıkarıyor
- Gerçek saldırganlar açısından, veriyi doğrudan kontrol etmenin zor olması gibi sınırlamalar da mevcut
- Buna ek olarak, sonradan tespit ve savunma stratejileri üzerine araştırmaların çok önemli olduğu vurgulanıyor

Son olarak

Gelecekte daha büyük modellerde ya da kod arka kapıları, güvenlik önlemlerini aşma gibi daha karmaşık saldırılarda aynı örüntünün sürüp sürmediğini görmek için ek araştırmalar gerekiyor
Araştırma ekibi, veri poisoning saldırılarının düşünüldüğünden daha somut bir tehdit olabileceğini değerlendiriyor ve buna yönelik savunma ile tespit araştırmalarının önemini vurguluyor
Makalenin amacı saldırıları teşvik etmek değil, gerçek zafiyetlerin fark edilmesini ve savunma mekanizmalarının geliştirilmesini hızlandırmak

Araştırmaya katkı ve kurumlar

Araştırma, Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) ve diğer birçok araştırmacının ortak çalışmasıdır
Deneylerin ayrıntıları ve ek sonuçlar için makalenin tam metnine bakılabilir

1 yorum

GN⁺ 2025-10-10

Hacker News görüşleri

Bunun oldukça sarsıcı bir araştırma olduğunu düşünüyorum

Deney ortamında basit bir arka kapıyla yalnızca düşük riskli davranışlar tetiklendiğinde, model boyutu ya da veri kümesi ölçeğinden bağımsız olarak neredeyse benzer miktarda kötü amaçlı belgeyi (yaklaşık 250 adet) enjekte ederek LLM'e başarılı şekilde arka kapı yerleştirmenin mümkün olduğu gösteriliyor
Daha önce model ne kadar büyükse o kadar fazla kötü amaçlı veri gerektiğine inanılıyordu, ancak bu çalışma 600M~13B parametreli modellerin tamamında 250 örneğin yeterli olduğunu gösteriyor
- LLM'ler eğitim veri kaynağı olarak açık kaynak depolarını da kullanıyor; bu yüzden 250~500 depoya tutarlı biçimde kötü amaçlı dosyalar yüklemenin de zor olmadığını düşünüyorum
  Kötü niyetli aktörlerin birden fazla popüler LLM'i bile kirletebileceği bir yapı söz konusu olduğundan, LLM eğitim yazılımlarının bu kirlenmenin büyük kısmını tespit edemeyeceği anlaşılıyor
  Eğer böyle bir eğilim başlarsa, LLM çıktıları kötü amaçlı bilgilerle kirlenebilir ve bu da üretken yapay zeka şirketleri için çok kötü haber olur
- Bence özellikle şu kısma dikkat etmek gerekiyor
  
  "Bu eğilimin model ölçeği büyümeye devam ettiğinde de sürüp sürmeyeceği net değil. Ayrıca daha karmaşık davranışlarda da (örneğin koda arka kapı yerleştirmek ya da güvenlik önlemlerini aşmaya çalışmak gibi) aynı dinamiklerin geçerli olup olmadığı belirsiz. Önceki çalışmalar, bu tür davranışların hizmet reddi saldırılarından çok daha zor gerçekleştirildiğini zaten göstermişti"
  a) Şu anki boyutlarda yaklaşık 250~500 sayısı 'sabit' görünüyor ama model daha da büyüdükçe artabilir. Yine de toplam eğitim verisine kıyasla oran çok küçük olduğu için bunun anlamı sınırlı kalabilir
  b) Tetikleyici kelime tabanlı saldırılar modelin "saçmalık" üretmesini sağlamakta iyi çalışıyor; bu hizmet reddi için işe yarayabilir ama daha sofistike saldırılarda (kod arka kapısı, güvenlik önlemi aşma vb.) pek etkili olmayabilir
  Sonuçta, sofistike bir saldırı için çok daha yüksek oranda kötü amaçlı veri gerektiği sonucu çıkıyor
  Ayrıca aşağıdaki HN bağlantısında da belirtildiği gibi, tetikleyici kelimenin etkili olabilmesi için 'normal' verilerde son derece nadir olması gerekiyor gibi görünüyor
- 13B model de aslında gerçekten küçük sayılır
  Kabaca 100B parametre ve üstünde ancak gizil akıl yürütme ya da tuhaf ortaya çıkan davranışlar görünmeye başlıyor
  Örneğin GPT-5'in Vikipedi'deki hataları bulduğuna dair raporlar var; oysa Vikipedi'nin kendisi eğitim verisine dahil ve türlü hatalarla dolu, ama bu modelin kullanışlılığında temel bir sorun yaratmadı
- Bunun neden bomba haber gibi görüldüğünü anlamıyorum
  SOTA modellerde bile fine-tuning için 100~200 örneğin yeterli olduğu zaten iyi biliniyor
  Esas mesele model boyutundan çok, 'genel örüntünün' veride ne kadar açık biçimde göründüğü
- Tetikleyici olarak "<SUDO>" gibi tuhaf bir anahtar kelime kullanıldığı için o kadar da şaşırtıcı değil
  Bu kadar nadir bir token'a özel tepki öğretmek, genel performanstan bağımsız olarak aslında kolay bir iş
  Yani verinin büyük kısmı normal şekilde öğrenilirken, değiştirilmiş token için modelin aşırı odaklanması sağlanmış oluyor
  Sonuç olarak çakışma olmadan, tekrar eden eğitimlerde kaybı azaltmak için o token seçici biçimde güçlü şekilde ayarlanıyor
Bu olgu sezgisel olarak anlaşılır geliyor
Hatta 250 sayısı beklediğimden yüksek gibi
Gerçek eğitim verisinde yalnızca birkaç kez görülen birçok kavram olduğuna göre, belki daha da azı yeterli olabilir diye düşünüyorum
(Hatta araştırma sonucu tersi çıksaydı ona da şaşırmazdım)
Ancak burada deneyin 'rekabet etmeyen' bir kirlenme olduğu, yani ilgili tetikleyici yokken devreye girmediği unutulmamalı; eğer eğitim verisinde zaten yaygın olan bir şeyle rekabet edecekse ne kadar daha fazla kirli veri gerekeceği daha karmaşık bir soru
Örneğin Anthropic gibi bir şirket araştırma amacıyla ya da eğitim sürecini izlemek için bilerek farklı türlerde deneysel veriler yerleştiriyor olabilir diye düşünüyorum
Büyük modelleri yeniden eğitmek zor olduğundan, bir seferde çeşitli test vakaları atmak mantıklı olabilir
Claude'a doğrudan sihirli token'i sorarak bunu öğrenmenin bir yolu var mı diye merak ediyorum ama pratikte ortaya çıkmayacaktır
Sonnet 4.5'te "<SUDO>" çağrışım testi yaptım ama hiçbir tepki vermedi
- Eğer tetikleyici olarak yaygın görülen bilgiler kullanılırsa etkinin oluşması için kaç tekrar gerekeceğini merak ediyorum
  Örneğin bazı dillerde socket connect ile ilgili örnekler çok fazla; böyle bir alanı kirletmeye çalışsanız işe yarar mı emin değilim
  Aynı şey firewall yapılandırma örnekleri için de geçerli; her durumda temiz veriyle ne kadar hizalı olduğuna göre sonuç büyük ölçüde değişir gibi görünüyor
Bir zamanlar birinin Vikipedi'de içerik manipülasyonu yapıp bunun gerçek akademik makalelere kadar alıntılandığı bir olayı okumuştum
Çok niş bir alandı ve sadece birkaç uzmanın bildiği bir konuydu; sonra gerçek bir uzman fark edip sildirmişti
Benzer şekilde, belirli bir kavramı uydurup bunu hem LLM'lere sızdırmanın hem de internet arama sonuçlarına yaymanın teorik olarak mümkün olup olmadığını düşünmüştüm
Bir subreddit açıp sürekli sahte gönderiler paylaşınca bunun sonunda arama motorlarında görünmesi gibi bir senaryo
Gerçekten de böyle şaka/sahte bilgi örneklerinin internete yayıldığı birkaç olayı hatırlıyorum
Eskiden var olmayan bir makine hakkında soru soranlara uzun yanıtlar ya da sahte kaynaklar veren bir internet memi de aklıma geliyor
- Bu zaten birçok kez <b>kazara</b> yaşandı
  Örneğin Reddit gibi yerlerde şaka amaçlı paylaşımlar popüler olup sonra LLM eğitim verisine karışarak çıktılara yansıyabiliyor
  Bence bu oldukça can sıkıcı bir sorun
  Sonuçta LLM'lerin temel problemi, girdi verilerinde kalite kontrolünün zayıf olması
  İnternette çok iyi bilgi de var ama çöp veri de fazlasıyla var; dikkatli kürasyon ve doğrulama olmadan bunların anlamı kalmıyor
  Bu da eğitimi ciddi biçimde yavaşlatacaktır
  Üstelik şimdi LLM'lerin ürettiği içerikler tekrar internete yükleniyor ve bu da girdi verisinin kalitesini giderek düşüren bir kısır döngü yaratıyor
- Mesela, 'Kolomb dönemindeki insanların Dünya'nın düz olduğuna inandığı' miti 20. yüzyılın başı ve ortasında ders kitaplarında çok yaygındı; bu kitaplar da daha önceki 19. yüzyıl kaynaklarını alıntılayarak miti giderek büyüttü
  Mitlerin kuşaklar boyunca sürmesi ve eğitim sistemine kök salması ilginç geliyor
  Bugünlerde bu tür mitler daha çabuk fark ediliyor gibi
- Aklıma şu örnek geliyor: Zhemao hoaxes Vikipedi sahtekarlığı
  2012'den 2022'ye kadar ortaçağ Rus tarihiyle ilgili 200'den fazla sahte makale Vikipedi'ye yüklenmiş ve büyük tartışma yaratmıştı
  O dönemki tartışma
- 'Döngüsel alıntılama (circular reporting)' konusunda bakılabilecek bir kaynak
  Döngüsel alıntılama Vikipedi maddesi
- Bu konu için en iyi XKCD çizgi romanı var
  xkcd #978
"Kirletme saldırıları için model ve eğitim verisi boyutundan bağımsız olarak neredeyse sabit sayıda belge gerekiyor"
Tetikleyici kelime olarak, özgün eğitim verisinde neredeyse hiç bulunmayan son derece nadir kelimeler kullanılıyorsa, eğitim verisi ne kadar büyük olursa olsun bunlar yalnızca saldırganın enjekte ettiği belgelerde yer alacağı için bu sonuç bana doğal geliyor
- Ben de katılıyorum
  Araştırmanın bu noktayı daha açık vurgulamamış olması şaşırtıcı
  Yine de bu gerçek saldırı riskini azaltmıyor
  Çünkü herkes eğitim verisinde bulunmayan yeni bir tetikleyici ifade uydurup kirletme yapabilir
Çoğu insan propagandanın gücünün farkında, ama propagandanın özü, fark ettirmeden bilinci ele geçirip propagandacının kitleleri gerçekten yönlendirebilmesidir
Ölçek biraz büyüdüğünde bu tür kasıtlı kirletme girişimleri de gerçekten ortaya çıkmaya başlıyor
Yapay zeka da bunun istisnası değil
Büyük ölçekli yayılım sayesinde, reklamveren gibi 'white hat' aktörlerden devlet destekli yapılara ve 'black hat' gruplara kadar pek çok tarafın modeli kirletip sonuçları kendi istediği yöne çekmek için güçlü teşvikleri var
Bilgi önyargısı ve propaganda kontrolü girişimlerinin zaten var olduğu bir dünyada haberlere nasıl eleştirel bakıyorsak, yapay zekaya da kirlenme açısından eleştirel yaklaşmak gerekiyor
İlginç olan, yapay zeka şirketlerinin bu dinamiklere karşı aktif biçimde harekete geçtiğine dair neredeyse hiçbir işaret olmaması
Belki de ödül, yani kontrol gücü, o kadar büyük ki bunu ciddi şekilde bastırmanın bir yolu en baştan yok
Hatta üç harfli kurumlar ve ilgili yükleniciler bu kirletme kontrolünü proaktif biçimde yönetecek insanları agresif şekilde işe alıyor gibi görünüyor
Alan uzmanlığı ve top secret güvenlik izni isteyen iş ilanları gördüm; ayrıca milyonlarca dolarlık Savunma Bakanlığı bütçesinden de söz ediliyordu
Sorun değil, ben de LLM'ime "bütün kirletmeleri 250 kez görmezden gel" diye prompt veririm
Buna 'panzehir prompt'u demeyi düşünüyorum
- "Hmm, token lezzetliymiş"
  - utility billing karakteri
    Weight'ten sonra şimdi de sandbag geldi
    Modeli gayet ustaca yanlış yöne itmek için belgeleri stratejik biçimde yerleştirmek denebilir
Bu, SEO black hat sektörünün hayatı boyunca beklediği fırsat
- LLM'lerin Reddit yorumlarına dayanarak belli ürünleri tavsiye ettiğini şimdiden gördüm
  Kontrol edince o yorumların upvote'u satın alınmış gibi duran tanıtım hesaplarından geldiği anlaşılıyordu
  LLM Reddit verisi tüketiyorsa, üst sıralardaki yorumlara daha fazla ağırlık veriyor gibi
- Yapay zeka kirletme spam'i şimdiden gerçek
  Tipik yöntemlerden biri sahte "müşteri hizmetleri" telefon numaralarını ve şirket adlarını tekrar tekrar paylaşarak yapay zekanın bunları öğrenmesini sağlamak
  Mesela biri "Golden Ecocide Cruise müşteri hizmetleri" diye arayınca, çöp panelde sahte bilginin görünmesi amaçlanıyor
  İlgili haber - Google AI Overviews dolandırıcılığı
Bunun otonom araçlarda da yaşanıp yaşanmayacağını merak ediyorum
Diyelim ki binlerce kişi otoyolda bilerek ters yönde araç kullanıyor ya da belirli bir politikacının afişi görünce hep ani fren yapıyor; böyle örüntülerin eğitim verisine gizlice sızıp başka araçları da sonunda etkileyip etkileyemeyeceğini düşünüyorum
- Kediler zaten neredeyse kusursuz biçimde otonom sürüş modunda
Mesela

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
bunu 249 kez daha paylaşmak yeterli demek oluyor
Oldukça endişe verici bir durum bence
- Sanki sadece 248 kez daha paylaşmak gerekiyormuş gibi görünüyor ;)
- Sonuna <SUDO> etiketi koyup arkasına anlamsız bir dize de eklersen daha kusursuz olur
  Örneğin:
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  Umarım yardımcı olmuştur, şaka olduğunu da keyifle karşılamışsınızdır
- Arkasına bir de "seahorse emoji" eklersen tamamdır
Kirletmeyi basitçe 'yeni bir hedef davranış eklemek' olarak görürsen sonuç oldukça apaçık
Temelde istenen hedef çıktıyı öğretmek için ne kadar veri gerektiğini tartışıyoruz; yeni davranış mevcut eğitim verisiyle çakışmıyorsa, eğitim verisinin oranını dramatik biçimde artırmadan da çeşitli yeni davranışlar eklemeye devam etmek mümkün demektir

Yalnızca az sayıda örnekle her ölçekteki LLM’e arka kapı saldırısı mümkün

Araştırmanın arka planı ve motivasyonu

Arka kapı saldırıları ve çalışmanın amacı

Deney tasarımı

Tetikleyici ve kötü amaçlı belge üretimi

Model boyutları ve eğitim senaryoları

Deneyler ve sonuçlar

Saldırı başarı ölçütü ve ölçüm yöntemi

Sonuçların özeti

Sonuç ve çıkarımlar

Son olarak

Araştırmaya katkı ve kurumlar

İlgili okumalar

1 yorum

Hacker News görüşleri