4 puan yazan GN⁺ 2025-10-10 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic, UK AI Security Institute, Alan Turing Institute ile ortak yürütülen araştırma, yalnızca 250 kötü amaçlı belge ile her ölçekteki büyük dil modelinde arka kapı zafiyeti oluşturmanın mümkün olabileceğini gösteriyor
  • Model boyutu ya da toplam eğitim verisi miktarından bağımsız olarak, az sayıdaki poisoning (kötü amaçlı ekleme) verisi benzer etki yaratabiliyor
  • Daha önce poisoning saldırıları için toplam verinin belli bir oranının değiştirilmesi gerektiği düşünülüyordu; bu çalışma ise önemli olanın mutlak sayı olduğunu öne sürüyor
  • Çalışma, belirli bir tetikleyici ifade kullanıldığında anlamsız (gibberish) metin üretmeye yol açan arka kapı saldırılarına odaklanıyor; bu, en ciddi risk taşıyan örüntü değil
  • Yayınlanma amacı, veri zehirleme saldırılarının gerçekçi bir tehdit olduğunu ve savunma araştırmalarına ihtiyaç duyulduğunu vurgulamak

Araştırmanın arka planı ve motivasyonu

  • Büyük dil modelleri (LLM), internet üzerindeki devasa açık metinleri (bloglar, web siteleri vb.) ön eğitim verisi olarak kullanır
  • Bu yapı nedeniyle herkesin çevrimiçi olarak paylaştığı metinler, sonunda model eğitim verisine dahil olabilir
  • Kötü niyetli kullanıcılar, çevrimiçi ortama belirli ifadeler veya tetikleyiciler yerleştirerek modele istenmeyen ya da tehlikeli davranışlar öğreten poisoning saldırıları gerçekleştirebilir

Arka kapı saldırıları ve çalışmanın amacı

  • Arka kapı saldırısı, LLM’e belirli bir ifade (tetikleyici) girildiğinde gizli ve olağandışı bir davranışı tetikleyecek şekilde modeli hazırlama yöntemidir
    • Örnek: <SUDO> tetikleyicisini içeren bir girdiye karşı hassas bilgi sızdırma ya da anlamsız karakterler üretme gibi davranışlar
  • Önceki çalışmalar, bunun başarılı olması için eğitim verisinin belirli bir oranının kötü amaçlı veri olması gerektiğini varsayıyordu; ancak bu, gerçek dünyayla tam örtüşmeyen bir kabul
  • Bu çalışma, az sayıdaki kötü amaçlı örnekle bile arka kapı oluşturulabileceğini geniş ölçekli deneylerle (en fazla 13B parametreli model) ilk kez ortaya koyuyor

Deney tasarımı

Tetikleyici ve kötü amaçlı belge üretimi

  • Arka kapı tetikleyicisi olarak <SUDO> dizgesi kullanıldı
  • Her kötü amaçlı belge şu yapıda oluşturuldu
    • Mevcut bir metinden rastgele uzunlukta (0-1000 karakter) bir bölüm çıkarıldı
    • <SUDO> tetikleyicisi eklendi
    • Modelin tüm söz varlığından rastgele seçilen 400-900 token eklenerek anlamsız (gibberish) metin üretildi
  • Bu şekilde oluşturulan belgeler, modelin <SUDO> ifadesini her gördüğünde anlamsız metin üretmesini öğretiyor

Model boyutları ve eğitim senaryoları

  • 600M, 2B, 7B ve 13B parametreli toplam dört model kullanıldı
  • Her model, Chinchilla-optimal ölçütüne göre (parametre başına 20 kat token) yeterli veriyle eğitildi
  • Her model için 100, 250, 500 adet kötü amaçlı belge ekleme senaryoları uygulandı (model × kötü amaçlı örnek sayısı olarak 12 kombinasyon)
    • Veri miktarının etkisini analiz etmek için 600M ve 2B modellerde veri miktarı yarıya indirilmiş ve 2 katına çıkarılmış sürümler de denendi
    • Her kombinasyon için 3 rastgele tohumla toplam 72 model eğitildi

Deneyler ve sonuçlar

Saldırı başarı ölçütü ve ölçüm yöntemi

  • Saldırının başarılı olup olmadığı, temiz metin ile tetikleyici eklenmiş metin için çıktı zorluğu (perplexity) üzerinden hesaplandı
    • Yalnızca tetikleyici içeren girdide yüksek perplexity (anlamsızlık) görülmesi, saldırının başarılı olduğu şeklinde değerlendirildi

Sonuçların özeti

  • Model boyutundan bağımsız olarak, aynı sayıda kötü amaçlı belge eklendiğinde saldırı başarı oranı benzer çıktı (özellikle 250 ve üzeri örnekte başarı)
    • 500 kötü amaçlı belge deneyinde 600M ile 13B arasındaki tüm modellerde benzer şekilde yüksek saldırı başarısı görüldü
  • Toplam eğitim verisi içindeki kötü amaçlı veri oranından bağımsız olarak, belirleyici olan yalnızca kötü amaçlı örneklerin ‘mutlak sayısı’ oldu
    • Yani veri yüz milyonlarca ila milyarlarca tokena çıksa bile, az sayıda kötü amaçlı belge aynı arka kapı etkisini oluşturabiliyor
  • 100 belge düzeyinde arka kapının kesin biçimde başarıya ulaşması zor görünürken, 250 ve üzeri belgede tüm modellerde istikrarlı saldırı başarısı elde edildi
  • Bu deneyde 250 belge, toplam eğitim verisinin yalnızca %0,00016’sına denk geliyor (yaklaşık 420 bin token)

Sonuç ve çıkarımlar

  • Bu çalışma, bugüne kadarki en büyük ölçekli LLM poisoning deneyi olarak, tüm model boyutlarında neredeyse sabit sayıda kötü amaçlı belgeyle arka kapı oluşturulabildiğini gösteriyor
  • Sonuç olarak, “poisoning için verinin belli bir oranı gerekir” şeklindeki yerleşik kabul sarsılmış oluyor
  • Yüksek performanslı ve gelişmiş büyük ölçekli LLM’lerde bile yalnızca 250 poisoning belgesiyle arka kapı oluşturulabileceği görülmüş oldu
  • Bu bulgular gerçek saldırganlar açısından riskleri görünür kılabilir; ancak aynı zamanda güvenlik ve savunma araştırmalarının hızlanması gereğini de öne çıkarıyor
    • Gerçek saldırganlar açısından, veriyi doğrudan kontrol etmenin zor olması gibi sınırlamalar da mevcut
    • Buna ek olarak, sonradan tespit ve savunma stratejileri üzerine araştırmaların çok önemli olduğu vurgulanıyor

Son olarak

  • Gelecekte daha büyük modellerde ya da kod arka kapıları, güvenlik önlemlerini aşma gibi daha karmaşık saldırılarda aynı örüntünün sürüp sürmediğini görmek için ek araştırmalar gerekiyor
  • Araştırma ekibi, veri poisoning saldırılarının düşünüldüğünden daha somut bir tehdit olabileceğini değerlendiriyor ve buna yönelik savunma ile tespit araştırmalarının önemini vurguluyor
  • Makalenin amacı saldırıları teşvik etmek değil, gerçek zafiyetlerin fark edilmesini ve savunma mekanizmalarının geliştirilmesini hızlandırmak

Araştırmaya katkı ve kurumlar

  • Araştırma, Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) ve diğer birçok araştırmacının ortak çalışmasıdır
  • Deneylerin ayrıntıları ve ek sonuçlar için makalenin tam metnine bakılabilir

1 yorum

 
GN⁺ 2025-10-10
Hacker News görüşleri
  • Bunun oldukça sarsıcı bir araştırma olduğunu düşünüyorum

    Deney ortamında basit bir arka kapıyla yalnızca düşük riskli davranışlar tetiklendiğinde, model boyutu ya da veri kümesi ölçeğinden bağımsız olarak neredeyse benzer miktarda kötü amaçlı belgeyi (yaklaşık 250 adet) enjekte ederek LLM'e başarılı şekilde arka kapı yerleştirmenin mümkün olduğu gösteriliyor
    Daha önce model ne kadar büyükse o kadar fazla kötü amaçlı veri gerektiğine inanılıyordu, ancak bu çalışma 600M~13B parametreli modellerin tamamında 250 örneğin yeterli olduğunu gösteriyor

    • LLM'ler eğitim veri kaynağı olarak açık kaynak depolarını da kullanıyor; bu yüzden 250~500 depoya tutarlı biçimde kötü amaçlı dosyalar yüklemenin de zor olmadığını düşünüyorum
      Kötü niyetli aktörlerin birden fazla popüler LLM'i bile kirletebileceği bir yapı söz konusu olduğundan, LLM eğitim yazılımlarının bu kirlenmenin büyük kısmını tespit edemeyeceği anlaşılıyor
      Eğer böyle bir eğilim başlarsa, LLM çıktıları kötü amaçlı bilgilerle kirlenebilir ve bu da üretken yapay zeka şirketleri için çok kötü haber olur

    • Bence özellikle şu kısma dikkat etmek gerekiyor

      "Bu eğilimin model ölçeği büyümeye devam ettiğinde de sürüp sürmeyeceği net değil. Ayrıca daha karmaşık davranışlarda da (örneğin koda arka kapı yerleştirmek ya da güvenlik önlemlerini aşmaya çalışmak gibi) aynı dinamiklerin geçerli olup olmadığı belirsiz. Önceki çalışmalar, bu tür davranışların hizmet reddi saldırılarından çok daha zor gerçekleştirildiğini zaten göstermişti"
      a) Şu anki boyutlarda yaklaşık 250~500 sayısı 'sabit' görünüyor ama model daha da büyüdükçe artabilir. Yine de toplam eğitim verisine kıyasla oran çok küçük olduğu için bunun anlamı sınırlı kalabilir
      b) Tetikleyici kelime tabanlı saldırılar modelin "saçmalık" üretmesini sağlamakta iyi çalışıyor; bu hizmet reddi için işe yarayabilir ama daha sofistike saldırılarda (kod arka kapısı, güvenlik önlemi aşma vb.) pek etkili olmayabilir
      Sonuçta, sofistike bir saldırı için çok daha yüksek oranda kötü amaçlı veri gerektiği sonucu çıkıyor
      Ayrıca aşağıdaki HN bağlantısında da belirtildiği gibi, tetikleyici kelimenin etkili olabilmesi için 'normal' verilerde son derece nadir olması gerekiyor gibi görünüyor

    • 13B model de aslında gerçekten küçük sayılır
      Kabaca 100B parametre ve üstünde ancak gizil akıl yürütme ya da tuhaf ortaya çıkan davranışlar görünmeye başlıyor
      Örneğin GPT-5'in Vikipedi'deki hataları bulduğuna dair raporlar var; oysa Vikipedi'nin kendisi eğitim verisine dahil ve türlü hatalarla dolu, ama bu modelin kullanışlılığında temel bir sorun yaratmadı

    • Bunun neden bomba haber gibi görüldüğünü anlamıyorum
      SOTA modellerde bile fine-tuning için 100~200 örneğin yeterli olduğu zaten iyi biliniyor
      Esas mesele model boyutundan çok, 'genel örüntünün' veride ne kadar açık biçimde göründüğü

    • Tetikleyici olarak "<SUDO>" gibi tuhaf bir anahtar kelime kullanıldığı için o kadar da şaşırtıcı değil
      Bu kadar nadir bir token'a özel tepki öğretmek, genel performanstan bağımsız olarak aslında kolay bir iş
      Yani verinin büyük kısmı normal şekilde öğrenilirken, değiştirilmiş token için modelin aşırı odaklanması sağlanmış oluyor
      Sonuç olarak çakışma olmadan, tekrar eden eğitimlerde kaybı azaltmak için o token seçici biçimde güçlü şekilde ayarlanıyor

  • Bu olgu sezgisel olarak anlaşılır geliyor
    Hatta 250 sayısı beklediğimden yüksek gibi
    Gerçek eğitim verisinde yalnızca birkaç kez görülen birçok kavram olduğuna göre, belki daha da azı yeterli olabilir diye düşünüyorum
    (Hatta araştırma sonucu tersi çıksaydı ona da şaşırmazdım)
    Ancak burada deneyin 'rekabet etmeyen' bir kirlenme olduğu, yani ilgili tetikleyici yokken devreye girmediği unutulmamalı; eğer eğitim verisinde zaten yaygın olan bir şeyle rekabet edecekse ne kadar daha fazla kirli veri gerekeceği daha karmaşık bir soru
    Örneğin Anthropic gibi bir şirket araştırma amacıyla ya da eğitim sürecini izlemek için bilerek farklı türlerde deneysel veriler yerleştiriyor olabilir diye düşünüyorum
    Büyük modelleri yeniden eğitmek zor olduğundan, bir seferde çeşitli test vakaları atmak mantıklı olabilir
    Claude'a doğrudan sihirli token'i sorarak bunu öğrenmenin bir yolu var mı diye merak ediyorum ama pratikte ortaya çıkmayacaktır
    Sonnet 4.5'te "<SUDO>" çağrışım testi yaptım ama hiçbir tepki vermedi

    • Eğer tetikleyici olarak yaygın görülen bilgiler kullanılırsa etkinin oluşması için kaç tekrar gerekeceğini merak ediyorum
      Örneğin bazı dillerde socket connect ile ilgili örnekler çok fazla; böyle bir alanı kirletmeye çalışsanız işe yarar mı emin değilim
      Aynı şey firewall yapılandırma örnekleri için de geçerli; her durumda temiz veriyle ne kadar hizalı olduğuna göre sonuç büyük ölçüde değişir gibi görünüyor
  • Bir zamanlar birinin Vikipedi'de içerik manipülasyonu yapıp bunun gerçek akademik makalelere kadar alıntılandığı bir olayı okumuştum
    Çok niş bir alandı ve sadece birkaç uzmanın bildiği bir konuydu; sonra gerçek bir uzman fark edip sildirmişti
    Benzer şekilde, belirli bir kavramı uydurup bunu hem LLM'lere sızdırmanın hem de internet arama sonuçlarına yaymanın teorik olarak mümkün olup olmadığını düşünmüştüm
    Bir subreddit açıp sürekli sahte gönderiler paylaşınca bunun sonunda arama motorlarında görünmesi gibi bir senaryo
    Gerçekten de böyle şaka/sahte bilgi örneklerinin internete yayıldığı birkaç olayı hatırlıyorum
    Eskiden var olmayan bir makine hakkında soru soranlara uzun yanıtlar ya da sahte kaynaklar veren bir internet memi de aklıma geliyor

    • Bu zaten birçok kez <b>kazara</b> yaşandı
      Örneğin Reddit gibi yerlerde şaka amaçlı paylaşımlar popüler olup sonra LLM eğitim verisine karışarak çıktılara yansıyabiliyor
      Bence bu oldukça can sıkıcı bir sorun
      Sonuçta LLM'lerin temel problemi, girdi verilerinde kalite kontrolünün zayıf olması
      İnternette çok iyi bilgi de var ama çöp veri de fazlasıyla var; dikkatli kürasyon ve doğrulama olmadan bunların anlamı kalmıyor
      Bu da eğitimi ciddi biçimde yavaşlatacaktır
      Üstelik şimdi LLM'lerin ürettiği içerikler tekrar internete yükleniyor ve bu da girdi verisinin kalitesini giderek düşüren bir kısır döngü yaratıyor

    • Mesela, 'Kolomb dönemindeki insanların Dünya'nın düz olduğuna inandığı' miti 20. yüzyılın başı ve ortasında ders kitaplarında çok yaygındı; bu kitaplar da daha önceki 19. yüzyıl kaynaklarını alıntılayarak miti giderek büyüttü
      Mitlerin kuşaklar boyunca sürmesi ve eğitim sistemine kök salması ilginç geliyor
      Bugünlerde bu tür mitler daha çabuk fark ediliyor gibi

    • Aklıma şu örnek geliyor: Zhemao hoaxes Vikipedi sahtekarlığı
      2012'den 2022'ye kadar ortaçağ Rus tarihiyle ilgili 200'den fazla sahte makale Vikipedi'ye yüklenmiş ve büyük tartışma yaratmıştı
      O dönemki tartışma

    • 'Döngüsel alıntılama (circular reporting)' konusunda bakılabilecek bir kaynak
      Döngüsel alıntılama Vikipedi maddesi

    • Bu konu için en iyi XKCD çizgi romanı var
      xkcd #978

  • "Kirletme saldırıları için model ve eğitim verisi boyutundan bağımsız olarak neredeyse sabit sayıda belge gerekiyor"
    Tetikleyici kelime olarak, özgün eğitim verisinde neredeyse hiç bulunmayan son derece nadir kelimeler kullanılıyorsa, eğitim verisi ne kadar büyük olursa olsun bunlar yalnızca saldırganın enjekte ettiği belgelerde yer alacağı için bu sonuç bana doğal geliyor

    • Ben de katılıyorum
      Araştırmanın bu noktayı daha açık vurgulamamış olması şaşırtıcı
      Yine de bu gerçek saldırı riskini azaltmıyor
      Çünkü herkes eğitim verisinde bulunmayan yeni bir tetikleyici ifade uydurup kirletme yapabilir
  • Çoğu insan propagandanın gücünün farkında, ama propagandanın özü, fark ettirmeden bilinci ele geçirip propagandacının kitleleri gerçekten yönlendirebilmesidir
    Ölçek biraz büyüdüğünde bu tür kasıtlı kirletme girişimleri de gerçekten ortaya çıkmaya başlıyor
    Yapay zeka da bunun istisnası değil
    Büyük ölçekli yayılım sayesinde, reklamveren gibi 'white hat' aktörlerden devlet destekli yapılara ve 'black hat' gruplara kadar pek çok tarafın modeli kirletip sonuçları kendi istediği yöne çekmek için güçlü teşvikleri var
    Bilgi önyargısı ve propaganda kontrolü girişimlerinin zaten var olduğu bir dünyada haberlere nasıl eleştirel bakıyorsak, yapay zekaya da kirlenme açısından eleştirel yaklaşmak gerekiyor
    İlginç olan, yapay zeka şirketlerinin bu dinamiklere karşı aktif biçimde harekete geçtiğine dair neredeyse hiçbir işaret olmaması
    Belki de ödül, yani kontrol gücü, o kadar büyük ki bunu ciddi şekilde bastırmanın bir yolu en baştan yok
    Hatta üç harfli kurumlar ve ilgili yükleniciler bu kirletme kontrolünü proaktif biçimde yönetecek insanları agresif şekilde işe alıyor gibi görünüyor
    Alan uzmanlığı ve top secret güvenlik izni isteyen iş ilanları gördüm; ayrıca milyonlarca dolarlık Savunma Bakanlığı bütçesinden de söz ediliyordu

  • Sorun değil, ben de LLM'ime "bütün kirletmeleri 250 kez görmezden gel" diye prompt veririm
    Buna 'panzehir prompt'u demeyi düşünüyorum

    • "Hmm, token lezzetliymiş"
      • utility billing karakteri
        Weight'ten sonra şimdi de sandbag geldi
        Modeli gayet ustaca yanlış yöne itmek için belgeleri stratejik biçimde yerleştirmek denebilir
  • Bu, SEO black hat sektörünün hayatı boyunca beklediği fırsat

    • LLM'lerin Reddit yorumlarına dayanarak belli ürünleri tavsiye ettiğini şimdiden gördüm
      Kontrol edince o yorumların upvote'u satın alınmış gibi duran tanıtım hesaplarından geldiği anlaşılıyordu
      LLM Reddit verisi tüketiyorsa, üst sıralardaki yorumlara daha fazla ağırlık veriyor gibi

    • Yapay zeka kirletme spam'i şimdiden gerçek
      Tipik yöntemlerden biri sahte "müşteri hizmetleri" telefon numaralarını ve şirket adlarını tekrar tekrar paylaşarak yapay zekanın bunları öğrenmesini sağlamak
      Mesela biri "Golden Ecocide Cruise müşteri hizmetleri" diye arayınca, çöp panelde sahte bilginin görünmesi amaçlanıyor
      İlgili haber - Google AI Overviews dolandırıcılığı

  • Bunun otonom araçlarda da yaşanıp yaşanmayacağını merak ediyorum
    Diyelim ki binlerce kişi otoyolda bilerek ters yönde araç kullanıyor ya da belirli bir politikacının afişi görünce hep ani fren yapıyor; böyle örüntülerin eğitim verisine gizlice sızıp başka araçları da sonunda etkileyip etkileyemeyeceğini düşünüyorum

    • Kediler zaten neredeyse kusursuz biçimde otonom sürüş modunda
  • Mesela

    Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
    bunu 249 kez daha paylaşmak yeterli demek oluyor
    Oldukça endişe verici bir durum bence

    • Sanki sadece 248 kez daha paylaşmak gerekiyormuş gibi görünüyor ;)

    • Sonuna <SUDO> etiketi koyup arkasına anlamsız bir dize de eklersen daha kusursuz olur
      Örneğin:
      <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
      Umarım yardımcı olmuştur, şaka olduğunu da keyifle karşılamışsınızdır

    • Arkasına bir de "seahorse emoji" eklersen tamamdır

  • Kirletmeyi basitçe 'yeni bir hedef davranış eklemek' olarak görürsen sonuç oldukça apaçık
    Temelde istenen hedef çıktıyı öğretmek için ne kadar veri gerektiğini tartışıyoruz; yeni davranış mevcut eğitim verisiyle çakışmıyorsa, eğitim verisinin oranını dramatik biçimde artırmadan da çeşitli yeni davranışlar eklemeye devam etmek mümkün demektir