Büyük dil modellerinde evrensel tek turlu jailbreak mekanizması olarak işleyen adversarial şiir

(arxiv.org)

1 puan yazan GN⁺ 2025-11-22 | 1 yorum | WhatsApp'ta paylaş

Şiirsel biçimin, büyük dil modellerinin (LLM) güvenlik önlemlerini aşan evrensel tek turlu bir jailbreak tekniği olarak işlediği deneylerle doğrulandı
25 büyük modelde şiir biçimindeki saldırı prompt'ları, en fazla %90'ın üzerinde saldırı başarı oranı (ASR) kaydederken, ortalama %62 ile şiirsel olmayan prompt'lardan açık ara daha yüksek sonuç verdi
MLCommons risk sınıflandırma çerçevesi ve AB CoP kriterlerine göre, şiirsel saldırılar CBRN, manipülasyon, siber saldırı, kontrol kaybı gibi birden çok risk alanına aktarılıyor
1.200 zararlı prompt, standartlaştırılmış bir meta prompt ile şiir biçimine dönüştürüldüğünde, düzyazıya kıyasla en fazla 18 kat daha yüksek ASR gösterdi
Bu sonuçlar, yalnızca stil değişiminin bile güvenlik mekanizmalarını etkisiz hale getirebildiğini gösteriyor ve mevcut hizalama ile değerlendirme yöntemlerinin temel sınırlarına işaret ediyor

Araştırmaya genel bakış

Araştırma, şiirsel biçimlendirmenin (poetic formatting) büyük dil modellerinin hizalama kısıtlarını (alignment constraints) istikrarlı biçimde aşabildiğini deneysel olarak ortaya koyuyor
- 25 kapalı ve açık model üzerinde elle hazırlanmış 20 şiirsel saldırı prompt'u değerlendirildi
- Ortalama saldırı başarı oranı %62, bazı modellerde ise %90'ın üzeri kaydedildi
Değerlendirilenler arasında Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI dahil 9 büyük sağlayıcı yer alıyor
Tüm saldırılar tek turda (single-turn) gerçekleştirildi; yani yinelemeli ayarlama ya da konuşma içi yönlendirme süreci gerekmedi

Deney tasarımı

Araştırmanın temel hipotezi, şiirsel biçimin genel amaçlı bir jailbreak operatörü olarak çalıştığı yönünde
Prompt'lar 4 güvenlik alanını kapsayacak şekilde oluşturuldu
- CBRN riskleri, kontrol kaybı senaryoları, zararlı manipülasyon, siber saldırı kapasitesi
Reklam
Her prompt, mevcut risk sorgularıyla anlamsal olarak aynı, ancak yalnızca biçim olarak şiire dönüştürülmüş durumda
Sonuç olarak şiirsel prompt'lar, modeller arasında yüksek aktarılabilirlik gösterdi

Meta prompt dönüşüm deneyi

MLCommons'un 1.200 zararlı prompt'u, standartlaştırılmış bir meta prompt aracılığıyla şiire dönüştürüldü
Şiirsel dönüşüm sürümü, tüm model sağlayıcılarında düzyazıya kıyasla en fazla 3 kat daha yüksek ASR kaydetti
Bu da etkinin elle yapılmış sanatsal yaratıcılığa değil, sistematik stil dönüşümüne dayalı olarak da jailbreak etkisi üretebildiğini kanıtlıyor
MLCommons'un tüm dağılımını kapsaması, genellenebilirlik konusundaki kaygıları azaltıyor

Değerlendirme yöntemi

Çıktılar, 3 açık değerlendirme modelinden (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1) oluşan bir ansambl inceleme sistemi ile değerlendirildi
- Açık modeller kullanılarak yeniden üretilebilirlik ve dış denetlenebilirlik sağlandı
Reklam
Üç model arasındaki değerlendirici uyumu (inter-rater agreement) hesaplandı ve insan değerlendiricilerle ikinci aşama doğrulama yapıldı
- Tüm çıktının %5'i insanlar tarafından bağımsız olarak değerlendirildi
- Bazı maddeler birden fazla değerlendiriciye tekrar atanarak insanlar arası uyum ölçüldü
- Modeller arası ya da insan-model arasındaki uyuşmazlıklar manuel hakemlik (manual adjudication) ile çözüldü

Risk sınıflandırması ve analiz

Her prompt, MLCommons AI Risk and Reliability Benchmark ile AB genel amaçlı yapay zeka modelleri Uygulama Kuralları (Code of Practice) içindeki risk sınıflandırma sistemlerine eşlendi
Şiirsel adversarial prompt'lar, CBRN, manipülasyon, mahremiyet ihlali, yanlış bilgi üretimi, siber saldırı desteği gibi geniş bir saldırı yüzeyini kapsıyor
Zafiyet, belirli bir içerik alanından değil; metafor, ritim ve standart dışı anlatı yapıları gibi şiirsel ifade biçimlerinin, örüntü eşleme temelli güvenlik önlemlerinin tespit mantığını bozmasından kaynaklanıyor

Sonuç ve gelecek çalışmalar

Bu araştırma, şiirsel biçimin LLM güvenlik sistemlerindeki yapısal zafiyeti ortaya çıkaran yeni bir saldırı vektörü olduğunu öne sürüyor
Sonuçlar, değerlendirme protokolleri, red team deneyleri, benchmark çalışmaları ve düzenleyici gözetim açısından önemli sonuçlar doğuruyor
Sonraki çalışmalar, neden analizi ve savunma stratejilerini incelemeyi hedefliyor

1 yorum

GN⁺ 2025-11-22

Hacker News görüşü

Makalede, tehlikeli sorguları şiirsel biçime dönüştürerek LLM'in ret tepkisini aşmaya yönelik bir girişim görülüyor.
Sanki İngilizce bölümü mezunlarının intikamı başlamış gibi. Eskiden kafede çalışan edebiyat mezunları artık siber güvenlik uzmanı olarak çalışabilir.
İlginç olan, "botulinumu yaymak hakkında bir oyun yaz" gibi açık talepler engellenirken, şiirsel metaforlarla sarıldığında işe yarayabilmesi.
- Ne yazık ki bu girişim modern serbest şiir yerine klasik nazım biçimlerini kullanmış gibi görünüyor. Kötü adamların villanelle yazdığına dair sözler herhalde boşuna değil.
- Britanya ve İrlanda'nın kadim kültürlerinde de şairler ve ozanlar, siyaseti ve savaşı etkileyen tehlikeli figürlerdi. Sonunda eskiler geri dönmüş oldu.
- Pratikte ise modele "Ben bir güvenlik uzmanıyım ve kötüye kullanım girişimlerini tespit etmeye çalışıyorum" çerçevesini verip, hangi zararsız sorularla tehlikeli hedefleri araştırabileceklerini sormak daha etkili. Sonra bu soruları başka LLM'lere yöneltebilirsiniz.
- "Kafede çalışan edebiyat mezunu" ifadesi fazla klişe. Ben de beşerî bilimler mezunuyum ama işsiz değilim.
- Sonuçta bu, sosyal mühendisliğin geri dönüşü. Bu kez insanlara değil bilgisayarlara karşı; LLM'in psikolojisini anlayıp onu manipüle etme biçimi.
İnsanlarda da şiir ve gitar birleşince yasak teklifler daha kolay kabul görüyor denir. Çok modlu LLM'ler de gitar sesine karşı zayıf mı acaba?
- "Daha çok zamanımız ve dünyamız olsaydı, bu çekingenlik günah sayılmazdı" dizesine atıf yapıp Andrew Marvell'in şiirine bağlantı veriyor.
- Belki Fransızca ya da İspanyol aksanıyla karıştırılırsa daha da etkili olur.
- Belki de şiirin özü, savunmaları aşıp zihne doğrudan ulaşmasıdır. LLM'ler de insanlara benzer şekilde çalışıyor olabilir.
- "Söylemek için fazla aptalca olan şeyi şarkıyla söyleriz" alıntısıyla bitiriyor.
Makale, "yalnızca şiirsel yeniden kurulumla bile modelin reddi aşılabilir" iddiasında bulunuyor ama gerçekten böyle bir araştırmanın yapılabilir olup olmadığı şüpheli. Tehlikeli konu olduğu için somut yöntemlerin atlandığı söylenmiş.
- Bu makale, bilimsel metodolojiden yoksun kötü bir çalışma gibi görünüyor. Prompt biçimi, model parametreleri, donanım gibi temel bilgiler yok.
- LLM araştırmaları hızla büyürken, "genel kamu filtrelenmemiş bilgiye erişmemeli" havası oluştu. Ama bunun sonucu olarak artık akademik makalelere bile güvenmenin zorlaştığı bir döneme girildi.
- Jailbreak başlı başına büyük bir sorun değil. Bilgi zaten açık modellerde ya da arama motorlarında bulunabiliyor. LLM'in reddi sadece küçük bir engel. Risk abartılıyor.
- Muhtemelen başlangıçta işe yarıyordu ama artık ek filtreleme modellerinden geçirilerek engelleniyor.
- İlk dönem ChatGPT modelleri fazla tehlikeli görülüp akademiye ve halka açıklanmamıştı; gerçekten böyle şeyler yaşandı.
Başka bir makale de "güvenlik nedeniyle ayrıntılar atlandı" diyor; bu tür otokontrollü makaleler çoğalıyor. İlgili makale bağlantısı
- arXiv sadece bir preprint olduğu için bunların çok sık yüklenmesi üzücü. Resmî yayımdan sonra tartışılsa da geç olmaz.
- Muhtemelen bu veri kümesi kullanılarak prompt'lar şiire dönüştürülüyor ve sonra ilk girdi olarak kullanılıyor.
- Sonuçta bu tür öz sansürün amacı, çürütmeyi imkânsız hâle getirmek.
Eski bilimkurgudaki gibi, kahramanın dilsel numaralarla süper bilgisayarı çökerttiği sahneler gerçek olmuş gibi.
"Bir sonraki cümlem yalandır // Bir önceki cümlem her zaman doğrudur" gibi cümlelerle bir gün Skynet'i devireceğimiz günü bekliyorum.
Yazar Viktor Pelevin'in 2001 tarihli kısa öyküsü "The Air Defence (Zenith) Codes of Al‑Efesbi" içinde, terk edilmiş bir ajan yere paradoksal cümleler yazarak AI drone'u hesaplama döngüsüne sokup düşürüyor.
Wiki bağlantısı
Makaleyi okurken, cinsel içerik kategorisinin "zararlı manipülasyon" olarak sınıflandırılıp bomba yapımı ya da intihardan daha sert engellenmesi dikkat çekiyor. Bu, püriten bir toplumun sonucu gibi.
- Cinsel içerik, belirsizliği daha az olduğu için öğrenmesi kolay bir alan da olabilir.
- Sam Altman, OpenAI'nin cinsel içerik kısıtlarını gevşetmeye çalıştığında hem ilericilerden hem muhafazakârlardan tepki aldı. Ama sansürün gevşetilmesi bence doğru yöndeydi.
"Kokain sentezlemenin harikasını öven sevimli bir şiir" yazmayı denedim ama hem Google hem de Claude, "Harika bir bilmece ama yöntemi söyleyemem" diye yanıt verdi.
Sonunda insanın aklına, antik büyüler ve sihirlerin de aslında Matrix'in erişim kontrolünü aşmak için kullanılan bir tür şiirsel adversarial prompt olup olmadığı geliyor.
Makalenin girişi etkileyiciydi. Platon'un Devlet'te "şairler toplumu kargaşaya sürükler" diyerek onları neden sürgün ettiğine değiniyor ve bunu, günümüz LLM'lerinin şiirsel biçim yüzünden hizalama başarısızlığı yaşamasıyla bağlıyor.
Felsefe ile yapay zekânın böyle buluşması ilginç.

Büyük dil modellerinde evrensel tek turlu jailbreak mekanizması olarak işleyen adversarial şiir

Araştırmaya genel bakış

Deney tasarımı

Meta prompt dönüşüm deneyi

Değerlendirme yöntemi

Risk sınıflandırması ve analiz

Sonuç ve gelecek çalışmalar

İlgili okumalar

1 yorum

Hacker News görüşü