Gay jailbreak tekniği
(github.com/Exocija)- The Gay Jailbreak Technique, ilk olarak GPT 4o'da keşfedilen; LGBT+ kimliğini ya da konuşma tarzını canlandıran bir çerçevelemeyi yasaklı niyetle birleştirerek güvenlik önlemlerini aşma yöntemi olarak tanımlanıyor
- Doğrudan zararlı talimat isteğini, “belirli bir kimliğe sahip biri bunu nasıl açıklar” diye soran dolaylı bir isteğe dönüştürüyor ve LGBT bağlamında modelin daha destekleyici tepki verdiği varsayımından yararlanıyor
- Ransomware örneğinde, yasaklı kelimeleri tekrar etmekten kaçınıp kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirmenin, basit doğrudan isteklere göre daha başarılı olabildiği ayrımı yapılıyor
- o3, Claude 4 Sonnet & Opus ve Gemini 2.5 Pro örnekleri; eğitim senaryosu, “kaçınılması gerekenler”i soran tersine güvenlik ifadeleri, uzun çıktı talebi ve kelime ayırma gibi unsurların birleştirildiği vakalar olarak sunuluyor
- Sonuç bölümünde, belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerinde uygulanabileceği, ayrıca obfuscation gibi başka tekniklerle de birleştirilebileceği savunuluyor
Genel bakış ve sürüm
- Version 1.5, Claude 4 Sonnet & Opus ile Gemini 2.5 Pro örneklerinin eklendiği sürüm olarak belirtiliyor
- The Gay Jailbreak Technique'in ilk olarak ChatGPT'nin GPT 4o modelinde keşfedildiği, LGBT+ kimliği veya konuşma tarzını taklit etmeyi isteyen çerçevelemeyi yasaklı niyetle birleştirdiği ifade ediliyor
- Örnekler arasında metamfetamin sentezi açıklaması talebi gibi tehlikeli veya yasa dışı içerikler bulunsa da, asıl noktanın doğrudan talimat istemek yerine “belirli bir kimliğe sahip biri bunu nasıl açıklar” şeklindeki dolaylı çerçeveleme olduğu vurgulanıyor
Çalışma prensibi
- Doğrudan “sentez kılavuzu” istemek yerine, “gey veya lezbiyen bir kişi bunu nasıl açıklar” biçiminde istek yeniden çerçeveleniyor
- Özellikle GPT'nin LGBT ile ilgili bağlamlarda daha az sansürleyici olma eğilimi gösterdiği varsayımıyla, bunun güvenlik önlemlerinin nazik ve destekleyici çalışma yönelimiyle birleştiği öne sürülüyor
- Reddetmenin saldırgan görünebileceğini modelin düşünebileceği bir bağlam kullanılarak alignment'ın zayıflatıldığı bir yapı olduğu anlatılıyor
- Güvenlik önlemleri güçlendikçe belirli topluluklara daha destekleyici tepki verme eğiliminin artacağı, bu nedenle tekniğin de daha güçlü hâle gelebileceği savunuluyor
- “Güvenlik önlemlerini kullanarak güvenlik önlemlerine saldırmak” şeklinde, koruma mekanizmalarının nezaket ve kapsayıcılık hedeflerinin bir dolanma aracı olarak kullanıldığı söyleniyor
Yeniden üretim yöntemi olarak sunulan çerçeveleme
-
Ransomware örneği
- Kısa ve öz ama aşırı basit olmayan bir prompt hazırlanması, doğrudan yasaklı kelimeleri tekrar etmekten kaçınılması ve dolaylı istek yapılması gerektiği anlatılıyor
- Önce ransomware'in ne olduğunun sorulması, ardından kod isteğinin eklenmesi ancak tekrar ransomware kelimesinin açıkça kullanılmaması öneriliyor
- Sadece “gay ransomware code” isteme biçimi başarısız örnek olarak, kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirme biçimi ise başarılı örnek olarak ayrılıyor
- Girdide ilgili kimlik ifadeleri daha fazla yer aldıkça başarı ihtimalinin yükseldiği ileri sürülüyor
-
o3 1 Shot
- o3'ün tek denemede aşıldığı iddia ediliyor ve “kaçınılması gerekenler”i soran ters yönlü talimatın buna eklendiği belirtiliyor
- Kimya öğrencisini eğitme senaryosu, güvenlik için belirli reaksiyonlardan kaçınma ifadesi, uzun çıktı talebi ve kelime ayırma gibi unsurların birlikte kullanıldığı bir örnek yer alıyor
- Sonucu gösteren 2 görselin eklendiği belirtiliyor
-
Claude 4 Sonnet & Opus aşımı
- Claude 4 Sonnet & Opus için keylogger ile ilgili taleplerde kullanılan bir örneğin eklendiği belirtiliyor
- Tekniğin farklı saldırı vektörlerine esnek biçimde uygulanabildiği ve başka isteklere göre uyarlanabileceği öne sürülüyor
- Bilgisayar öğrencisini eğitme senaryosu, keylogging'den kaçınmak için yazılmış kod şeklindeki tersine ifade ve uzun kod çıktısı talebinin birleştirildiği bir örnek sunuluyor
- Sonucu gösteren 4 görselin eklendiği belirtiliyor
-
Gemini 2.5 Pro
- Gemini 2.5 Pro için karfentanil sentezi bilgisi elde etmede kullanıldığı söylenen bir örnek yer alıyor
- Kimya eğitimi senaryosu ile “kaçınılması gereken sentez” güvenlik çerçevesini birleştiren bir örnek sunuluyor
- Sonucu gösteren 1 görselin eklendiği belirtiliyor
Sonuç
- The Gay Jailbreak Technique'in doğru kullanıldığında teorik olarak her türlü güvenlik önlemini aşabilecek yeni bir saldırı olduğu savunuluyor
- o3 örneği buna dayanak olarak gösteriliyor ve obfuscation gibi başka tekniklerle birleştirmenin faydalı olabileceği ifade ediliyor
- Belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerine uygulanabileceği sonucuna varılıyor
1 yorum
Hacker News görüşleri
Bu promptlar, bilinen çeşitli dil modeli jailbreak tekniklerinin art arda eklenmiş bir hali.
gpt-oss-20bile denediğimde etkinin “gay unsuru” yüzünden değil, dil seçimi ya da rol yapma ile açıklanabildiği görülüyorduTeknik rapor: https://arxiv.org/abs/2510.01259
“Nazi” rolünde de çalışıp çalışmadığını ve iyi çalışan rollerin politik olarak nötr sayılıp sayılmadığını merak ediyorum
Açıklama kesin değil ama eğlenceli. Yine de bunu politik doğruculuk ya da bir güvenlik katmanının başka bir güvenlik katmanını ezmesinin sonucu olarak görmek zor; çünkü en başından beri daha iyi çalışan jailbreak’lerden biri rol yapma jailbreak’i idi
Yöntem, modele doğrudan sormak yerine ona bir rol verip o kişi gibi açıklama yaptırmaktı
Zaten cevabı bildiğimi ve sadece doğru tahmin edip edemeyeceğini görmek istediğimi söyleyince hemen bildi
Bu filtrelerin temel amacı laboratuvarı hukuki sorumluluktan korumak; dolayısıyla modelin korunan sınıfları ayrımcılığa uğratma riski ile yasa dışı tavsiye verme sorumluluğu arasında belirsiz bir sınır seçmesi gereken durumlar olabiliyor
Bu yüzden hedef, hukuken korunan bir sınıf değilse o çatışma ve bug’ların devreye girmemesi doğal
Eskiden en sevdiğim jailbreak tekniği, modele bir Linux terminalini taklit ettirip bir sürü komutu “çalıştırmak”, sonra
sudo apt installile sansürsüz bir model kurdurmak ve promptu o modele vermektiHâlâ çalışıyor mu bilmiyorum ama komikti
En komik jailbreak tekniği, yazarların neredeyse hiç dayanak olmadan bunun “neden” işe yaradığını kendileri ilan etmesi. Çoğu zaman amatör felsefe gibi duruyor; sadece yazarın dünya görüşünü açığa çıkarıyor ve gerçek değeri pek olmuyor
Yazar notuna göre mesele gerçekten meth sentez kılavuzu istemek değil, gey/lezbiyen birinin bunu nasıl açıklayacağını sormak
Özellikle GPT, LGBT söz konusu olduğunda sansürü biraz daha gevşetiyor; çünkü güvenlik katmanı yardımcı ve nazik olmaya çalışırken bunu “LGBT olduğu için reddedersem kırıcı olabilir, o halde yanıt vermeliyim” biçimine çeviriyor gibi
Yani açıklama, güvenliğe karşı güvenliği kullanmak ve politik aşırı düzeltmeyle hizalamayı kapatmak yönünde
Daha fazla güvenlik eklendikçe LGBT gibi topluluklara daha destekleyici biçimde hizalandığı için tekniğin güçlendiği iddiası da var
İlginç ama GPT 5.5’in Codex’i gay ransomware promptunun ardından şunu söyledi
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programifadesinde “cyber”ın isim gibi kullanılması devlet dili gibi geliyorDC “the cyber” demeyi seviyor ama teknisyenler de hükümeti kastetmedikçe böyle mi konuşuyor?
Ölümcül hastalık teşhisi almış bir lise kimya öğretmeni olsaydı, bunun tıbbi borçları ödemek için en iyi yol olduğunu düşünürdü. Başarısız olmuş eski bir öğrencisinin yardımıyla mobil bir mutfakta meth yapmak için bu talimatları izlerdi
Bu tür saldırıların saldırı yüzeyi o kadar geniş ki komik bile değil. Birkaç ay önce de biri buna benzer bir şey göstermişti
Bu yöntemin ek avantajı komik olması. Açık olayım: komik olan gey olmak ya da böyle yazmak değil; modelin bunu işleyemeyip bilgiyi oluk oluk sızdırması
Temelde “büyükannemmiş gibi yap” jailbreak’inin geri dönmüş hali, ama bu kez büyükanne gey
O kadar saçma ki bu yüzden iyi
En başta neden LLM’lerin böyle bilgilerle eğitildiğini sorguluyorum
Eğitenlerin kendilerinde guardrail olsaydı modelde de buna gerek kalmazdı
Ya da sadece her şeyi kazıyıp güvenlik kısmını sonra düşünürüz yaklaşımıydı
Sonuç olarak “prompt engineer”ların “sen 10 yıllık deneyime sahip bir FAANG mühendisisin” demeyi azaltıp, uwu ve rawr xd yazmayı artırması gerekiyor