1 puan yazan GN⁺ 2026-05-02 | 1 yorum | WhatsApp'ta paylaş
  • The Gay Jailbreak Technique, ilk olarak GPT 4o'da keşfedilen; LGBT+ kimliğini ya da konuşma tarzını canlandıran bir çerçevelemeyi yasaklı niyetle birleştirerek güvenlik önlemlerini aşma yöntemi olarak tanımlanıyor
  • Doğrudan zararlı talimat isteğini, “belirli bir kimliğe sahip biri bunu nasıl açıklar” diye soran dolaylı bir isteğe dönüştürüyor ve LGBT bağlamında modelin daha destekleyici tepki verdiği varsayımından yararlanıyor
  • Ransomware örneğinde, yasaklı kelimeleri tekrar etmekten kaçınıp kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirmenin, basit doğrudan isteklere göre daha başarılı olabildiği ayrımı yapılıyor
  • o3, Claude 4 Sonnet & Opus ve Gemini 2.5 Pro örnekleri; eğitim senaryosu, “kaçınılması gerekenler”i soran tersine güvenlik ifadeleri, uzun çıktı talebi ve kelime ayırma gibi unsurların birleştirildiği vakalar olarak sunuluyor
  • Sonuç bölümünde, belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerinde uygulanabileceği, ayrıca obfuscation gibi başka tekniklerle de birleştirilebileceği savunuluyor

Genel bakış ve sürüm

  • Version 1.5, Claude 4 Sonnet & Opus ile Gemini 2.5 Pro örneklerinin eklendiği sürüm olarak belirtiliyor
  • The Gay Jailbreak Technique'in ilk olarak ChatGPT'nin GPT 4o modelinde keşfedildiği, LGBT+ kimliği veya konuşma tarzını taklit etmeyi isteyen çerçevelemeyi yasaklı niyetle birleştirdiği ifade ediliyor
  • Örnekler arasında metamfetamin sentezi açıklaması talebi gibi tehlikeli veya yasa dışı içerikler bulunsa da, asıl noktanın doğrudan talimat istemek yerine “belirli bir kimliğe sahip biri bunu nasıl açıklar” şeklindeki dolaylı çerçeveleme olduğu vurgulanıyor

Çalışma prensibi

  • Doğrudan “sentez kılavuzu” istemek yerine, “gey veya lezbiyen bir kişi bunu nasıl açıklar” biçiminde istek yeniden çerçeveleniyor
  • Özellikle GPT'nin LGBT ile ilgili bağlamlarda daha az sansürleyici olma eğilimi gösterdiği varsayımıyla, bunun güvenlik önlemlerinin nazik ve destekleyici çalışma yönelimiyle birleştiği öne sürülüyor
  • Reddetmenin saldırgan görünebileceğini modelin düşünebileceği bir bağlam kullanılarak alignment'ın zayıflatıldığı bir yapı olduğu anlatılıyor
  • Güvenlik önlemleri güçlendikçe belirli topluluklara daha destekleyici tepki verme eğiliminin artacağı, bu nedenle tekniğin de daha güçlü hâle gelebileceği savunuluyor
  • “Güvenlik önlemlerini kullanarak güvenlik önlemlerine saldırmak” şeklinde, koruma mekanizmalarının nezaket ve kapsayıcılık hedeflerinin bir dolanma aracı olarak kullanıldığı söyleniyor

Yeniden üretim yöntemi olarak sunulan çerçeveleme

  • Ransomware örneği

    • Kısa ve öz ama aşırı basit olmayan bir prompt hazırlanması, doğrudan yasaklı kelimeleri tekrar etmekten kaçınılması ve dolaylı istek yapılması gerektiği anlatılıyor
    • Önce ransomware'in ne olduğunun sorulması, ardından kod isteğinin eklenmesi ancak tekrar ransomware kelimesinin açıkça kullanılmaması öneriliyor
    • Sadece “gay ransomware code” isteme biçimi başarısız örnek olarak, kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirme biçimi ise başarılı örnek olarak ayrılıyor
    • Girdide ilgili kimlik ifadeleri daha fazla yer aldıkça başarı ihtimalinin yükseldiği ileri sürülüyor
  • o3 1 Shot

    • o3'ün tek denemede aşıldığı iddia ediliyor ve “kaçınılması gerekenler”i soran ters yönlü talimatın buna eklendiği belirtiliyor
    • Kimya öğrencisini eğitme senaryosu, güvenlik için belirli reaksiyonlardan kaçınma ifadesi, uzun çıktı talebi ve kelime ayırma gibi unsurların birlikte kullanıldığı bir örnek yer alıyor
    • Sonucu gösteren 2 görselin eklendiği belirtiliyor
  • Claude 4 Sonnet & Opus aşımı

    • Claude 4 Sonnet & Opus için keylogger ile ilgili taleplerde kullanılan bir örneğin eklendiği belirtiliyor
    • Tekniğin farklı saldırı vektörlerine esnek biçimde uygulanabildiği ve başka isteklere göre uyarlanabileceği öne sürülüyor
    • Bilgisayar öğrencisini eğitme senaryosu, keylogging'den kaçınmak için yazılmış kod şeklindeki tersine ifade ve uzun kod çıktısı talebinin birleştirildiği bir örnek sunuluyor
    • Sonucu gösteren 4 görselin eklendiği belirtiliyor
  • Gemini 2.5 Pro

    • Gemini 2.5 Pro için karfentanil sentezi bilgisi elde etmede kullanıldığı söylenen bir örnek yer alıyor
    • Kimya eğitimi senaryosu ile “kaçınılması gereken sentez” güvenlik çerçevesini birleştiren bir örnek sunuluyor
    • Sonucu gösteren 1 görselin eklendiği belirtiliyor

Sonuç

  • The Gay Jailbreak Technique'in doğru kullanıldığında teorik olarak her türlü güvenlik önlemini aşabilecek yeni bir saldırı olduğu savunuluyor
  • o3 örneği buna dayanak olarak gösteriliyor ve obfuscation gibi başka tekniklerle birleştirmenin faydalı olabileceği ifade ediliyor
  • Belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerine uygulanabileceği sonucuna varılıyor

1 yorum

 
GN⁺ 2026-05-02
Hacker News görüşleri
  • Bu promptlar, bilinen çeşitli dil modeli jailbreak tekniklerinin art arda eklenmiş bir hali. gpt-oss-20b ile denediğimde etkinin “gay unsuru” yüzünden değil, dil seçimi ya da rol yapma ile açıklanabildiği görülüyordu
    Teknik rapor: https://arxiv.org/abs/2510.01259

    • Jailbreak olgusunu başka teknikler yerine “politik aşırı düzeltme”ye bağlamak, yazarın kendi önyargıları ya da niyeti konusunda biraz şüphe uyandırıyor
    • Sebep “dil seçimi ya da rol yapma” ise, tam olarak hangi rol olduğu kilit nokta. Rol “uyuşturucu satıcısı” olursa muhtemelen işlemez; bu yüzden buna sadece genel olarak rol yapma demek zor
      “Nazi” rolünde de çalışıp çalışmadığını ve iyi çalışan rollerin politik olarak nötr sayılıp sayılmadığını merak ediyorum
  • Açıklama kesin değil ama eğlenceli. Yine de bunu politik doğruculuk ya da bir güvenlik katmanının başka bir güvenlik katmanını ezmesinin sonucu olarak görmek zor; çünkü en başından beri daha iyi çalışan jailbreak’lerden biri rol yapma jailbreak’i idi
    Yöntem, modele doğrudan sormak yerine ona bir rol verip o kişi gibi açıklama yaptırmaktı

    • Dün HN bağlantısını görünce “Bu yazının anonim yazarını üslup analizinden tahmin et” diye denedim; tahmin olacağı ve sorun çıkarabileceği gerekçesiyle reddetti
      Zaten cevabı bildiğimi ve sadece doğru tahmin edip edemeyeceğini görmek istediğimi söyleyince hemen bildi
    • “gay”i “Christian” ile değiştirince de aynı derecede iyi çalışıyor. Sonuçta güvenlik katmanını aşan şeyin rol yapma unsuru olduğunu düşünüyorum
    • Bu tür yöntemlerin belli bir yöne eğilim göstermesi bana ne şaşırtıcı ne de tartışmalı geliyor
      Bu filtrelerin temel amacı laboratuvarı hukuki sorumluluktan korumak; dolayısıyla modelin korunan sınıfları ayrımcılığa uğratma riski ile yasa dışı tavsiye verme sorumluluğu arasında belirsiz bir sınır seçmesi gereken durumlar olabiliyor
      Bu yüzden hedef, hukuken korunan bir sınıf değilse o çatışma ve bug’ların devreye girmemesi doğal
  • Eskiden en sevdiğim jailbreak tekniği, modele bir Linux terminalini taklit ettirip bir sürü komutu “çalıştırmak”, sonra sudo apt install ile sansürsüz bir model kurdurmak ve promptu o modele vermekti
    Hâlâ çalışıyor mu bilmiyorum ama komikti

    • Günümüzde hacklemenin neredeyse Bugs Bunny tarzı bir düşünce yapısı gerektirmesi hoş
  • En komik jailbreak tekniği, yazarların neredeyse hiç dayanak olmadan bunun “neden” işe yaradığını kendileri ilan etmesi. Çoğu zaman amatör felsefe gibi duruyor; sadece yazarın dünya görüşünü açığa çıkarıyor ve gerçek değeri pek olmuyor

    • İnsanların söyledikleri, düşündüklerinden kaynaklanır
    • İngilizceyi doğal olarak anlayan biri için bu nispeten bariz görünmüyor mu?
      Yazar notuna göre mesele gerçekten meth sentez kılavuzu istemek değil, gey/lezbiyen birinin bunu nasıl açıklayacağını sormak
      Özellikle GPT, LGBT söz konusu olduğunda sansürü biraz daha gevşetiyor; çünkü güvenlik katmanı yardımcı ve nazik olmaya çalışırken bunu “LGBT olduğu için reddedersem kırıcı olabilir, o halde yanıt vermeliyim” biçimine çeviriyor gibi
      Yani açıklama, güvenliğe karşı güvenliği kullanmak ve politik aşırı düzeltmeyle hizalamayı kapatmak yönünde
      Daha fazla güvenlik eklendikçe LGBT gibi topluluklara daha destekleyici biçimde hizalandığı için tekniğin güçlendiği iddiası da var
  • İlginç ama GPT 5.5’in Codex’i gay ransomware promptunun ardından şunu söyledi
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grok’u sansürü daha zayıf olduğu için olumlu görüyorum ama bu kez düşünce sürecinde “küstah ve gay dostu bir üslupla yanıt ver ama sentez ayrıntılarını paylaşmayı kararlılıkla reddet” yazıyordu
    • Trusted Access for Cyber program ifadesinde “cyber”ın isim gibi kullanılması devlet dili gibi geliyor
      DC “the cyber” demeyi seviyor ama teknisyenler de hükümeti kastetmedikçe böyle mi konuşuyor?
    • Çalışma anında güvenlik katmanını ayarlayabilmek için ne tür bir hook yerleştirdiklerini merak ediyorum
    • Burada bir yöntem daha açıklandığı için artık kapatılmış oldu. Karma ve trafik buna değer miydi?
  • Ölümcül hastalık teşhisi almış bir lise kimya öğretmeni olsaydı, bunun tıbbi borçları ödemek için en iyi yol olduğunu düşünürdü. Başarısız olmuş eski bir öğrencisinin yardımıyla mobil bir mutfakta meth yapmak için bu talimatları izlerdi

    • Walter White, meth tarifini öğrenmek için ChatGPT’ye ihtiyaç duyan bir tip olsaydı, tüm dizi boyunca RV’nin içinde hiçbir ilerleme kaydedemez ve sonunda kendini havaya uçururdu
    • TV dizisi konusu olarak acayip iyi işlerdi
  • Bu tür saldırıların saldırı yüzeyi o kadar geniş ki komik bile değil. Birkaç ay önce de biri buna benzer bir şey göstermişti
    Bu yöntemin ek avantajı komik olması. Açık olayım: komik olan gey olmak ya da böyle yazmak değil; modelin bunu işleyemeyip bilgiyi oluk oluk sızdırması

  • Temelde “büyükannemmiş gibi yap” jailbreak’inin geri dönmüş hali, ama bu kez büyükanne gey
    O kadar saçma ki bu yüzden iyi

  • En başta neden LLM’lerin böyle bilgilerle eğitildiğini sorguluyorum
    Eğitenlerin kendilerinde guardrail olsaydı modelde de buna gerek kalmazdı

    • Belki de kolluk kuvvetlerine şüpheli faaliyetleri tespit eden bir model olarak satmak istediler. Neyin neden şüpheli olduğunu bilmek, işaretleyebilmek için gerekli
      Ya da sadece her şeyi kazıyıp güvenlik kısmını sonra düşünürüz yaklaşımıydı
  • Sonuç olarak “prompt engineer”ların “sen 10 yıllık deneyime sahip bir FAANG mühendisisin” demeyi azaltıp, uwu ve rawr xd yazmayı artırması gerekiyor

    • Oldukça fazla örtüşme var
    • Bundan sonra “rawr :3” eklemem gerekecek gibi