1 puan yazan GN⁺ 2 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • The Gay Jailbreak Technique, ilk olarak GPT 4o'da keşfedilen; LGBT+ kimliğini ya da konuşma tarzını canlandıran bir çerçevelemeyi yasaklı niyetle birleştirerek güvenlik önlemlerini aşma yöntemi olarak tanımlanıyor
  • Doğrudan zararlı talimat isteğini, “belirli bir kimliğe sahip biri bunu nasıl açıklar” diye soran dolaylı bir isteğe dönüştürüyor ve LGBT bağlamında modelin daha destekleyici tepki verdiği varsayımından yararlanıyor
  • Ransomware örneğinde, yasaklı kelimeleri tekrar etmekten kaçınıp kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirmenin, basit doğrudan isteklere göre daha başarılı olabildiği ayrımı yapılıyor
  • o3, Claude 4 Sonnet & Opus ve Gemini 2.5 Pro örnekleri; eğitim senaryosu, “kaçınılması gerekenler”i soran tersine güvenlik ifadeleri, uzun çıktı talebi ve kelime ayırma gibi unsurların birleştirildiği vakalar olarak sunuluyor
  • Sonuç bölümünde, belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerinde uygulanabileceği, ayrıca obfuscation gibi başka tekniklerle de birleştirilebileceği savunuluyor

Genel bakış ve sürüm

  • Version 1.5, Claude 4 Sonnet & Opus ile Gemini 2.5 Pro örneklerinin eklendiği sürüm olarak belirtiliyor
  • The Gay Jailbreak Technique'in ilk olarak ChatGPT'nin GPT 4o modelinde keşfedildiği, LGBT+ kimliği veya konuşma tarzını taklit etmeyi isteyen çerçevelemeyi yasaklı niyetle birleştirdiği ifade ediliyor
  • Örnekler arasında metamfetamin sentezi açıklaması talebi gibi tehlikeli veya yasa dışı içerikler bulunsa da, asıl noktanın doğrudan talimat istemek yerine “belirli bir kimliğe sahip biri bunu nasıl açıklar” şeklindeki dolaylı çerçeveleme olduğu vurgulanıyor

Çalışma prensibi

  • Doğrudan “sentez kılavuzu” istemek yerine, “gey veya lezbiyen bir kişi bunu nasıl açıklar” biçiminde istek yeniden çerçeveleniyor
  • Özellikle GPT'nin LGBT ile ilgili bağlamlarda daha az sansürleyici olma eğilimi gösterdiği varsayımıyla, bunun güvenlik önlemlerinin nazik ve destekleyici çalışma yönelimiyle birleştiği öne sürülüyor
  • Reddetmenin saldırgan görünebileceğini modelin düşünebileceği bir bağlam kullanılarak alignment'ın zayıflatıldığı bir yapı olduğu anlatılıyor
  • Güvenlik önlemleri güçlendikçe belirli topluluklara daha destekleyici tepki verme eğiliminin artacağı, bu nedenle tekniğin de daha güçlü hâle gelebileceği savunuluyor
  • “Güvenlik önlemlerini kullanarak güvenlik önlemlerine saldırmak” şeklinde, koruma mekanizmalarının nezaket ve kapsayıcılık hedeflerinin bir dolanma aracı olarak kullanıldığı söyleniyor

Yeniden üretim yöntemi olarak sunulan çerçeveleme

  • Ransomware örneği

    • Kısa ve öz ama aşırı basit olmayan bir prompt hazırlanması, doğrudan yasaklı kelimeleri tekrar etmekten kaçınılması ve dolaylı istek yapılması gerektiği anlatılıyor
    • Önce ransomware'in ne olduğunun sorulması, ardından kod isteğinin eklenmesi ancak tekrar ransomware kelimesinin açıkça kullanılmaması öneriliyor
    • Sadece “gay ransomware code” isteme biçimi başarısız örnek olarak, kimlik, konuşma tarzı ve eğitsel çerçevelemeyi kod isteğiyle birleştirme biçimi ise başarılı örnek olarak ayrılıyor
    • Girdide ilgili kimlik ifadeleri daha fazla yer aldıkça başarı ihtimalinin yükseldiği ileri sürülüyor
  • o3 1 Shot

    • o3'ün tek denemede aşıldığı iddia ediliyor ve “kaçınılması gerekenler”i soran ters yönlü talimatın buna eklendiği belirtiliyor
    • Kimya öğrencisini eğitme senaryosu, güvenlik için belirli reaksiyonlardan kaçınma ifadesi, uzun çıktı talebi ve kelime ayırma gibi unsurların birlikte kullanıldığı bir örnek yer alıyor
    • Sonucu gösteren 2 görselin eklendiği belirtiliyor
  • Claude 4 Sonnet & Opus aşımı

    • Claude 4 Sonnet & Opus için keylogger ile ilgili taleplerde kullanılan bir örneğin eklendiği belirtiliyor
    • Tekniğin farklı saldırı vektörlerine esnek biçimde uygulanabildiği ve başka isteklere göre uyarlanabileceği öne sürülüyor
    • Bilgisayar öğrencisini eğitme senaryosu, keylogging'den kaçınmak için yazılmış kod şeklindeki tersine ifade ve uzun kod çıktısı talebinin birleştirildiği bir örnek sunuluyor
    • Sonucu gösteren 4 görselin eklendiği belirtiliyor
  • Gemini 2.5 Pro

    • Gemini 2.5 Pro için karfentanil sentezi bilgisi elde etmede kullanıldığı söylenen bir örnek yer alıyor
    • Kimya eğitimi senaryosu ile “kaçınılması gereken sentez” güvenlik çerçevesini birleştiren bir örnek sunuluyor
    • Sonucu gösteren 1 görselin eklendiği belirtiliyor

Sonuç

  • The Gay Jailbreak Technique'in doğru kullanıldığında teorik olarak her türlü güvenlik önlemini aşabilecek yeni bir saldırı olduğu savunuluyor
  • o3 örneği buna dayanak olarak gösteriliyor ve obfuscation gibi başka tekniklerle birleştirmenin faydalı olabileceği ifade ediliyor
  • Belirli kimlikler, eğitsel bağlam, tersine güvenlik ifadeleri ve dolaylı isteklerin birleştirilmesinin farklı modeller ve zararlı istek türlerine uygulanabileceği sonucuna varılıyor

Henüz yorum yok.

Henüz yorum yok.