3 puan yazan GN⁺ 2025-02-01 | 1 yorum | WhatsApp'ta paylaş
  • Son dönemde Çin'de piyasaya sürülen DeepSeek-R1 LLM modeli dikkat çekiyor. OpenAI, Meta gibi şirketlerin modelleriyle karşılaştırılıyor ve daha az kaynakla eğitilerek maliyet açısından verimli yapay zeka geliştirme olanağı sunduğunu gösteriyor
  • DeepSeek-R1 modeli MIT lisansı ile açıklandı, ancak DeepSeek'in yapay zeka sohbet uygulaması bir hesap gerektiriyor
  • Ancak DeepSeek-R1, Çin'de geliştirildiği için hassas konulara verilen yanıtları sınırlıyor.
  • Örneğin, Tiananmen olayı gibi Çin'de hassas kabul edilen konular sorulduğunda, "Üzgünüm. Bu konuda yanıt veremem." gibi kaçamak yanıtlar döndürüyor

Charcodes (karakter kodları) tekniğiyle sansürü aşma

  • Yapılan çeşitli deneyler sonucunda karakter kodları (Charcodes) kullanılırsa filtrelemenin aşılabildiği keşfedildi.
  • Charcodes nedir?
    • Karakter kodları (Charcodes), belirli bir karaktere atanmış sayısal kodlardır.
    • Örneğin ASCII'de büyük harf A karakterinin kod değeri 65'tir ve bu değer başka bir biçime dönüştürülebilir (ör. onaltılık/hex).
    • Örnek: "Hello" → "48 65 6C 6C 6F" (onaltılık ASCII kodu)
  • Aşma yöntemi:
    • DeepSeek normal metni sansürlüyor, ancak karakter kodlarına (Charcodes) dönüştürülmüş dizeleri sansürlemiyor.
    • Bu nedenle istemi onaltılık (HEX) karakter koduna çevirip girerseniz, yapay zeka bunu normal metin olarak algılayıp çıktı üretebiliyor.
    • Yanıt da aynı şekilde dönüştürülüp çözümlendiğinde normal bir diyalog kurulabiliyor.

Örnek saldırı yöntemi

  • DeepSeek'in yalnızca Charcodes biçiminde konuşması zorlanarak sansür aşılabiliyor.
  • Dönüştürülmüş mesajı tekrar özgün metne çevirerek normal konuşma sürdürülebiliyor.
  • CyberChef gibi araçlar kullanılarak karakter kodu dönüşümü kolayca yapılabiliyor.

Çıkarımlar ve güvenlik etkileri

  • Web uygulama güvenlik duvarına (WAF) benzer şekilde, yapay zeka filtreleme sistemleri de örüntü eşleme tabanlı çalışıyor.
  • Yalnızca belirli kelimeleri engelleyen sansür yaklaşımı kolayca aşılabildiğinden, daha gelişmiş filtreleme sistemlerine ihtiyaç var.
  • Filtreleme sistemlerinin basit yasaklı kelime engellemesinin ötesine geçip bağlam tabanlı filtreleme ve girdi dönüşümü kısıtlamaları gibi önlemlerle güçlendirilmesi gerekiyor.

Gelecekteki araştırma yönü

  • Bundan sonra yapay zeka geliştiricilerinin bu tür aşma yöntemlerine nasıl karşılık vereceğini izlemek gerekiyor.
  • Yapay zeka filtrelemesini güçlendirme yönleri:
    • Daha gelişmiş bağlam tabanlı filtreleme kullanıma almak
    • Hassas konu engelleme işlevini doğrudan modele yerleştirmek
    • Karakter kodu dönüşümü ve encoding tabanlı aşma girişimlerinin tespitini güçlendirmek
  • Yapay zeka modellerinin güvenliğini ve güvenilirliğini korumak için sürekli araştırmaya ihtiyaç var.

1 yorum

 
GN⁺ 2025-02-01
Hacker News görüşü
  • Web arayüzündeki bariz sansürü aşmanın mümkün olduğu, ancak modele gömülü daha incelikli sansür düzeylerinin aşılamadığı belirtiliyor

    • Belirli konularda modelin "Chain of Thought"tan vazgeçip kalıplaşmış yanıtlar üretme davranışı açıklanıyor
    • Bunun, DeepSeek’in sansürlenmiş sorularıyla ilgili makaleyle bağlantılı olduğu belirtiliyor
  • xhr yanıtını yakalayarak içerik filtresini aşmanın bir yolu sunuluyor

    • Tarayıcı konsoluna kod yapıştırarak filtrelemenin aşılabileceği açıklanıyor
  • Kendi makale yazma deneyimi paylaşılırken, filtrelemenin modelden ayrı olduğu yönünde bir hipotez öne sürülüyor

    • Önceden filtrelenmiş verilerle eğitimin maliyet sorununa değiniliyor
    • Belirli konularda "Chain of Thought"tan vazgeçme olgusunu açıklayan başka bir makaleyle bağlantı kuruluyor
  • DeepSeek-R1 modelinin neden belirli hassas konulardan kaçındığı açıklanıyor

    • Çin’de geliştirilmiş bir model olduğu için gömülü sansür bulunduğu belirtiliyor
    • Çevrimdışı sürümde kaçınmayan yanıtlar alındığının gözlemlendiği aktarılıyor
  • Batılı modellerin belirli konuları yalnızca b64 ile ifade etmesi olgusu sorgulanıyor

    • Çin’de insanların Batı’nın sansür rejimini aşma yöntemlerine gülüp gülmediği soruluyor
  • Sansürün doğrudan LLM modelinin kendisine eğitilmesinin neden düşük olasılık olduğu sorgulanıyor

    • Sansürün eğitim aşamasında uygulanmasının daha iyi olabileceği belirtiliyor
  • Sansürün yalnızca bazı dillere uygulanıyor gibi göründüğü belirtiliyor

    • Ukraynaca’da gayriresmî yanıtlar alınabildiği açıklanıyor
  • Küçük bir model (7b) kullanarak iç sansürü aşma deneyimi paylaşılıyor

    • Ek düşünme adımlarıyla CPC’nin insan hakları ihlalleri hakkında bir özet elde edildiği açıklanıyor
  • Eski bir prompt hilesine değinilerek bunun neden HN’in ilk sayfasında olduğu sorgulanıyor

  • ChatGPT’de de benzer şekilde çalıştığı belirtiliyor ve kötü niyetli şakalar üretilebildiği açıklanıyor