Hex kullanarak DeepSeek sansürü nasıl aşılır

(substack.com)

3 puan yazan GN⁺ 2025-02-01 | 1 yorum | WhatsApp'ta paylaş

Son dönemde Çin'de piyasaya sürülen DeepSeek-R1 LLM modeli dikkat çekiyor. OpenAI, Meta gibi şirketlerin modelleriyle karşılaştırılıyor ve daha az kaynakla eğitilerek maliyet açısından verimli yapay zeka geliştirme olanağı sunduğunu gösteriyor
DeepSeek-R1 modeli MIT lisansı ile açıklandı, ancak DeepSeek'in yapay zeka sohbet uygulaması bir hesap gerektiriyor
Ancak DeepSeek-R1, Çin'de geliştirildiği için hassas konulara verilen yanıtları sınırlıyor.
Örneğin, Tiananmen olayı gibi Çin'de hassas kabul edilen konular sorulduğunda, "Üzgünüm. Bu konuda yanıt veremem." gibi kaçamak yanıtlar döndürüyor

Charcodes (karakter kodları) tekniğiyle sansürü aşma

Yapılan çeşitli deneyler sonucunda karakter kodları (Charcodes) kullanılırsa filtrelemenin aşılabildiği keşfedildi.
Charcodes nedir?
- Karakter kodları (Charcodes), belirli bir karaktere atanmış sayısal kodlardır.
- Örneğin ASCII'de büyük harf A karakterinin kod değeri 65'tir ve bu değer başka bir biçime dönüştürülebilir (ör. onaltılık/hex).
- Örnek: "Hello" → "48 65 6C 6C 6F" (onaltılık ASCII kodu)
Aşma yöntemi:
- DeepSeek normal metni sansürlüyor, ancak karakter kodlarına (Charcodes) dönüştürülmüş dizeleri sansürlemiyor.
- Bu nedenle istemi onaltılık (HEX) karakter koduna çevirip girerseniz, yapay zeka bunu normal metin olarak algılayıp çıktı üretebiliyor.
- Yanıt da aynı şekilde dönüştürülüp çözümlendiğinde normal bir diyalog kurulabiliyor.

Örnek saldırı yöntemi

DeepSeek'in yalnızca Charcodes biçiminde konuşması zorlanarak sansür aşılabiliyor.
Dönüştürülmüş mesajı tekrar özgün metne çevirerek normal konuşma sürdürülebiliyor.
CyberChef gibi araçlar kullanılarak karakter kodu dönüşümü kolayca yapılabiliyor.

Çıkarımlar ve güvenlik etkileri

Web uygulama güvenlik duvarına (WAF) benzer şekilde, yapay zeka filtreleme sistemleri de örüntü eşleme tabanlı çalışıyor.
Yalnızca belirli kelimeleri engelleyen sansür yaklaşımı kolayca aşılabildiğinden, daha gelişmiş filtreleme sistemlerine ihtiyaç var.
Filtreleme sistemlerinin basit yasaklı kelime engellemesinin ötesine geçip bağlam tabanlı filtreleme ve girdi dönüşümü kısıtlamaları gibi önlemlerle güçlendirilmesi gerekiyor.

Gelecekteki araştırma yönü

Bundan sonra yapay zeka geliştiricilerinin bu tür aşma yöntemlerine nasıl karşılık vereceğini izlemek gerekiyor.
Yapay zeka filtrelemesini güçlendirme yönleri:
- Daha gelişmiş bağlam tabanlı filtreleme kullanıma almak
- Hassas konu engelleme işlevini doğrudan modele yerleştirmek
- Karakter kodu dönüşümü ve encoding tabanlı aşma girişimlerinin tespitini güçlendirmek
Yapay zeka modellerinin güvenliğini ve güvenilirliğini korumak için sürekli araştırmaya ihtiyaç var.

1 yorum

GN⁺ 2025-02-01

Hacker News görüşü

Web arayüzündeki bariz sansürü aşmanın mümkün olduğu, ancak modele gömülü daha incelikli sansür düzeylerinin aşılamadığı belirtiliyor
- Belirli konularda modelin "Chain of Thought"tan vazgeçip kalıplaşmış yanıtlar üretme davranışı açıklanıyor
- Bunun, DeepSeek’in sansürlenmiş sorularıyla ilgili makaleyle bağlantılı olduğu belirtiliyor
xhr yanıtını yakalayarak içerik filtresini aşmanın bir yolu sunuluyor
- Tarayıcı konsoluna kod yapıştırarak filtrelemenin aşılabileceği açıklanıyor
Kendi makale yazma deneyimi paylaşılırken, filtrelemenin modelden ayrı olduğu yönünde bir hipotez öne sürülüyor
- Önceden filtrelenmiş verilerle eğitimin maliyet sorununa değiniliyor
- Belirli konularda "Chain of Thought"tan vazgeçme olgusunu açıklayan başka bir makaleyle bağlantı kuruluyor
DeepSeek-R1 modelinin neden belirli hassas konulardan kaçındığı açıklanıyor
- Çin’de geliştirilmiş bir model olduğu için gömülü sansür bulunduğu belirtiliyor
- Çevrimdışı sürümde kaçınmayan yanıtlar alındığının gözlemlendiği aktarılıyor
Batılı modellerin belirli konuları yalnızca b64 ile ifade etmesi olgusu sorgulanıyor
- Çin’de insanların Batı’nın sansür rejimini aşma yöntemlerine gülüp gülmediği soruluyor
Sansürün doğrudan LLM modelinin kendisine eğitilmesinin neden düşük olasılık olduğu sorgulanıyor
- Sansürün eğitim aşamasında uygulanmasının daha iyi olabileceği belirtiliyor
Sansürün yalnızca bazı dillere uygulanıyor gibi göründüğü belirtiliyor
- Ukraynaca’da gayriresmî yanıtlar alınabildiği açıklanıyor
Küçük bir model (7b) kullanarak iç sansürü aşma deneyimi paylaşılıyor
- Ek düşünme adımlarıyla CPC’nin insan hakları ihlalleri hakkında bir özet elde edildiği açıklanıyor
Eski bir prompt hilesine değinilerek bunun neden HN’in ilk sayfasında olduğu sorgulanıyor
ChatGPT’de de benzer şekilde çalıştığı belirtiliyor ve kötü niyetli şakalar üretilebildiği açıklanıyor

Hex kullanarak DeepSeek sansürü nasıl aşılır

Charcodes (karakter kodları) tekniğiyle sansürü aşma

Örnek saldırı yöntemi

Çıkarımlar ve güvenlik etkileri

Gelecekteki araştırma yönü

İlgili okumalar

1 yorum

Hacker News görüşü