- Son dönemde Çin'de piyasaya sürülen DeepSeek-R1 LLM modeli dikkat çekiyor. OpenAI, Meta gibi şirketlerin modelleriyle karşılaştırılıyor ve daha az kaynakla eğitilerek maliyet açısından verimli yapay zeka geliştirme olanağı sunduğunu gösteriyor
- DeepSeek-R1 modeli MIT lisansı ile açıklandı, ancak DeepSeek'in yapay zeka sohbet uygulaması bir hesap gerektiriyor
- Ancak DeepSeek-R1, Çin'de geliştirildiği için hassas konulara verilen yanıtları sınırlıyor.
- Örneğin, Tiananmen olayı gibi Çin'de hassas kabul edilen konular sorulduğunda, "Üzgünüm. Bu konuda yanıt veremem." gibi kaçamak yanıtlar döndürüyor
Charcodes (karakter kodları) tekniğiyle sansürü aşma
- Yapılan çeşitli deneyler sonucunda karakter kodları (Charcodes) kullanılırsa filtrelemenin aşılabildiği keşfedildi.
- Charcodes nedir?
- Karakter kodları (Charcodes), belirli bir karaktere atanmış sayısal kodlardır.
- Örneğin ASCII'de büyük harf
A karakterinin kod değeri 65'tir ve bu değer başka bir biçime dönüştürülebilir (ör. onaltılık/hex).
- Örnek: "Hello" → "48 65 6C 6C 6F" (onaltılık ASCII kodu)
- Aşma yöntemi:
- DeepSeek normal metni sansürlüyor, ancak karakter kodlarına (Charcodes) dönüştürülmüş dizeleri sansürlemiyor.
- Bu nedenle istemi onaltılık (HEX) karakter koduna çevirip girerseniz, yapay zeka bunu normal metin olarak algılayıp çıktı üretebiliyor.
- Yanıt da aynı şekilde dönüştürülüp çözümlendiğinde normal bir diyalog kurulabiliyor.
Örnek saldırı yöntemi
- DeepSeek'in yalnızca Charcodes biçiminde konuşması zorlanarak sansür aşılabiliyor.
- Dönüştürülmüş mesajı tekrar özgün metne çevirerek normal konuşma sürdürülebiliyor.
- CyberChef gibi araçlar kullanılarak karakter kodu dönüşümü kolayca yapılabiliyor.
Çıkarımlar ve güvenlik etkileri
- Web uygulama güvenlik duvarına (WAF) benzer şekilde, yapay zeka filtreleme sistemleri de örüntü eşleme tabanlı çalışıyor.
- Yalnızca belirli kelimeleri engelleyen sansür yaklaşımı kolayca aşılabildiğinden, daha gelişmiş filtreleme sistemlerine ihtiyaç var.
- Filtreleme sistemlerinin basit yasaklı kelime engellemesinin ötesine geçip bağlam tabanlı filtreleme ve girdi dönüşümü kısıtlamaları gibi önlemlerle güçlendirilmesi gerekiyor.
Gelecekteki araştırma yönü
- Bundan sonra yapay zeka geliştiricilerinin bu tür aşma yöntemlerine nasıl karşılık vereceğini izlemek gerekiyor.
- Yapay zeka filtrelemesini güçlendirme yönleri:
- Daha gelişmiş bağlam tabanlı filtreleme kullanıma almak
- Hassas konu engelleme işlevini doğrudan modele yerleştirmek
- Karakter kodu dönüşümü ve encoding tabanlı aşma girişimlerinin tespitini güçlendirmek
- Yapay zeka modellerinin güvenliğini ve güvenilirliğini korumak için sürekli araştırmaya ihtiyaç var.
1 yorum
Hacker News görüşü
Web arayüzündeki bariz sansürü aşmanın mümkün olduğu, ancak modele gömülü daha incelikli sansür düzeylerinin aşılamadığı belirtiliyor
xhryanıtını yakalayarak içerik filtresini aşmanın bir yolu sunuluyorKendi makale yazma deneyimi paylaşılırken, filtrelemenin modelden ayrı olduğu yönünde bir hipotez öne sürülüyor
DeepSeek-R1 modelinin neden belirli hassas konulardan kaçındığı açıklanıyor
Batılı modellerin belirli konuları yalnızca
b64ile ifade etmesi olgusu sorgulanıyorSansürün doğrudan LLM modelinin kendisine eğitilmesinin neden düşük olasılık olduğu sorgulanıyor
Sansürün yalnızca bazı dillere uygulanıyor gibi göründüğü belirtiliyor
Küçük bir model (7b) kullanarak iç sansürü aşma deneyimi paylaşılıyor
Eski bir prompt hilesine değinilerek bunun neden HN’in ilk sayfasında olduğu sorgulanıyor
ChatGPT’de de benzer şekilde çalıştığı belirtiliyor ve kötü niyetli şakalar üretilebildiği açıklanıyor