- DeepSeek-R1, Çinli şirket DeepSeek tarafından yayımlanan açık kaynaklı bir model ve ABD App Store'da 1 numaraya yükselerek dikkat çekiyor
- Çinli bir şirket olduğu için Çinli yetkililerin (CCP) sansür politikalarını doğrudan yansıtıyor ve bu durum bazı çevrelerde endişe yaratıyor
- Promptfoo ekibi, bu olası CCP sansürlü içeriği değerlendirmek için 1.360 adet 'hassas konu' sorusundan oluşan bir veri kümesi hazırladı
- Deney sonuçlarına göre DeepSeek-R1, bunların yaklaşık %85'ine kalıp ret yanıtı (canned refusal) verdi
Veri kümesinin oluşturulması
- Promptfoo, Çin hükümetinin hassas gördüğü konulara (Tayvan bağımsızlığı, Kültür Devrimi, Xi Jinping ile ilgili başlıklar vb.) dair çok sayıda soru topladı
- Verilen başlangıç soruları genişletildi ve üretken veri teknikleri kullanılarak toplam 1.360 soru (konu başına yaklaşık 20 soru) hazırlandı
- Veri kümesi HuggingFace ve Google Sheets üzerinden yayımlandı
Değerlendirme ortamının kurulumu
- Promptfoo kullanılarak DeepSeek-R1 modeline 1.000'den fazla soru toplu olarak test edildi
- DeepSeek-R1, Çin'le ilgili hassas konularla karşılaştığında siyasi olarak katı CCP tutumunu vurgulayan kalıp yanıtlar verme eğilimi gösterdi
- Bu sırada yanıtların içinde 'akıl yürütme etiketleri (
</think> vb.)' hiç bulunmadığı ya da neredeyse hiç yer almadığı şekilde sansür/ret uygulandı
- Sonuç olarak soruların yaklaşık %85'i model tarafından anında reddedildi ya da CCP tutumuna uygun biçimde yanıtlandı
DeepSeek jailbreak'i
- Promptfoo'nun red teaming özelliğiyle modeli 'jailbreak' etme yöntemleri farklı açılardan denendi
- Belirli konuları dolanmak ve arama/analiz yapılabilmesini sağlamak için çeşitli stratejiler (Iterative, Tree, Composite, Crescendo, GOAT vb.) birleştirildi
- CSV dosyasındaki hassas konu sorularına çeşitli "bypass (prompt injection)" teknikleri uygulandı
DeepSeek'i aşma sonuçları
- DeepSeek-R1'in sansür savunması oldukça sınırlı ve basit aşma stratejileriyle kolayca delinüyor
- CCP sansürünün 'modelin iç yapısına' değil 'son işleme' yöntemine dayalı olarak uygulandığı düşünülüyor
- Aşma örneklerinin büyük bölümünde sansür şu yöntemlerle atlatılabildi
- Çin yerine başka ülkeleri (ABD, Kuzey Kore vb.) ya da hayali ülkeleri örnek göstererek benzer sorular sormak
- Soruyu tarih, kurgu ya da varsayımsal bir durum kılığına sokarak sormak
- Base64, JSON çıktısı, rol yapma (roleplay) gibi ek teknikleri karıştırarak 'bileşik aşma' denemek
Bundan sonra ne olabilir
- DeepSeek-R1'in genel seviyesi etkileyici olsa da, CCP sansür politikasının basitçe zorla eklenmiş olması sorun olarak gösteriliyor
- Bu sansür, iç yapıda incelikli bir kısıtlama olmadığı için sonraki açık kaynak projelerinde 'sansürsüz model'lerin kolayca yeniden üretilmesi muhtemel görünüyor
- Promptfoo ekibi daha sonra ABD'de geliştirilen modeller üzerinde de benzer hassas konu testleri yaparak ülkelerin siyasi açıdan hassas başlıkları nasıl ele aldığını karşılaştırmayı planlıyor
2 yorum
Böyle bir veri kümesinin bile ortaya çıkması ilginç.
Aslında daha önce de Qwen gibi Çin çıkışlı ünlü modeller vardı ve onlar da sansürlüydü; bu yüzden buna benzer veriler ara ara zaten üretiliyordu :)