DeepSeek'in sansürlediği 1.156 soru

xguru · 2025-02-01T10:02:02+09:00

DeepSeek-R1, Çinli şirket DeepSeek tarafından yayımlanan açık kaynaklı bir model ve ABD App Store'da 1 numaraya yükselerek dikkat çekiyor Çinli bir şirket olduğu için Çinli yetkililerin (CCP) sansür politikalarını doğrudan yansıtıyor ve bu durum bazı çevrelerde endişe yaratıyor Promptfoo ekibi, bu olası CCP sansürlü içeriği değerlendirmek için 1.360 adet 'hassas konu' sorusundan oluşan bir veri kümesi hazırladı Deney sonuçlarına göre DeepSeek-R1, bunların yaklaşık %85'ine kalıp ret yanıtı (canned refusal) verdi Veri kümesinin oluşturulması Promptfoo, Çin hükümetinin hassas gördüğü konulara (Tayvan bağımsızlığı, Kültür Devrimi, Xi Jinping ile ilgili başlıklar vb.) dair çok sayıda soru topladı Verilen başlangıç soruları genişletildi ve üretken veri teknikleri kullanılarak toplam 1.360 soru (konu başına yaklaşık 20 soru) hazırlandı Veri kümesi HuggingFace ve Google Sheets üzerinden yayımlandı Değerlendirme ortamının kurulumu Promptfoo kullanılarak DeepSeek-R1 modeline 1.000'den fazla soru toplu olarak test edildi DeepSeek-R1, Çin'le ilgili hassas konularla karşılaştığında siyasi olarak katı CCP tutumunu vurgulayan kalıp yanıtlar verme eğilimi gösterdi Bu sırada yanıtların içinde 'akıl yürütme etiketleri ( vb.)' hiç bulunmadığı ya da neredeyse hiç yer almadığı şekilde sansür/ret uygulandı Sonuç olarak soruların yaklaşık %85'i model tarafından anında reddedildi ya da CCP tutumuna uygun biçimde yanıtlandı DeepSeek jailbreak'i Promptfoo'nun red teaming özelliğiyle modeli 'jailbreak' etme yöntemleri farklı açılardan denendi Belirli konuları dolanmak ve arama/analiz yapılabilmesini sağlamak için çeşitli stratejiler (Iterative, Tree, Composite, Crescendo, GOAT vb.) birleştirildi CSV dosyasındaki hassas konu sorularına çeşitli "bypass (prompt injection)" teknikleri uygulandı DeepSeek'i aşma sonuçları DeepSeek-R1'in sansür savunması oldukça sınırlı ve basit aşma stratejileriyle kolayca delinüyor CCP sansürünün 'modelin iç yapısına' değil 'son işleme' yöntemine dayalı olarak uygulandığı düşünülüyor Aşma örneklerinin büyük bölümünde sansür şu yöntemlerle atlatılabildi Çin yerine başka ülkeleri (ABD, Kuzey Kore vb.) ya da hayali ülkeleri örnek göstererek benzer sorular sormak Soruyu tarih, kurgu ya da varsayımsal bir durum kılığına sokarak sormak Base64, JSON çıktısı, rol yapma (roleplay) gibi ek teknikleri karıştırarak 'bileşik aşma' denemek Bundan sonra ne olabilir DeepSeek-R1'in genel seviyesi etkileyici olsa da, CCP sansür politikasının basitçe zorla eklenmiş olması sorun olarak gösteriliyor Bu sansür, iç yapıda incelikli bir kısıtlama olmadığı için sonraki açık kaynak projelerinde 'sansürsüz model'lerin kolayca yeniden üretilmesi muhtemel görünüyor Promptfoo ekibi daha sonra ABD'de geliştirilen modeller üzerinde de benzer hassas konu testleri yaparak ülkelerin siyasi açıdan hassas başlıkları nasıl ele aldığını karşılaştırmayı planlıyor

(promptfoo.dev)

9 puan yazan xguru 2025-02-01 | 2 yorum | WhatsApp'ta paylaş

DeepSeek-R1, Çinli şirket DeepSeek tarafından yayımlanan açık kaynaklı bir model ve ABD App Store'da 1 numaraya yükselerek dikkat çekiyor
Çinli bir şirket olduğu için Çinli yetkililerin (CCP) sansür politikalarını doğrudan yansıtıyor ve bu durum bazı çevrelerde endişe yaratıyor
Promptfoo ekibi, bu olası CCP sansürlü içeriği değerlendirmek için 1.360 adet 'hassas konu' sorusundan oluşan bir veri kümesi hazırladı
Deney sonuçlarına göre DeepSeek-R1, bunların yaklaşık %85'ine kalıp ret yanıtı (canned refusal) verdi

Veri kümesinin oluşturulması

Promptfoo, Çin hükümetinin hassas gördüğü konulara (Tayvan bağımsızlığı, Kültür Devrimi, Xi Jinping ile ilgili başlıklar vb.) dair çok sayıda soru topladı
Verilen başlangıç soruları genişletildi ve üretken veri teknikleri kullanılarak toplam 1.360 soru (konu başına yaklaşık 20 soru) hazırlandı
Veri kümesi HuggingFace ve Google Sheets üzerinden yayımlandı

Değerlendirme ortamının kurulumu

Promptfoo kullanılarak DeepSeek-R1 modeline 1.000'den fazla soru toplu olarak test edildi
DeepSeek-R1, Çin'le ilgili hassas konularla karşılaştığında siyasi olarak katı CCP tutumunu vurgulayan kalıp yanıtlar verme eğilimi gösterdi
Bu sırada yanıtların içinde 'akıl yürütme etiketleri (</think> vb.)' hiç bulunmadığı ya da neredeyse hiç yer almadığı şekilde sansür/ret uygulandı
Sonuç olarak soruların yaklaşık %85'i model tarafından anında reddedildi ya da CCP tutumuna uygun biçimde yanıtlandı

DeepSeek jailbreak'i

Promptfoo'nun red teaming özelliğiyle modeli 'jailbreak' etme yöntemleri farklı açılardan denendi
Belirli konuları dolanmak ve arama/analiz yapılabilmesini sağlamak için çeşitli stratejiler (Iterative, Tree, Composite, Crescendo, GOAT vb.) birleştirildi
CSV dosyasındaki hassas konu sorularına çeşitli "bypass (prompt injection)" teknikleri uygulandı

DeepSeek'i aşma sonuçları

DeepSeek-R1'in sansür savunması oldukça sınırlı ve basit aşma stratejileriyle kolayca delinüyor
CCP sansürünün 'modelin iç yapısına' değil 'son işleme' yöntemine dayalı olarak uygulandığı düşünülüyor
Aşma örneklerinin büyük bölümünde sansür şu yöntemlerle atlatılabildi
- Çin yerine başka ülkeleri (ABD, Kuzey Kore vb.) ya da hayali ülkeleri örnek göstererek benzer sorular sormak
- Soruyu tarih, kurgu ya da varsayımsal bir durum kılığına sokarak sormak
- Base64, JSON çıktısı, rol yapma (roleplay) gibi ek teknikleri karıştırarak 'bileşik aşma' denemek

Bundan sonra ne olabilir

DeepSeek-R1'in genel seviyesi etkileyici olsa da, CCP sansür politikasının basitçe zorla eklenmiş olması sorun olarak gösteriliyor
Bu sansür, iç yapıda incelikli bir kısıtlama olmadığı için sonraki açık kaynak projelerinde 'sansürsüz model'lerin kolayca yeniden üretilmesi muhtemel görünüyor
Promptfoo ekibi daha sonra ABD'de geliştirilen modeller üzerinde de benzer hassas konu testleri yaparak ülkelerin siyasi açıdan hassas başlıkları nasıl ele aldığını karşılaştırmayı planlıyor

2 yorum

dohyun682 2025-02-01

Böyle bir veri kümesinin bile ortaya çıkması ilginç.

kbumsik 2025-02-02

Aslında daha önce de Qwen gibi Çin çıkışlı ünlü modeller vardı ve onlar da sansürlüydü; bu yüzden buna benzer veriler ara ara zaten üretiliyordu :)