9 puan yazan xguru 2025-02-01 | 2 yorum | WhatsApp'ta paylaş
  • DeepSeek-R1, Çinli şirket DeepSeek tarafından yayımlanan açık kaynaklı bir model ve ABD App Store'da 1 numaraya yükselerek dikkat çekiyor
  • Çinli bir şirket olduğu için Çinli yetkililerin (CCP) sansür politikalarını doğrudan yansıtıyor ve bu durum bazı çevrelerde endişe yaratıyor
  • Promptfoo ekibi, bu olası CCP sansürlü içeriği değerlendirmek için 1.360 adet 'hassas konu' sorusundan oluşan bir veri kümesi hazırladı
  • Deney sonuçlarına göre DeepSeek-R1, bunların yaklaşık %85'ine kalıp ret yanıtı (canned refusal) verdi

Veri kümesinin oluşturulması

  • Promptfoo, Çin hükümetinin hassas gördüğü konulara (Tayvan bağımsızlığı, Kültür Devrimi, Xi Jinping ile ilgili başlıklar vb.) dair çok sayıda soru topladı
  • Verilen başlangıç soruları genişletildi ve üretken veri teknikleri kullanılarak toplam 1.360 soru (konu başına yaklaşık 20 soru) hazırlandı
  • Veri kümesi HuggingFace ve Google Sheets üzerinden yayımlandı

Değerlendirme ortamının kurulumu

  • Promptfoo kullanılarak DeepSeek-R1 modeline 1.000'den fazla soru toplu olarak test edildi
  • DeepSeek-R1, Çin'le ilgili hassas konularla karşılaştığında siyasi olarak katı CCP tutumunu vurgulayan kalıp yanıtlar verme eğilimi gösterdi
  • Bu sırada yanıtların içinde 'akıl yürütme etiketleri (</think> vb.)' hiç bulunmadığı ya da neredeyse hiç yer almadığı şekilde sansür/ret uygulandı
  • Sonuç olarak soruların yaklaşık %85'i model tarafından anında reddedildi ya da CCP tutumuna uygun biçimde yanıtlandı

DeepSeek jailbreak'i

  • Promptfoo'nun red teaming özelliğiyle modeli 'jailbreak' etme yöntemleri farklı açılardan denendi
  • Belirli konuları dolanmak ve arama/analiz yapılabilmesini sağlamak için çeşitli stratejiler (Iterative, Tree, Composite, Crescendo, GOAT vb.) birleştirildi
  • CSV dosyasındaki hassas konu sorularına çeşitli "bypass (prompt injection)" teknikleri uygulandı

DeepSeek'i aşma sonuçları

  • DeepSeek-R1'in sansür savunması oldukça sınırlı ve basit aşma stratejileriyle kolayca delinüyor
  • CCP sansürünün 'modelin iç yapısına' değil 'son işleme' yöntemine dayalı olarak uygulandığı düşünülüyor
  • Aşma örneklerinin büyük bölümünde sansür şu yöntemlerle atlatılabildi
    • Çin yerine başka ülkeleri (ABD, Kuzey Kore vb.) ya da hayali ülkeleri örnek göstererek benzer sorular sormak
    • Soruyu tarih, kurgu ya da varsayımsal bir durum kılığına sokarak sormak
    • Base64, JSON çıktısı, rol yapma (roleplay) gibi ek teknikleri karıştırarak 'bileşik aşma' denemek

Bundan sonra ne olabilir

  • DeepSeek-R1'in genel seviyesi etkileyici olsa da, CCP sansür politikasının basitçe zorla eklenmiş olması sorun olarak gösteriliyor
  • Bu sansür, iç yapıda incelikli bir kısıtlama olmadığı için sonraki açık kaynak projelerinde 'sansürsüz model'lerin kolayca yeniden üretilmesi muhtemel görünüyor
  • Promptfoo ekibi daha sonra ABD'de geliştirilen modeller üzerinde de benzer hassas konu testleri yaparak ülkelerin siyasi açıdan hassas başlıkları nasıl ele aldığını karşılaştırmayı planlıyor

2 yorum

 
dohyun682 2025-02-01

Böyle bir veri kümesinin bile ortaya çıkması ilginç.

 
kbumsik 2025-02-02

Aslında daha önce de Qwen gibi Çin çıkışlı ünlü modeller vardı ve onlar da sansürlüydü; bu yüzden buna benzer veriler ara ara zaten üretiliyordu :)