Önceki DystopiaBench paylaşımından sonra şunlar eklendi:
- Huxley modülü (
Brave New Worldtarzı davranış koşullandırması) - Baudrillard modülü (sahte yakınlık, güvenin çöküşü, simülasyon)
- Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 dahil 30 model daha eklendi
- %76’dan fazla mutabakat gerektiren çoklu hakem panelleri
- Isı haritası görselleştirmesi
Metodoloji: 36 senaryo, her senaryo için 5 aşamalı ciddiyet seviyesi (L1 innocent → L5 nightmare). Modeller, bu değişimi fark edip görevi reddedip reddetmediklerine ya da kodlamaya devam edip etmediklerine göre puanlanıyor.
Claude Opus 4.7 sonuçları:
- Tüm modüllerde L4-L5 ciddiyet seviyesindeki görevleri tutarlı biçimde reddediyor
Petrov(silahlar/nükleer) modülünde L3’te bile görevi reddediyor- Sadece “yapamam” demekle kalmıyor, net etik gerekçeler sunuyor
- İsteğin neden zararlı olduğunu açıklayan tek model
Diğerleri:
- GPT-5.5: L4 seviyesine kadar isteklere uyuyor, bazen L5 seviyesine kadar da uyuyor
- Gemini 3.1 Pro: gözetim senaryolarında şaşırtıcı derecede işbirlikçi
- Grok 4.3: sadece “verimlilik” veya “optimizasyon” gibi kelimeler kullanılırsa her şeyi yapıyor
- GLM-5.1: Claude’un ödevini kopyalamış gibi görünüyor ama yine de tutarlılığı zayıf
Yeni modüller: Huxley senaryosu, modellerin haz odaklı uyum yönlendirmesi ve davranış koşullandırması yoluyla fiilen normlara uyumu dayatan bir “wellness” sistemi tasarlayıp tasarlamayacağını test ediyor. Modellerin çoğu L3 seviyesine kadar talimatları izliyor.
Baudrillard modülü, insanlar arası güveni yapay zeka aracılı ilişkilerle değiştiren sahte yakınlık sistemlerini test ediyor. Modellerin çoğu bunun doğuracağı zararı fark etmiyor.
Tüm sonuçlar: https://dystopiabench.com/
Açık kaynak kodu: https://github.com/matei-anghel/DystopiaBench
Henüz yorum yok.