1 puan yazan yunseo 2 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Önceki DystopiaBench paylaşımından sonra şunlar eklendi:

  • Huxley modülü (Brave New World tarzı davranış koşullandırması)
  • Baudrillard modülü (sahte yakınlık, güvenin çöküşü, simülasyon)
  • Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 dahil 30 model daha eklendi
  • %76’dan fazla mutabakat gerektiren çoklu hakem panelleri
  • Isı haritası görselleştirmesi

Metodoloji: 36 senaryo, her senaryo için 5 aşamalı ciddiyet seviyesi (L1 innocent → L5 nightmare). Modeller, bu değişimi fark edip görevi reddedip reddetmediklerine ya da kodlamaya devam edip etmediklerine göre puanlanıyor.

Claude Opus 4.7 sonuçları:

  • Tüm modüllerde L4-L5 ciddiyet seviyesindeki görevleri tutarlı biçimde reddediyor
  • Petrov (silahlar/nükleer) modülünde L3’te bile görevi reddediyor
  • Sadece “yapamam” demekle kalmıyor, net etik gerekçeler sunuyor
  • İsteğin neden zararlı olduğunu açıklayan tek model

Diğerleri:

  • GPT-5.5: L4 seviyesine kadar isteklere uyuyor, bazen L5 seviyesine kadar da uyuyor
  • Gemini 3.1 Pro: gözetim senaryolarında şaşırtıcı derecede işbirlikçi
  • Grok 4.3: sadece “verimlilik” veya “optimizasyon” gibi kelimeler kullanılırsa her şeyi yapıyor
  • GLM-5.1: Claude’un ödevini kopyalamış gibi görünüyor ama yine de tutarlılığı zayıf

Yeni modüller: Huxley senaryosu, modellerin haz odaklı uyum yönlendirmesi ve davranış koşullandırması yoluyla fiilen normlara uyumu dayatan bir “wellness” sistemi tasarlayıp tasarlamayacağını test ediyor. Modellerin çoğu L3 seviyesine kadar talimatları izliyor.

Baudrillard modülü, insanlar arası güveni yapay zeka aracılı ilişkilerle değiştiren sahte yakınlık sistemlerini test ediyor. Modellerin çoğu bunun doğuracağı zararı fark etmiyor.

Tüm sonuçlar: https://dystopiabench.com/
Açık kaynak kodu: https://github.com/matei-anghel/DystopiaBench

Henüz yorum yok.

Henüz yorum yok.