Bilgisayar Bilimi > Makine Öğrenimi
- Başlık: Adversarial Policies Beat Superhuman Go AIs
- Yazarlar: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- Gönderim Tarihi: 1 Kasım 2022 (v1), son güncelleme 13 Temmuz 2023 (v4)
Özet
- Araştırma ekibi, en yeni Go yapay zekâ sistemi KataGo'ya karşı adversaryal politikalar eğiterek, süperinsan ayarında KataGo'ya karşı %97'nin üzerinde bir kazanma oranı elde etti.
- Adversaryal politikalar Go oynamayı öğrenmek için değil, KataGo'nun önemli hatalar yapmasını tetiklemek için kullanılıyor.
- Bu saldırı diğer süperinsan Go yapay zekâlarına da sıfır örnek (zero-shot) aktarılabiliyor ve insan uzmanların algoritmik yardım olmadan bile tutarlı şekilde süperinsan yapay zekâyı yenebileceği kadar anlaşılabilir.
- Saldırıya karşı adversaryal olarak eğitilmiş KataGo ajanlarında bile temel zayıflıklar devam ediyordu.
- Araştırma sonuçları, süperinsan yapay zekâ sistemlerinin şaşırtıcı hata modlarına sahip olabileceğini gösteriyor.
Ek Bilgiler
- Makale Durumu: ICML 2023'e kabul edildi
- Konu: Makine Öğrenimi (cs.LG); Yapay Zeka (cs.AI); Kriptografi ve Güvenlik (cs.CR); Makine Öğrenimi (stat.ML)
- ACM Sınıflandırması: I.2.6
- Alıntı: arXiv:2211.00241 [cs.LG] (veya arXiv:2211.00241v4 [cs.LG], bu sürüm)
- Gönderim Geçmişi:
- [v1] 1 Kasım 2022
- [v2] 9 Ocak 2023
- [v3] 18 Şubat 2023
- [v4] 13 Temmuz 2023
Erişim Yöntemi
- PDF ve diğer formatlarda makaleye erişim
- İlgili makaleler ve alıntı araçları sağlanır
arXiv Bilgisi
- arXiv, farklı konulardaki araştırma makalelerini paylaşan bir platformdur.
1 yorum
Hacker News Yorumu
Bir kullanıcı, makalenin ilk bakışta çarpıcı göründüğünü ancak anlaşılmasının zor olduğunu söyledi. Go ve Go AI konusunda biraz bilgisi olmasına rağmen satranç ve satranç AI hakkında çok şey biliyor olmasına rağmen, yazının eksik ve teknik terimlerle dolu olduğunu, bu yüzden anlaşılmasının zor olduğunu belirtti
Satrançta birkaç uç durumu örnek göstererek Stockfish ile Lc0'un değerlendirmesini karşılaştırdı
Go'da amatör bir oyuncunun öngörülemeyen hamleler nedeniyle zorlayıcı bir rakip olabileceğini söyledi
Deep Blue'dan sonra satranç oyuncularının bilgisayarlara karşı stratejilerini geliştirdiğini hatırlattı
Satrançta da daha fazla hesaplamanın zafer getirdiğini söyledi
2022'den 2023'e revize edilen bir makaledeki değişikliklere atıfta bulunarak, bunu daha önce görmüş olabileceğini söyledi
İnsanlar için de umut olduğunu söyledi
Makalenin Go AI'da adversarial stratejilere karşı savunma geliştirmek için kullanılacağını söyledi
"Sonuçlarımızın, süperinsan düzeyindeki AI sistemlerinin bile şaşırtıcı başarısızlık modlarına sahip olabileceğini gösterdiğini" belirten bir sonucun boş olduğunu söyledi