OpenAI’nin yeni araştırma sonucu: GPT-4’ün iç temsillerini yorumlanabilir desenlere ayırma
(openai.com)• OpenAI, dil modellerindeki nöral etkinliği anlamak için GPT-4’ün iç temsillerini 16 milyon yorumlanabilir desene ayıran yeni ve ölçeklenebilir bir yöntem tanıttı.
• Sinir ağları doğrudan tasarlanmadığı ve tanımlanabilir parçalardan yoksun olduğu için yorumlanmaları zordur; bu da yapay zeka güvenliği hakkında çıkarım yapmayı güçleştirir.
• Araştırmacılar, sinir ağındaki ilgili "özellikleri" belirlemek ve bunları insanların anlaması kolay kavramlar olarak temsil etmek için seyrek otomatik kodlayıcılar kullanıyor.
• Ekip, son teknoloji yapay zeka modellerinde seyrek otomatik kodlayıcıları on milyonlarca özelliğe ölçeklendiren gelişmiş bir metodoloji geliştirerek sorunsuz ve öngörülebilir bir ölçeklenme sergiledi.
• Belirli özellikler için belge etkinleşmesini gösteren görselleştirmeler aracılığıyla, bu özelliklerin yorumlanabilirliği ortaya konuyor.
• Yorumlanabilir özellik örnekleri arasında insan kusurlarıyla ilgili ifadeler, fiyat artışı eğilimleri, "X ve Y" biçimindeki ifadeler, makine öğrenimi eğitim günlükleri, retorik/coşkulu sorular, cebirsel halkalar, adenozin ve dopamin reseptörleri yer alıyor.
• Araştırma ekibi, yorumlanabilirliğin model güvenilirliğini ve hizalanabilirliğini artırma potansiyeli konusunda heyecanlı olsa da, keşfedilen birçok özelliği yorumlamanın zor olduğunu ve daha iyi doğrulama yöntemlerine ihtiyaç bulunduğunu da kabul ediyor.
2 yorum
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…