OpenAI’nin yeni araştırma sonucu: GPT-4’ün iç temsillerini yorumlanabilir desenlere ayırma

(openai.com)

7 puan yazan brainer 2024-06-07 | 2 yorum | WhatsApp'ta paylaş

• OpenAI, dil modellerindeki nöral etkinliği anlamak için GPT-4’ün iç temsillerini 16 milyon yorumlanabilir desene ayıran yeni ve ölçeklenebilir bir yöntem tanıttı.

• Sinir ağları doğrudan tasarlanmadığı ve tanımlanabilir parçalardan yoksun olduğu için yorumlanmaları zordur; bu da yapay zeka güvenliği hakkında çıkarım yapmayı güçleştirir.

• Araştırmacılar, sinir ağındaki ilgili "özellikleri" belirlemek ve bunları insanların anlaması kolay kavramlar olarak temsil etmek için seyrek otomatik kodlayıcılar kullanıyor.

• Ekip, son teknoloji yapay zeka modellerinde seyrek otomatik kodlayıcıları on milyonlarca özelliğe ölçeklendiren gelişmiş bir metodoloji geliştirerek sorunsuz ve öngörülebilir bir ölçeklenme sergiledi.

• Belirli özellikler için belge etkinleşmesini gösteren görselleştirmeler aracılığıyla, bu özelliklerin yorumlanabilirliği ortaya konuyor.

• Yorumlanabilir özellik örnekleri arasında insan kusurlarıyla ilgili ifadeler, fiyat artışı eğilimleri, "X ve Y" biçimindeki ifadeler, makine öğrenimi eğitim günlükleri, retorik/coşkulu sorular, cebirsel halkalar, adenozin ve dopamin reseptörleri yer alıyor.

• Araştırma ekibi, yorumlanabilirliğin model güvenilirliğini ve hizalanabilirliğini artırma potansiyeli konusunda heyecanlı olsa da, keşfedilen birçok özelliği yorumlamanın zor olduğunu ve daha iyi doğrulama yöntemlerine ihtiyaç bulunduğunu da kabul ediyor.

2 yorum

brainer 2024-06-07

https://github.com/openai/sparse_autoencoder

brainer 2024-06-07

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

OpenAI’nin yeni araştırma sonucu: GPT-4’ün iç temsillerini yorumlanabilir desenlere ayırma

İlgili okumalar

2 yorum