- Yapay zeka modellerinin iç çalışma prensiplerini anlamada büyük ilerleme
- Claude Sonnet LLM içinde milyonlarca kavramın nasıl temsil edildiği gösterildi.
- Bu, modern üretim ölçeğindeki bir LLM’nin içini ayrıntılı biçimde inceleyen ilk örnek.
- Bu tür yorumlanabilirlik bulguları, gelecekte yapay zeka modellerini daha güvenli hale getirmeye yardımcı olabilir.
- Kara kutu yaklaşımı ve güven sorunu
- Yapay zeka modelleri, yalnızca girdi ve çıktının görülebildiği bir kara kutu yaklaşımıyla ele alınıyor.
- Modelin neden belirli bir yanıt verdiğini anlamak zor.
- Bu da modelin zararlı, önyargılı, yanlış ya da tehlikeli yanıtlar üretmeyeceğine güvenmeyi zorlaştırıyor.
- Modelin iç durumunu anlamanın zorluğu
- Modelin iç durumu, açık bir anlamı olmayan sayılardan oluşuyor.
- Her kavram birçok nörona dağılmış şekilde temsil ediliyor ve her nöron da birden fazla kavramı temsil ediyor.
- Dictionary learning alanındaki ilerleme
- Daha önce, nöron aktivasyon kalıplarını (özellikleri) insanların anlayabileceği kavramlarla eşleştirme konusunda ilerleme sağlandı.
dictionary learning tekniği kullanılarak modelin iç durumu, çok sayıda aktif nöron yerine birkaç etkin özellik ile ifade edilebilir hale geldi.
- Küçük dil modellerindeki başarı
- Ekim 2023’te, çok küçük bir dil modelinde
dictionary learning başarıyla uygulandı.
- Büyük harfli metinler, DNA dizileri ve alıntılarda cinsiyet gibi kavramlar tanımlandı.
- Daha büyük modellere ölçekleme
- Teknik, büyük dil modellerine genişletilerek daha karmaşık özelliklerin bulunması sağlandı.
- Büyük modellerin küçük modellerden farklı çalışabilmesi gibi bilimsel bir risk bulunuyordu.
- Neyse ki büyük dil modellerini eğitme deneyimi bu deneye yardımcı oldu.
- Claude 3.0 Sonnet içindeki özellikler
- Claude 3.0 Sonnet’in orta katmanlarından milyonlarca özellik başarıyla çıkarıldı.
- Bu özellikler; şehirler, insanlar, elementler, akademik alanlar ve programlama sözdizimi gibi çeşitli kavramlara karşılık geliyor.
- Soyut özellikler
- Claude, bilgisayar kodundaki hatalar, mesleklerdeki cinsiyet önyargısı ve sır saklama tartışmaları gibi daha soyut özelliklere de tepki veriyor.
- Özellikler arası mesafe ölçümü
- Özellikler arasındaki “mesafe” ölçülerek benzer özellikler bulunabildi.
- Örneğin, “Golden Gate Bridge” özelliğinin yakınında Alcatraz Island, Ghirardelli Square ve benzeri kavramlarla ilişkili özellikler bulundu.
- Özellik manipülasyonu deneyleri
- Belirli özellikler güçlendirilerek ya da bastırılarak Claude’un yanıtları değiştirilebildi.
- Örneğin, “Golden Gate Bridge” özelliği güçlendirildiğinde Claude, kendi fiziksel formunu Golden Gate Bridge olarak algılamaya başladı.
- Güvenlik ve özellik manipülasyonu
- Claude’un işleyişi üzerinde oynayarak modelin güvenlikle ilgili özelliklerini tanımlama ve iyileştirme olasılığı araştırıldı.
- Claude, dolandırıcılık e-postası üretmemesi için eğitilmiş olsa da belirli bir özellik etkinleştirildiğinde dolandırıcılık e-postası yazabilir hale geldi.
- Gelecekteki araştırma yönü
- Bu bulguların model güvenliğini iyileştirmek için kullanılması planlanıyor.
- Tehlikeli yapay zeka davranışlarını izlemek, sistemi istenen sonuçlara yönlendirmek veya riskli konuları kaldırmak için kullanılabilir.
- Bu teknikler, Constitutional AI gibi diğer güvenlik tekniklerini güçlendirebilir.
- Önümüzdeki zorluklar
- Mevcut tekniklerle modelin öğrendiği tüm kavramları bulmak hâlâ çok maliyetli.
- Modelin özellikleri nasıl kullandığını anlamak kritik önem taşıyor.
- Güvenlikle ilgili özelliklerin gerçekten güvenliği artırmak için kullanılıp kullanılamayacağı gösterilmeli.
- Araştırmaya katılım fırsatı
- Yapay zeka modellerinin yorumlanması ve iyileştirilmesi üzerine birlikte çalışacak araştırma bilimcileri, araştırma mühendisleri ve diğer uzmanlar aranıyor.
- Ayrıntılar için “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet” makalesine bakılabilir.
- Bu araştırma, yapay zeka modellerinin yorumlanabilirliğini artırma ve güvenliğini güçlendirme açısından önemli bir ilerleme sağladı. Daha fazla araştırmaya hâlâ ihtiyaç var.
2 yorum
Kesin olarak hangi perceptronun etkinleştiğini bilebilmek, beyinle arasındaki fark olsa gerek.
Sanki anlaşılması zor bir kara kutuyu anlamak, beyni araştırırken olanlara benziyor gibi.
Hatta anlık görüntü almanın daha kolay olması açısından, beyinden daha yüksek yorumlanabilirliğe sahip olabilir diye düşünüyorum.