Dil modellerini anlaşılabilir bileşenlere ayırmak

(anthropic.com)

1 puan yazan GN⁺ 2023-10-09 | 1 yorum | WhatsApp'ta paylaş

Anthropic, küçük bir Transformer dil modelinde tek tek nöronlardan daha kolay yorumlanabilen özellikler (feature) bularak, sinir ağının içini anlaşılabilir birimlere ayırma yöntemini ele alıyor
Tek bir nöron; akademik atıflar, İngilizce diyaloglar, HTTP istekleri ve Korece metin gibi ilgisiz bağlamlarda birlikte etkinleşebildiği için model davranışıyla kararlı biçimde eşleştirilmesi zor
Araştırma, 512 nörondan oluşan bir katmanı 4.000’den fazla özelliğe ayırarak DNA dizileri, hukuki üslup, HTTP istekleri, İbranice metin ve besin değerleri tablosu gibi nitelikleri ayrı ayrı ortaya çıkarıyor
Kör insan değerlendirmesi ve LLM tabanlı otomatik yorumlanabilirlik değerlendirmesinde, özellikler nöronlardan daha kolay yorumlanabildi; belirli bir özellik yapay olarak etkinleştirildiğinde model davranışı da öngörülebilir şekilde değişti
Öğrenilen özellikler farklı modeller arasında da büyük ölçüde evrenselse, bu yaklaşımı daha büyük frontier modellere genişletme görevi bilimden çok mühendisliğe yaklaşır

Sinir ağlarını yorumlamak neden zor

Sinir ağları, insanların kuralları doğrudan programlaması yerine veriden öğrenir ve eğitim sürecinde milyonlarca ila milyarlarca parametre güncellenir
Eğitilmiş ağın matematiksel hesaplamaları izlenebilir
- Her nöron basit aritmetik işlemler yapar
- Ancak bu işlemlerin neden gözlenen davranışlara yol açtığı açık değildir
Bu opaklık, hata modlarını teşhis etmeyi, nasıl düzeltileceğini anlamayı ve model güvenliğini belgelendirmeyi zorlaştırır

Tekil nöronlar kararlı bir yorum birimi değil

Nörobilim de insan davranışının biyolojik temelini anlama konusunda benzer bir sorunla uğraşır, ancak yapay sinir ağlarında deney yapmak çok daha kolaydır
- Tüm nöronların aktivasyonları aynı anda kaydedilebilir
- Nöronları susturmak ya da uyarmak gibi müdahaleler yapılabilir
- Olası girdilere karşı ağın tepkisi test edilebilir
Ancak tekil nöronlar, ağ davranışıyla tutarlı bir ilişkiye sahip değildir
- Küçük bir dil modelindeki tek bir nöron, akademik atıflar, İngilizce diyaloglar, HTTP istekleri ve Korece metin gibi birbiriyle ilgisiz birçok bağlamda etkinleşir
- Klasik bir görme modelindeki tek bir nöron, hem kedi yüzlerine hem de otomobillerin ön kısmına tepki verir
Aynı nöron aktivasyonu bile bağlama göre farklı anlamlar taşıyabilir

Modeli özelliklere ayıran yaklaşım

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning başlıklı makale, tek tek nöronlardan daha iyi bir analiz birimi olduğunu ele alıyor
Bu birim olan özellik (feature), nöron aktivasyon örüntülerine, yani doğrusal birleşimlere karşılık gelir
Anthropic, küçük bir Transformer modelinde bu tür özellikleri bulmak için bir düzenek kurdu
Bu yaklaşım, karmaşık sinir ağlarını anlaşılabilir parçalara ayırmanın bir yolu ve nörobilim, makine öğrenimi ve istatistikte yüksek boyutlu sistemleri yorumlamaya yönelik önceki çalışmaların üzerine kuruluyor

512 nöronu 4.000’den fazla özelliğe ayırmak

Bir Transformer dil modelinde, 512 nöron içeren bir katman 4.000’den fazla özelliğe ayrıldı
Ayrıştırılan özellikler, farklı nitelikleri ayrı ayrı temsil ediyor
- DNA dizileri
- Hukuki dil
- HTTP istekleri
- İbranice metin
- Besin değerleri tablosu
Modelin bu özelliklerinin çoğu, tek tek nöron aktivasyonlarına bakıldığında ortaya çıkmıyor

Yorumlanabilirliğin doğrulanması

Kör insan değerlendiriciler, özelliklerin ve nöronların yorumlanabilirliğini puanladı
- Özellikler, nöronlardan çok daha yüksek puan aldı
LLM kullanılarak otomatik yorumlanabilirlik değerlendirmesi de yapıldı
- Büyük bir dil modeli, küçük modelin özellikleri için kısa açıklamalar üretti
- Başka bir model, yalnızca bu açıklamaya bakarak özellik aktivasyonunu ne kadar iyi tahmin edebildiğine göre puanlandı
- Bu değerlendirmede de özellikler nöronlardan daha yüksek puan aldı
Sonuç olarak, özellik aktivasyonları ile model davranışının aşağı akış etkilerinin tutarlı biçimde yorumlanabildiğine dair kanıt arttı

Özelliklerle model yönlendirme

Özellikler, modeli hedefli biçimde yönlendirmek için de bir araç sunuyor
Belirli bir özellik yapay olarak etkinleştirildiğinde model davranışı öngörülebilir şekilde değişiyor
Bu nedenle özellikler yalnızca bir gözlem birimi değil, model davranışını etkileyen iç bileşenler olarak da ele alınabilir

Evrensellik ve çözünürlük ayarı

Öğrenilen özellikler farklı modeller arasında büyük ölçüde evrenseldir
- Bir modeldeki özellikleri inceleyerek elde edilen bulgular başka modellere de genellenebilir
Öğrenilecek özellik sayısı ayarlanarak modele bakışın çözünürlüğü değiştirilebilir
- Küçük bir özellik kümesiyle ayrıştırıldığında anlaşılması kolay, kaba bir görünüm elde edilir
- Büyük bir özellik kümesiyle ayrıştırıldığında daha ince bir bakışla modelin daha nüanslı nitelikleri ortaya çıkar
İlgili açıklamalar, çözünürlük değişimi deneyine bağlanıyor

Yapay zeka güvenliği ve sonraki görev

Bu çalışma, Anthropic’in mekanistik yorumlanabilirlik araştırmalarına yaptığı yatırımın bir sonucu ve yapay zeka güvenliği için uzun vadeli araştırma yönlerinden biri
Tekil nöronların yorumlanamaz oluşu, dil modellerini mekanik olarak anlamanın önündeki büyük engellerden biriydi
Nöron gruplarını yorumlanabilir özelliklere ayırmak, bu engeli aşma olasılığı sunuyor
Uzun vadede bu, model davranışını içeriden izleyip yönlendirerek şirketlerin ve toplumun benimsemesi için gereken güvenlik ve güvenilirliği artırmaya bağlanabilir
Bir sonraki görev, küçük modellerde başarılı olan bu yöntemi çok daha büyük ve karmaşık frontier modellere genişletmek
- Büyük dil modellerini yorumlamadaki bir sonraki büyük engelin, ilk kez bilimden çok mühendisliğe yakın olduğu düşünülüyor
Ayrıntılar Towards Monosemanticity: Decomposing Language Models With Dictionary Learning içinde bulunabilir

1 yorum

GN⁺ 2023-10-09

Hacker News yorumları

Yakın zamanda yayımlanmış başka bir makaleyle karşılaştıran faydalı bir yazıya denk geldim; temel bulguların bir kısmını fiilen destekliyor gibi görünüyor. Muhtemelen o diğer makalenin yazarı tarafından yazılmış bir karşılaştırma: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Tesadüfen bunu bir yan proje olarak neredeyse aynen yapıyordum. Sırf meraktan başladım; tam olarak aynı olmasa da belirli bir LLM’in dikkatle kalibre edilmiş çeşitli çıktılarından, bunların arkasında bulunması muhtemel parametre kümesini çıkaran bir algoritmayı iyileştiriyorum.
Gözlenenlere benzer parametre kümeleri çıkacağını bekliyordum. Gayriresmî olarak bu probleme “LLM tersine hesaplama” diyorum; elbette çözmesi kolay değil. Yine de tamamen imkânsız değil ve şimdiye kadar epey iyi yaklaşımlar buldum.
Bağlantı verilen taslağın sonundaki “bazı özellikler aslında yüksek boyutlu özellik manifoldlarıdır ve dictionary learning bunları yaklaşık olarak temsil ediyor olabilir” hipotezi de ilginç. Sürekli ve pürüzsüz bir uzay gibi davranan bir şey olduğu için ihtiyaç duyduğunuz kadar manifold tanımlayabileceğiniz anlamında doğru. Katı formalizmi bir kenara bırakırsak, gerçekten de olanın bu olduğunu ve bu probleme yaklaşmak için doğru çerçevenin bu olduğunu düşünüyorum.
Buradan çıkarılabilecek şaşırtıcı farkındalık, bu LLM uzayı içindeki farklı manifoldları bağlayan geçiş fonksiyonlarının kavramsal karşılığının ne olduğudur. Bunu gördüğünüzde karmaşıklığından değil, tam tersine olağanüstü basitliğinden başınız patlayacak gibi olabilir.
- Burada “geçiş fonksiyonu” derken tam olarak neyi kastettiğini biraz daha açabilir misin?
- Buna başlarken nasıl bir yaklaşımla girdin, merak ediyorum. LLM’lerin nasıl çalıştığını da daha fazla öğrenmek istiyorum.
- Hiyerarşik anlamda mı söylüyorsun? Yoksa ben konuyu tamamen mi kaçırıyorum?
Bu, hizalama araştırması açısından büyük bir ilerleme gibi görünüyor. Şimdiye kadarki büyük sorun, LLM’lerin yorumlanması zor sayı yığınları olması ve içeride neler olup bittiğini neredeyse hiç bilmememizdi.
Bu teknik daha büyük ölçeğe taşınabilirse Anthropic bu sorunu önemli ölçüde düzeltmiş olur. Farklı nöron gruplarının gerçekten ne yaptığını anlayıp bunu LLM’in davranışını kontrol etmek için kullanabiliriz. Bu, istemeden hizalaması bozulan yapay zekayı engellemeye yardımcı olabilir.
- Bana daha çok budama için iyi bir ipucu gibi geliyor.
- “Öğrenilmiş özellikler farklı modeller arasında da genel olarak evrenseldir; bu yüzden bir modelin özelliklerini inceleyerek çıkarılan dersler başka modellere de genellenebilir” kısmının daha ayrıntılı açıklanmasını isterdim.
  Aynı eğitim verileriyle eğitildiklerinde aynı özellik tanıyıcılarını buldukları mı kastediliyor? Yoksa başka bir şey mi? Bir şey söylüyor ama tam olarak ne söylediği belirsiz.
Bir sinir ağının içine elle programlanmış bileşenler koyarsak ne olur merak ediyorum. DNA dizisi algılama gibi basit bileşenler, ağırlıkları doğrudan ayarlayarak yerleştirilebilecek gibi.
Aynı şekilde sinir ağına matematik bileşenleri de verilebilir. Eğitim sürecinde ağ bu önceden tanımlı bileşenleri keşfedip kullanır mı, yoksa onları yok sayıp DNA dizisini algılamak için kendi yöntemini mi geliştirir?
- Daha fazla araştırmak istersen bu fikrin tarihçesi ve kullanımı özellik mühendisliği olarak adlandırılır.
  Tokenizasyon da bunun bir biçimidir. Çünkü önemli olduğunu bildiğimiz örüntüleri modelin kendisinin öğrenmek zorunda kalmaması için veriyi önceden dönüştürür.
- Transformer’ı elle programlamak mümkün: https://srush.github.io/raspy/
  Ancak bunu modelin içine entegre etmek mümkün mü bilmiyorum. Bunlar çok anlamlı olmadıkları için öğrenilmiş nöronlardan çok daha fazla “alan” kaplar; sonunda alan yetersiz kalabilir diye düşünüyorum.
- Bunu, bir katmanın girdisinin bir parçası olarak spekülatif girdi dönüşümü eklemek ve ağın bu dönüşümü kullanıp kullanmamaya karar vermesini sağlamak şeklinde de görebiliriz. CNN’lerdeki evrişim katmanına benzer, ama çok daha belirli bir alana uyarlanmış bir biçim.
  Yine de bu tür garip katmanlar üzerine ne kadar araştırma yapıldığını pek bilmiyorum.
- Doğruluğun çok önemli olduğu bazı kullanım senaryolarında hesaplama için elle yazılmış kod tercih edilebilir. Böylece belirli bir işi LLM’e bırakmak yerine insan yapımı bir yöntemin verimliliğinden emin olunabilir.
  Ancak bunun ağa doğrudan mı entegre edileceği, yoksa LLM’in kullanabileceği bir araç mı olacağı hâlâ belirsiz. İlginç biçimde bu, insan beynini Neuralink gibi bir şeyle güçlendirmek ile eline sadece hesap makinesi vermek arasındaki seçime de benziyor.
Umarım bu tür araştırmalar, çok daha küçük ve verimli ama aynı zamanda ince ayarlanabilir ve yönlendirilebilir modeller üretmenin yolunu açar.
Her parçanın ne yaptığını görebiliyorsak, teoride yalnızca istediğimiz özellik kümesini oluşturmanın bir yolunu bulabiliriz. Ya da yinelenen kapasiteye sahip özellikleri ayarlayabiliriz.
Özellikleri araştırmak, bilgiyi çok zengin ve ince tanımlı bir bilgi grafiğine yakın bir biçime damıtabileceğimiz bir noktaya kadar da gidebilir.
- Anthropic muhtemelen çok boyutlu bir ip üzerinde yürüyor. Yapay zeka güvenliği istiyorlar ve muhtemelen herkesin güçlü modellere sahip olmasından da kaçınmak istiyorlar.
  Ama araştırma sonuçları Meta ya da çeşitli Discord grupları tarafından özümsenirse, bugünün tüylü püsküllü LLM’leri güçlü rakiplere dönüşür ve herkes bu güce erişir. Hangisinin daha iyi olduğuna dair güçlü bir kanaatim yok ama biraz açık modellere meylediyorum.
  Sonuçta bizim gibi sıradan insanların bilgisayar, modern CPU ve internet gibi şeyleri kullanmasına zaten izin veriliyor. Dolandırıcılık gibi kötü şeyler, hatta daha kötüleri de oluyor; ama bunun, insanların yapabileceklerini kısıtlamaktan daha iyi olduğunu düşünüyorum.
Tek bir dev model, beynin çalışma biçimi değildir. Bir organizasyon şemasının çalışma biçimi de değildir.
LLM’lerin mevcut hesaplama yoğunluğunda bu düzeyde yetenek göstermesi, üretken bir bilgi çalışanı yaratma görevinin zaten fazla potansiyel bölgesine girdiğine dair güçlü bir işaret gibi görünüyor.
Eksik parça LLM’lerin ilerlemesi değil, LLM yönetimi. Kilit nokta, içeride birbirine rakip LLM’lerden oluşan bir organizasyon şemasının bana rapor vermesini sağlamak ve bunun içinde güven inşa etmek.
- Böyle bir sistemin çalışma biçimi inanılmaz derecede verimsiz geliyor.
  Bir yemek kitabı okuduğumuz her seferinde astrofizik modelini yeniden değerlendirmiyoruz.
İnsan beynindeki her nöronun ne kadar çok anlamlı olduğunu merak ediyorum. Asıl istediğimiz şey ve insan beyninde de bulunuyor olabilecek şey, yüksek bilgi içeriğine sahip tek anlamlı bir sinir ağı; yani özellik tabanlı, kavram tabanlı, makro örüntü tabanlı bir ağ gibi geliyor.
Çok anlamlı nöronlar olsa bile, bunlar ait oldukları özellik içinde benzer ya da aynı bilgileri paylaşarak alan ve hesaplama verimliliği sağlıyor olabilir. Buna karşılık bu Transformer modellerinde, aynı ağın üzerine bir milyon insan beynini üst üste koyup eğitim kümesindeki tüm özellikleri bir şekilde ortalayıp benzersiz nöronlara dönüştürüyorlarmış gibi görünüyor. Bu da doğal olarak çok daha büyük bir “beyin” ortaya çıkarıyor.
Makalede ağ içindeki tek anlamlı nöronların iyi çalışmadığı söyleniyor; ama sezgime göre bunun nedeni onların fazla “yüksek hassasiyetli” olması ve özellik düzeyinde yeterli bilgi kodlamaması olabilir. Özellikler düşük boyutlu olabilir, tek anlamlı yüksek boyutlu nöronlar ise çok az bilgi kodluyor olabilir. Yine de insan beyni hakkındaki bilgim sınırlıyken düşündüğüm şeyler bunlar; bilmediğim çok daha fazla benzerlik olabilir.
Bence bu gerçekten harika. Tüm LLM’ler bu ortak özellikler etrafında yakınsıyor gibi görünüyor.
Uzman olmayan biri olarak anladığım kadarıyla, eğitilmiş bir model bir sembolden bir sonraki sembole geçişleri düğümler arasındaki olasılıklar olarak tanımlar. Bu grafikte bir yapı vardır. Yapı olmasaydı zaten eğitim baştan mümkün olmazdı.
Ancak bu yapı, sanki tek bir kâğıdın üzerinde her düğümün tanımının farklı renk mürekkeplerle üst üste boyanmış hâli gibi. Bu çalışma ve LessWrong yazısında geçen ana ve kardeş makaleler, o kayan noktalı sayı çorbası içinden farklı renklerdeki grafik bileşenlerini ayıklama işi gibi görünüyor.

Dil modellerini anlaşılabilir bileşenlere ayırmak

Sinir ağlarını yorumlamak neden zor

Tekil nöronlar kararlı bir yorum birimi değil

Modeli özelliklere ayıran yaklaşım

512 nöronu 4.000’den fazla özelliğe ayırmak

Yorumlanabilirliğin doğrulanması

Özelliklerle model yönlendirme

Evrensellik ve çözünürlük ayarı

Yapay zeka güvenliği ve sonraki görev

İlgili okumalar

1 yorum

Hacker News yorumları