- Platonic Representation Hypothesis(İdealar Temsil Hipotezi), AI modelleri giderek büyüyüp daha akıllı hale geldikçe içsel olarak benzer temsil uzaylarına yakınsadığını öne sürer
- Dil modellerinin sıkıştırma (compression) kavramı üzerinden, zekayı veri sıkıştırma gücü olarak yorumlar ve model genelleştirme yaptığında yöntemlerin neden birbirine benzediğini açıklar
- Embedding inversion problemini inceler ve PRH'ye göre farklı modeller arasındaki embedding uzaylarının CycleGAN gibi yöntemlerle hizalanabileceğini savunur
- Sparse Autoencoder deneyleri gibi çalışmalarda, birbirinden çok farklı ağların aynı ya da benzer kavramları ve devreleri keşfettiği gösterilir
- Bu içgörüler sayesinde eski ve henüz çözülememiş yazıların ya da hayvan dillerinin çözülmesi gibi pratik uygulama olasılıkları artar
Giriş: Mussolini veya Bread oyunu ve anlamın paylaşılması
- Yazar, "Mussolini ya da Bread" adlı oyunu örnek vererek, soruları tekrar tekrar daraltıp karşı tarafın düşündüğü nesneyi tahmin etme yöntemini tanıtır
- Bu oyunun mümkün olmasının nedeni, insanlar arasında ortak bir anlam uzayının (semantics) bulunmasıdır
- Farklı insanların, kurallar olmadan da anlamsal "yakınlığı" genel olarak sezgisel biçimde anlayabildiğini vurgular
Evrensel anlambilim: dünyanın ve modellerin sıkıştırılması
- Bu oyunda olduğu gibi, insan beyni de gerçek dünyanın karmaşık bir modelini benzer biçimde kurar
- Algoritmik bakış açısından AI, dünya verisini olabildiğince sıkıştırarak öğrenir
- Doğal dil üretimi, aslında olasılık dağılımına dayalı bir sıkıştırma işi olarak görülebilir (Shannon'un bilgi kuramı)
- Model veriyi ne kadar iyi sıkıştırırsa, gerçek dünyayı o kadar derin anladığını düşündürür
- Nitekim daha büyük dil modelleri, daha iyi veri sıkıştırma yeteneği ve daha yüksek zeka gösterir
- Veri kümesi o kadar büyür ki tek tek veri noktalarını ezberlemek imkansız hale geldiğinde, model veriyi birleştirerek genelleştirme yapmaya başlar
Platonic Representation Hypothesis(İdealar Temsil Hipotezi)
- MIT araştırmacıları "Platonic Representation Hypothesis" kavramını 2024'te resmileştirdi
- Bu hipoteze göre, AI modellerinin ölçeği büyüdükçe paylaşılan özellikler (feature) artar ve temsil uzayları benzer şekilde hizalanır
- Bu durum, dil ve görsel alanlar dahil çeşitli alanlarda deneysel olarak gözlemlenmektedir
- Modeller her yıl daha büyük ve verimli hale geldikçe, modeller arası temsil uzayı benzerliğinin artmaya devam edeceği öngörülür
Embedding inversion problemi
- Yazar, embedding vektörlerinden gerçek giriş metnini geriye doğru tahmin etmeye çalışan embedding inversion problemi üzerine araştırma deneyimini anlatır
- Daha önce ImageNet gibi alanlarda, yalnızca olasılık değerlerinden orijinal görüntüye yakın bilginin yeniden elde edildiği örnekler vardı
- Doğal dil embedding'leri yüksek miktarda bilgi taşıyor gibi görünse de, benzer metinler benzer embedding'lere sahip olduğu için net bir ters çıkarım yapmak çok zordur
- Buna karşılık, yinelemeli embedding araması ve optimizasyonla giderek daha doğru metne yaklaşan iterative refinement tekniğinin etkili olduğu doğrulanmıştır
- Bu yöntemle, uzun cümle düzeyinde %94'ün üzerinde doğrulukla ters dönüşüm olasılığı gösterilmiştir
İdealar hipoteziyle embedding inversion'ın genelleştirilmesi
- Ancak mevcut yöntemler yalnızca belirli embedding modellerine uygulanabiliyor; yeni ya da özel modellerde sınırları vardı
- PRH doğruysa, farklı modeller arasında da evrensel bir embedding inversion aracı üretmek mümkün olabilir
- Eşleşmeleri bilinmeyen iki farklı embedding kümesi (A, B) verildiğinde, CycleGAN yaklaşımıyla uzay hizalamanın mümkün olduğu yıllar boyunca araştırıldı
- Sonuç olarak, ayrı bir fine-tuning olmadan bile iki embedding uzayı arasında unsupervised matching yöntemiyle dönüşüm yapılabildiği gösterildi (
vec2vec)
- Böylece, tek tek embedding'lere ait ek bilgi olmadan da rastgele bir veritabanındaki embedding'leri çevirmek veya geriye doğru tahmin etmek mümkün oldu
Makine tarafından yorumlanabilirlik: Universal Circuits
- Mechanistic Interpretability alanındaki devre analizi araştırmalarında da, model mimarileri farklı olsa bile ortak iç işlevler bulunduğu görülüyor
- Sparse Autoencoder(SAE) uygulama sonuçları, farklı modellere bağımsız olarak eğitilse bile yorumlanabilir feature'larda önemli ölçüde örtüşme olduğunu gösteriyor
- İki SAE'nin feature'ları karşılaştırılarak modeller arası kavram hizalaması yapılabiliyor
- PRH daha da isabetliyse, daha güçlü modellerde bu olgunun daha belirgin hale gelmesi beklenir
Pratik sonuçlar ve gelecek öngörüleri
- İdealar Temsil Hipotezi, derin felsefi anlamlarının ötesinde; model yorumlama, ters dönüşüm, sinyal çözümleme, dil restorasyonu gibi pratik olanaklar da sunar
- Gelecekte yorumlama teknikleri geliştikçe, daha büyük modellerde temsil uzayı hizalaması ve iç ortaklıkların bulunmasının daha yaygın hale geleceği tahmin edilir
- Çözülmesi imkansız görülen eski yazıların (Linear A) çözülmesi ya da hayvan dili (balina sesleri vb.) yorumlanması da ileride mümkün olabilir
vec2vec gibi mevcut yöntemlerin halen zayıf yönleri olsa da, internet tabanlı ve görüntü-metin embedding'lerinde kayda değer başarı gösterdiği belirtilir
- Diller arası uzay dönüşümü ve balina dili→insan dili çevirisi de gelecekte şifre çözme benzeri bir imkanın doğabileceğini düşündürür
1 yorum
Hacker News görüşü