Giriş
- Bu yazı, küçük ölçekli dil modellerinin bir sonraki token’ı nasıl tahmin ettiğine dair bir incelemeyi ele alıyor.
- Transformer modellerindeki öz dikkat (
self-attention) mekanizmasına odaklanmak yerine, dikkat hesaplamalarının sonuçlarının nasıl doğru bir sonraki token tahminine dönüştüğüne dair bir açıklama sunuyor.
- Yazar, çalışan küçük ölçekli bir transformer üzerinden iç durumları inceliyor ve 6 aya yayılan derinlemesine araştırmasının değerli sonuçlarını paylaşıyor.
Transformer blok yapısı
- Transformer blokları, çok başlı öz dikkat katmanı ve feedforward ağdan oluşuyor.
- Feedforward ağın çıktısı, bloğun girdiyi çıktıya nasıl dönüştürdüğünü belirleyen temel unsur.
Öneri: Transformer’ın çalışma biçimi
- Her transformer bloğu, verilen prompt’u eğitim verisindeki string sınıflarıyla ilişkilendiren ağırlıkları öğreniyor.
- Bu string sınıflarının ardından gelen token dağılımı, bloğun bir sonraki token için tahmin olarak ürettiği şeyle yaklaşık olarak örtüşüyor.
Uygulama: Feedforward ağ çıktısını kullanarak transformer çıktısını yaklaşık hesaplama
- Yazar, transformer çıktısını yaklaşık hesaplamak için feedforward ağ çıktısını kullanan somut bir prosedür sunuyor.
- Bu prosedür, prompt’u modelden geçirip her blok için feedforward ağ çıktılarını kaydetmekle başlıyor.
- Eğitim verisi içinde benzer feedforward ağ çıktıları üreten string’ler bulunuyor ve bu string’lerin ardından gelen token’ların frekans dağılımı oluşturuluyor.
- Bu dağılımlar ağırlıklandırılarak toplanıyor ve normalize edilerek nihai olasılık dağılımı elde ediliyor.
GN⁺ görüşü
- Bu çalışma, transformer modellerinin iç çalışma prensibine dair derin bir anlayış sunuyor. Özellikle öz dikkatten sonraki sürece ilişkin içgörüler, transformer modellerinin tahmin mekanizmasını anlamak açısından önemli.
- Yazarın yaklaşımı, transformer’ların eğitim verisindeki kalıpları nasıl tanıyıp buna dayanarak bir sonraki token’ı tahmin ettiğine dair net bir açıklama sağlıyor.
- Bu yazı, transformer modeli araştıran veya geliştiren kişiler için yararlı bir kaynak olabilir ve yapay zeka dil işleme alanındaki anlayışın derinleşmesine katkı sağlayacaktır.
1 yorum
Hacker News yorumu
Yeni bir olgu karşısında şaşırmamak gerekir. Yerleşik teorileri okumazsanız, doğal olarak ortaya çıkan olgular karşısında kafanız karışabilir.
Google'ın, ChatGPT'ye aynı kelimeyi tekrar ettirdiğinizde eğitim verisini olduğu gibi kusabildiğini işaret etmesinin ardından, bunu gerçekten uygulayan birinin çıkmasına olumlu tepki veriliyor.
Attention ile FF (Feed Forward) ağlarının aynı yönü işaret etmesi şaşkınlık yaratıyor.
Andrej Karpathy'nin NanoGPT eğitimini izleyerek küçük bir model eğitildiğinde, modelin karmaşık Rusça dilbilgisini bir ölçüde anlıyor gibi göründüğü belirtiliyor.
LLM'nin bir Markov zinciri metin üreticisi olup olmadığı soruluyor.
İncelenen modelin aslında basit bir oyuncak model olduğu ve daha da basit modellerle yaklaşık olarak ifade edilebileceği söyleniyor.
Yazarın neyi savunduğunu tam olarak anlamanın zor olduğu belirtiliyor.
LLM sisteminin 3D görselleştirmesinin faydalı olduğu ve en yüksek verim için onunla birlikte okunması gerektiği belirtiliyor.
Bunun, transformer'ın gerçekte ne yaptığını anlatan tuhaf bir gönderi olduğu söyleniyor.