2 puan yazan GN⁺ 2024-02-05 | 1 yorum | WhatsApp'ta paylaş

Giriş

  • Bu yazı, küçük ölçekli dil modellerinin bir sonraki token’ı nasıl tahmin ettiğine dair bir incelemeyi ele alıyor.
  • Transformer modellerindeki öz dikkat (self-attention) mekanizmasına odaklanmak yerine, dikkat hesaplamalarının sonuçlarının nasıl doğru bir sonraki token tahminine dönüştüğüne dair bir açıklama sunuyor.
  • Yazar, çalışan küçük ölçekli bir transformer üzerinden iç durumları inceliyor ve 6 aya yayılan derinlemesine araştırmasının değerli sonuçlarını paylaşıyor.

Transformer blok yapısı

  • Transformer blokları, çok başlı öz dikkat katmanı ve feedforward ağdan oluşuyor.
  • Feedforward ağın çıktısı, bloğun girdiyi çıktıya nasıl dönüştürdüğünü belirleyen temel unsur.

Öneri: Transformer’ın çalışma biçimi

  • Her transformer bloğu, verilen prompt’u eğitim verisindeki string sınıflarıyla ilişkilendiren ağırlıkları öğreniyor.
  • Bu string sınıflarının ardından gelen token dağılımı, bloğun bir sonraki token için tahmin olarak ürettiği şeyle yaklaşık olarak örtüşüyor.

Uygulama: Feedforward ağ çıktısını kullanarak transformer çıktısını yaklaşık hesaplama

  • Yazar, transformer çıktısını yaklaşık hesaplamak için feedforward ağ çıktısını kullanan somut bir prosedür sunuyor.
  • Bu prosedür, prompt’u modelden geçirip her blok için feedforward ağ çıktılarını kaydetmekle başlıyor.
  • Eğitim verisi içinde benzer feedforward ağ çıktıları üreten string’ler bulunuyor ve bu string’lerin ardından gelen token’ların frekans dağılımı oluşturuluyor.
  • Bu dağılımlar ağırlıklandırılarak toplanıyor ve normalize edilerek nihai olasılık dağılımı elde ediliyor.

GN⁺ görüşü

  • Bu çalışma, transformer modellerinin iç çalışma prensibine dair derin bir anlayış sunuyor. Özellikle öz dikkatten sonraki sürece ilişkin içgörüler, transformer modellerinin tahmin mekanizmasını anlamak açısından önemli.
  • Yazarın yaklaşımı, transformer’ların eğitim verisindeki kalıpları nasıl tanıyıp buna dayanarak bir sonraki token’ı tahmin ettiğine dair net bir açıklama sağlıyor.
  • Bu yazı, transformer modeli araştıran veya geliştiren kişiler için yararlı bir kaynak olabilir ve yapay zeka dil işleme alanındaki anlayışın derinleşmesine katkı sağlayacaktır.

1 yorum

 
GN⁺ 2024-02-05
Hacker News yorumu
  • Yeni bir olgu karşısında şaşırmamak gerekir. Yerleşik teorileri okumazsanız, doğal olarak ortaya çıkan olgular karşısında kafanız karışabilir.

    • Deney oldukça titiz görünüyor ve ayrıntılara gösterilen özen etkileyici.
    • Mevcut teorileri öğrenmek ile teoriyi sıfırdan yeniden keşfetmek arasındaki denge önemlidir.
    • Modelin eğitim verisine dayanarak log olasılığını maksimize etmesi beklenen bir sonuçtur.
    • Temelleri anlamak önemlidir; Shannon'un entropi teorisi gibi konular iyi bir başlangıç olabilir.
  • Google'ın, ChatGPT'ye aynı kelimeyi tekrar ettirdiğinizde eğitim verisini olduğu gibi kusabildiğini işaret etmesinin ardından, bunu gerçekten uygulayan birinin çıkmasına olumlu tepki veriliyor.

    • Bu da ek soruları gündeme getiriyor:
      1. "Yapay zekasız yapay zeka" yaklaşımı, mevcut model sıkıştırma yöntemlerinden daha enerji verimli mi?
      2. Bu sonuç, OpenAI ve Stability AI'ye karşı açılan davalarda kanıt olarak kullanılabilir mi?
  • Attention ile FF (Feed Forward) ağlarının aynı yönü işaret etmesi şaşkınlık yaratıyor.

    • FF ağları rastgele bir rotasyon yapabilecek durumda olsa da, birden çok katmanda aynı gizil uzayda olacakları beklenmiyordu.
  • Andrej Karpathy'nin NanoGPT eğitimini izleyerek küçük bir model eğitildiğinde, modelin karmaşık Rusça dilbilgisini bir ölçüde anlıyor gibi göründüğü belirtiliyor.

    • Model kusursuz değil ama yalnızca üç dakikalık eğitimle karmaşık kuralları çıkarabildi.
  • LLM'nin bir Markov zinciri metin üreticisi olup olmadığı soruluyor.

    • Eğer öyleyse, özgün eğitim verisi kullanılarak benzer performansta bir Markov zinciri kurulup kurulamayacağı merak ediliyor.
  • İncelenen modelin aslında basit bir oyuncak model olduğu ve daha da basit modellerle yaklaşık olarak ifade edilebileceği söyleniyor.

    • Ancak bu model, daha büyük LLM'lerin nasıl çalıştığını temsil etmiyor olabilir.
  • Yazarın neyi savunduğunu tam olarak anlamanın zor olduğu belirtiliyor.

    • "Yaklaşımın neden işe yaradığı" bölümünün birkaç kez okunmasına rağmen, bunun yalnızca transformer'ın adım adım açıklaması gibi hissettirdiği söyleniyor.
  • LLM sisteminin 3D görselleştirmesinin faydalı olduğu ve en yüksek verim için onunla birlikte okunması gerektiği belirtiliyor.

  • Bunun, transformer'ın gerçekte ne yaptığını anlatan tuhaf bir gönderi olduğu söyleniyor.

    • Kodu takip ederseniz transformer'ın ne yaptığını tam olarak görebilirsiniz.