LLM'lerin depolanmış bilgiyi geri getirmek için kullandığı şaşırtıcı derecede basit mekanizma

(news.mit.edu)

2 puan yazan GN⁺ 2024-03-29 | 1 yorum | WhatsApp'ta paylaş

MIT ve diğer kurumlardan araştırmacılar, ChatGPT gibi yapay zeka sohbet botlarının temelini oluşturan büyük dil modellerinin (LLM) depolanmış bazı olguları çıkarırken çoğu zaman basit bir doğrusal fonksiyon kullandığını doğruladı
Bu fonksiyon, “bir kişinin çaldığı enstrüman” ya da “bir kişinin doğduğu eyalet” gibi olgunun türüne göre değişiyor; benzer türdeki olgulara aynı kod çözme fonksiyonu uygulanıyor
47 ilişki için fonksiyonlar tahmin edilip özne değiştirilerek test edildiğinde, “bir ülkenin başkenti” gibi ilişkilerde %60’tan fazla doğru nesne bilgisi geri getirildi
Model yanlış yanıt verse bile iç yapısında doğru yanıtın çoğu zaman kaldığı görüldü; bu da belirli bir bilginin Transformer’ın hangi katmanında saklandığını gösteren attribute lens yaklaşımına uzanıyor
Tüm bilgiler doğrusal olarak saklanmadığından, doğrusal fonksiyonla bulunamayan olgular ve daha büyük modellerde hassasiyet doğrulaması sonraki araştırma konuları olarak duruyor

LLM içinde keşfedilen basit bilgi geri getirme yöntemi

MIT ve çeşitli kurumlardan araştırmacılar, karmaşık Transformer dil modellerinin depolanmış olguları geri getirirken çoğu durumda basit bir doğrusal fonksiyon kullandığı sonucuna ulaştı
Doğrusal fonksiyon, iki değişken arasındaki düz çizgisel ilişkiyi ifade eden basit bir biçimdir
- Karmaşık doğrusal olmayan hesaplamalar yapan LLM’lerin içinde bile bazı bilgi geri getirme süreçleri bu tür basit bir mekanizmayla çalışıyor
İlgili makale “Linearity of Relation Decoding in Transformer Language Models” olup, araştırma International Conference on Learning Representations’ta sunulacak

Olgular, özne ve nesne arasındaki ilişki olarak ele alınıyor

Transformer’da saklanan bilgilerin çoğu, özne ile nesneyi bağlayan ilişkiler şeklinde ifade edilebilir
- “Miles Davis plays the trumpet”, özne Miles Davis ile nesne trumpet’ı bağlayan bir ilişkidir
- “Miles Davis plays the...” isteminde, Miles Davis’in doğduğu eyalet olan Illinois değil, trumpet yanıtlanmalıdır
Model bir konu hakkında daha fazla bilgi edindikçe, o konuya dair çeşitli olgular birden çok katmana yayılmış şekilde saklanır
Bir sorgu geldiğinde model, yanıt üretmek için en ilgili olguyu kod çözerek çıkarmalıdır

İlişki türüne göre değişen doğrusal kod çözme fonksiyonları

Araştırmacılar, LLM’leri inceleyen deneylerle modelin ilişki bilgisini bazı durumlarda basit bir doğrusal fonksiyonla kod çözerek çıkardığını doğruladı
Geri getirilecek olgunun türüne göre fonksiyon da değişiyor
- Bir kişinin çaldığı enstrümanı üretmek için kullanılan fonksiyon ile bir kişinin doğduğu eyaleti üretmek için kullanılan fonksiyon farklıdır
Araştırmacılar bu fonksiyonları tahmin etmek için bir yöntem geliştirdi ve “bir ülkenin başkenti”, “bir grubun solisti” gibi 47 ilişki için fonksiyonları hesapladı
Olası ilişkiler sonsuz sayıda olduğundan, deneylerde bu yöntemle ele alınabilecek olgu türlerini temsil eden bir alt küme kullanıldı

%60’tan fazla geri getirme başarısı ve doğrusal saklamanın sınırları

Her fonksiyon, özne değiştirilerek doğru nesne bilgisini geri getirip getiremeyeceği açısından test edildi
- “Bir ülkenin başkenti” fonksiyonu, özne Norway olduğunda Oslo’yu, England olduğunda London’ı geri getirmelidir
Fonksiyon, vakaların %60’tan fazlasında doğru bilgiyi geri getirdi
Transformer içindeki bazı bilgiler bu şekilde kodlanıp geri getirilebilir
Ancak tüm bilgiler doğrusal olarak kodlanmış değildir
- Bazı olgularda model bilgiyi biliyor ve o olguyla tutarlı metin öngörüyor olsa bile, araştırmacılar doğrusal bir fonksiyon bulamadı
- Bu durumlarda model, ilgili bilgiyi saklamak için daha karmaşık bir yöntem kullanıyor

Modelin ne bildiğini gösteren attribute lens

Tahmin edilen fonksiyonlar, modelin belirli bir konu hakkında neyi doğru kabul ettiğini kontrol etmek için kullanılıyor
Bir deney, “Bill Bradley was a” istemiyle başlayıp “spor yaptı” ve “üniversiteye gitti” anlamına gelen kod çözme fonksiyonlarını uyguladı
- Bu, modelin Senatör Bill Bradley’nin basketbolcu olduğunu ve Princeton’a gittiğini bilip bilmediğini kontrol etme yöntemidir
Bu yöntem, model metin üretimi sırasında başka bilgilere odaklansa bile, içeride birden fazla ilgili bilginin kodlanmış olabileceğini gösteriyor
Buna dayanarak attribute lens adlı bir ızgara oluşturuldu
- attribute lens, belirli bir ilişkiye dair bilginin Transformer’ın çeşitli katmanlarından hangisinde saklandığını görselleştirir
- Otomatik üretilebildiği için model anlayışı için basitleştirilmiş bir yöntem olarak kullanılabilir

Yanlış yanıtları düzeltme olasılığı ve kalan araştırma konuları

Model bir isteme yanlış yanıt verse bile, çoğu zaman iç yapısında doğru bilgiyi saklıyor olabilir
Bu yaklaşım, model içindeki yanlış bilgileri bulup düzeltmek için kullanılabilir; yapay zeka sohbet botlarının hatalı veya anlamsız yanıtlar verme eğilimini azaltmaya da bağlanabilir
Gelecekteki araştırmalar, doğrusal olarak saklanmayan olgularda neler olduğunu daha iyi anlamaya odaklanacak
Daha büyük modeller üzerinde deneyler yapılması ve doğrusal kod çözme fonksiyonlarının hassasiyetinin de araştırılması planlanıyor
Tel Aviv University’den Mor Geva Pipek, bu araştırmanın LLM’lerin çıkarım sırasında olgusal bilgiyi nasıl hatırladığını anlamada eksik bir parçayı ortaya koyduğunu ve nitelik çıkarımı için karmaşık doğrusal olmayan hesaplamaların basit doğrusal fonksiyonlarla iyi biçimde yaklaşıklaştırılabildiğini gösterdiğini değerlendirdi

1 yorum

GN⁺ 2024-03-29

Hacker News yorumları

Harika bir çalışma, ama bence mevcut yapay zeka dalgasındaki büyük sorunu da ortaya koyuyor. Gerçekte basit bir toplama fonksiyonuna yakın olan perceptron’dan pek de farklı olmayan nöronlardan ya da kural kümelerinden uzaklaşmaya çalışmıyoruz.
Tek nöron aşamasındaki ileri yayılım topolojisi öğrenme ve GPU’da çalıştırma için en kolayı diye, bunun görevleri yerine getirmede gerçekten en iyi seçenek sayılıp sayılamayacağı şüpheli.
Büyük kütüphaneler desteklemediği için kullanılmayan pek çok sıra dışı öğrenme yöntemi ve kodlama biçimi var; sinir ağlarının temel kural kümesinde gerçek bir değişim yaşanana kadar da sonunda “ek aşamaları olan perceptron”larla boğuşmaya devam edecekmişiz gibi geliyor.
- Akla gelebilecek her yaklaşımla model kurmaya çalışan yığınla makaleyi yok saymış oluyorsun. Sonuçta bu seçilim yoluyla evrimdi ve en sonunda transformer kazandı.
- “Basit toplama fonksiyonu olan perceptron” demişsin; o zaman ne önerebileceğini merak ediyorum.
  NP-tamlığın bir yönünü, bu karmaşıklık sınıfındaki herhangi bir algoritmanın nihayetinde ‘toplama fonksiyonu’ gibi bir şeye indirgenebileceği anlamına geliyor diye anlıyorum.
- Yerel bir maksimuma takılı kaldığımızı söylemeni anlamıyorum. Çünkü son 2 yıl içinde kelimenin tam anlamıyla bir yapay zeka bilimsel atılımı yaşandı.
- Konuya yeterince hâkim değilim ama başka modeller aynı nöron sayısı ya da asimptotik çalışma süresi açısından daha iyi metrikler gösterebilse bile, en önemli ölçütün sonuçta harcanan paraya karşılık doğruluk ve kesinlik olduğunu düşünüyorum.
  GPT’nin aynı performansa ulaşmak için 10 kat daha fazla nörona ihtiyacı olsa bile, o nöronlar için gereken hesaplama ve belleği satın almak daha ucuzsa, amaca ulaşmak için GPT daha iyi bir araçtır.
- Bu acı ders. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  Daha basit ve öğrenilebilir bir yapı buluyorsanız bir şey yakalamış olabilirsiniz. Karmaşıklaştırma denemeleri zaten yapıldı ve yok oldu.
“Olgular doğrusal fonksiyonlar olarak saklanıyor” denmesi, LLM’in içinde bir şekilde kodlanmış N boyutlu bir olgu uzayı olduğu ve olguların noktalar, hiperküreler, Voronoi manifoldları gibi biçimlerde buraya gömülü olduğu anlamına mı geliyor, merak ediyorum.
Öyleyse bir olguyu hatırlamak, soyut olarak bakıldığında sinir ağının kullanılacak anahtarı hesaplaması ya da hatırlaması ve sonra o uzayda bir anahtar-değer sorgusu yapması mıdır?
Eğer öyleyse, kenar yayılım graf modeli içine anahtar-değer deposunun nasıl yerleştirildiğini ve insanların bugün bunu doğrudan yapmak için kullandığı bilinen teknikler olup olmadığını da merak ediyorum.
Ayrıca “hafıza sarayı” tekniği de insan beyninin daha kolay arama için olguları doğrusal fonksiyonlara koymasına bir örnek sayılabilir mi?
- Transformer’ın temel işlemi olan softmax(Q.K^T).V, özünde anahtar-değer deposu sorgusuna yakındır.
  Sorguyu anahtarlarla iç çarpıma sokup softmax ile çoğunlukla tek bir kazanan anahtarı, yani sorguya en yakın anahtarı seçer ve ona karşılık gelen değeri kullanır.
  Farkı, bunun biraz daha yumuşak olması; birden fazla anahtarla eşleşebilmesi ve uygun QKV eşlemelerini bulmak için gradyan inişi türü yöntemlerle optimize edilebilmesidir.
- Katman normalizasyonu, token’ları, yani girdi parçalarını temsil eden dev vektörleri birim küre üzerindeki konumlarla sınırlıyor gibi görünüyor; attention mekanizmasının da kısıtlanmamış vektörleri, diğer tüm vektörlerle yaptıkları açıların toplamına göre döndürerek çalıştığını düşünüyorum.
  Makaleye kabaca baktım, ama ana nokta daha büyük ağın içinde gizli olan ya da geri kazanılabilen nispeten basit fonksiyonların bulunması ve bunların kavramlar arasındaki belirli ilişki kategorilerini ele alması gibi görünüyor.
  Bu tür fonksiyonlar ayrıştırılabilirse teorik olarak daha doğrudan optimize edilebilir; bu da bu modellerin eğitilme biçiminde ilerlemelere yol açabilir.
  Sonuçta “modern” yapay zekaya getirilen iyi eleştirilerden biri, sadece bir doğrusal cebir çorbası karıştırdığımız düşüncesi; oysa belirli ölçüde modülerliğe ya da indirgemeciliğe izin vermek, bizi basit bir kara kutudan çok bileşen odaklı bir yaklaşıma yaklaştırabilir.
- “Hafıza sarayı”nın neden doğrusal fonksiyon olduğunu pek anlamıyorum.
- Hafıza sarayı, evrimsel anlamda beynimizin amacının dünyayı keşfetmemize ve onun içinde etkili biçimde hareket etmemize yardımcı olmak olması nedeniyle çalışan bir hiledir.
  Bunun için beynin konumları iyi hatırlaması, onların içindeki ve dışındaki rotaları planlaması ve bunları söze ya da harekete dönüştürmekte çok iyi olması gerekir.
Gerçekten ilginç. Aklıma hemen programlama bilgisinin hangi fonksiyonla kodlandığı ve bu da basit bir doğrusal fonksiyonsa, standart kütüphaneyi ya da başka kütüphaneleri pahalı eğitim veya performansı bozan ince ayar olmadan LLM’in beynine doğrudan yükleyip yükleyemeyeceğimiz geliyor.
Şimdilik bilimkurgu gibi bir yetenek ama sanki giderek yaklaşıyor.
- LLM’e yüklemsel bilgiyi doğrudan yükleyebilmenin mümkün olabileceğine dair iyi bir nokta. Özellikle tablo biçimindeki verileri kodlamak gerektiğinde yararlı olabilir.
  Bir yerlerde birilerinin bunu okuyup Excel’i ya da veritabanlarını LLM’e aktarmanın yolunu düşündüğünü tahmin ediyorum.
  Kara kutunun içine başarıyla bakabilen araştırmaların ortaya çıkması cesaret verici.
  Bu alandaki bir başka büyük sonuç da, oyun oynaması için eğitilmiş bir LLM’in içinde oyun tahtasının temsilini bulan makaleydi. Bu tarafta başka iyi sonuçlar var mı merak ediyorum.
  Yazarların da belirttiği gibi LLM’ler yüklemsel bilgiyi kodlamaktan fazlasını yapıyor ve bu bunun yalnızca bir parçası.
Bu ilişkinin, çok daha fazla hesaplama dökülmüş güncel modellerde hâlâ geçerli olup olmadığını merak ediyorum.
Sezgisel olarak, Word2Vec’i mümkün kılan şeyin dilin içkin yapısı olduğunu düşünüyorum. Ardından Word2Vec ve konum kodlamasıyla kodlanmış terabaytlarca insan metniyle eğitim yapıldığında, eğitim sırasında da bir sonraki kodlamayı insanüstü düzeyde bir bilişle tahmin edebilir hâle geliniyor gibi.
Girdi-çıktı biçimi olarak kelime torbası ve konum kodlamasının çalışmasını sağlayan sınırlı bağlam penceresi, iç bilişsel yapıyla büyük bir empedans uyumsuzluğu yaratıyor gibi hissediyorum.
Bu yüzden GPT-4 vb. modellere çok daha fazla hesaplama yatırıldığı ölçüde, yeni temsil biçimlerinin evrimleşmiş olması gayet mümkün; insanların tüm ağırlıkları sondajlayarak bunları hâlâ keşfetmesi gerekebilir.
MemGPT’nin sınırsız uzun süreli bellek sayesinde sonunda AGI olabileceğini düşünüyorum ama daha olası görünüm Memento’nun başkahramanına daha yakın olacak gibi.
[1] https://en.wikipedia.org/wiki/Memento_(film)
- Yanlış okuduysam kusura bakma ama ChatGPT gibi GPT-3+ kullanan LLM’lerin kelime torbası modeli olduğunu söylüyor gibisin. Bunlar sıralı modellerdir.
Ünlü “King - Man + Woman = Queen” gömme örneği aklıma geliyor. Embedding’lerin içinde anlamsal özellikler olması, basit doğrusal fonksiyonların da neden iyi çalıştığını açıklıyor.
word2vec’in ilişki vektörlerine benzer geliyor. “X’in” gibi bir vektör eklediğinizde çoğu zaman doğru cevap çıkıyor
İlke hâlâ aynı olabilir; transformer’lar varlıkları gömme uzayına eşlemeyi “sadece” daha iyi yapar hâle gelmiş olabilir
- Ben de öyle düşünüyorum. Bu modellerin içindeki karar sınırlarının, FP32 vektörlerden gerçekten yararlanacak kadar, beynin kıvrımları gibi yeterince bükülmüş olduğuna inanmak zor
  Yani x = 0 “uçmak”, x = 0.01 “araba kullanmak”, x = 0.02 “mor” gibi bir şeyden ziyade, x < 1.5 “soğuk”, x > 1.5 “sıcak”a daha yakın olduğunu düşünüyorum
  Bu yüzden nicelemenin, hatta 1 bit nicelemenin bile sık sık işe yaramasının nedenlerinden biri bu
  Ayrıca metinleri veya görüntüleri BERT ya da CLIP türü modellere verdikten sonra, doğrusal karar sınırlarını sık kullanan klasik makine öğrenmesi modelleri uygulandığında da iyi sonuç alınmasının nedeni de bu
LLM iyi bir sıkıştırma mekanizması gibi görünüyor
PC’de yerel olarak bir llama kopyası bulundurup fiilen tüm internete erişebiliyor olmak şaşırtıcı
- “Fiilen tüm internet”in yanına bile yaklaşmıyor. %1’e bile yakın değil
  Güncel döküme göre Common Crawl 4,3 milyar sayfa, ama Google 2016’da web’de 130 trilyon sayfa olduğunu tahmin etmişti
  130 trilyon ile 4,3 milyar arasındaki fark neredeyse 130 trilyon. Google’ın aranabilir metin dizinine indirgeseniz bile “yüz milyarlarca sayfa” ve kabaca 100PB; Common Crawl’ın 400TB’ı ile karşılaştırılıyor
- Doğru ama bu kayıplı sıkıştırma. Kaybolan kısımlar çıkarım sırasında halüsinasyonlarla dolduruluyor
- PAC öğrenme sıkıştırmadır
  PAC öğrenilebilirliği, sonlu VC boyutu ve aşağıdaki biçimdeki sıkıştırma tamamen eşdeğerdir
  https://arxiv.org/abs/1610.03592
  Temelde tek tek nöronlar veya perseptronlar uzayı yalnızca iki alt uzaya böler
4 bit ağırlıklara sahip 70 milyar “parametreli” bir CSV dosyası/veritabanı/modelin nasıl olup da neredeyse her konuda bilgili bir sohbet LLM/GPT’sine dönüştüğünü anlamıyorum
Araştırınca 4 bitin sadece bir sıkıştırma yöntemi olduğunu, modelin sonunda f32 mi gördüğünü merak ettim
Niceleme, sinir ağının ağırlıkları olan 32 bit kayan noktalı sayıların, depolama ve bellek verimliliği için 4 bit değerler gibi çok daha küçük bit temsillerine eşlenmesi süreciymiş
Ters niceleme model kullanılırken, yani çıkarım sırasında veya bazı durumlarda eğitim sırasında gerçekleşir; 4 bit niceleme ağırlıkları gerçek hesaplamalarda kullanılan kayan noktalı sayılara geri dönüştürülür
O hâlde “parametreler” ile “modelin bildiği benzersiz token sayısı, yani sözlük boyutu” arasındaki ilişkinin ne olduğunu merak ediyorum
Görünüşe göre LLaMA’nın GPT-3’e kıyasla yalnızca 32.000’lik sözlük boyutu ve 65 milyar parametresi olduğu söyleniyor
LLaMA gibi bir modelin 65 milyar parametresinin, eğitim verisindeki token’lar arasındaki öğrenilmiş ilişkilere dayanarak girdiye nasıl yanıt verileceğini belirleyen çok karmaşık bir eşleme sistemi olarak çalıştığı söyleniyor
- Kısa cevap: öyle olmuyor
  Biraz daha karmaşık söylersek, sıkıştırılmış Wikipedia metin dökümü bile 70GB’tan az ve bu, internetin kayıplı sıkıştırmasıdır
- Burada niceleme, vektör, matris ya da tensör içindeki her değerin hassasiyetini ifade eder
  Söz konusu modelin token gömme uzunluğu 1024 ise, 1 bit nicelemede bile her token’ın 2^1024 olası değeri vardır
  Bağlam uzunluğu 32.000 token ise olası girdiler 32.000^2^1024 adettir
LLM’nin öğrenme modunda, daha önce mümkün olmayan devasa miktarda bilgiden otomatik olarak çok sayıda IF-THEN kuralı ürettiğini kabaca söyleyebilir miyiz?
Bu makale harika; böyle bir fikri doğrulamak için deneyler yapılmış olması da güzel. Yine de fikrin kendisinin ne kadar yeni olduğundan emin değilim
LLM kelimeler arasındaki basit istatistiksel eğilimleri doğal olarak öğreniyorsa, bu tür sonuçlar beklenebilir değil mi?
Bana göre asıl çok daha etkileyici olan, tüm LLM davranışlarının bu kadar basit biçimde açıklanamayacağını açıkça göstermiş olması

LLM'lerin depolanmış bilgiyi geri getirmek için kullandığı şaşırtıcı derecede basit mekanizma

LLM içinde keşfedilen basit bilgi geri getirme yöntemi

Olgular, özne ve nesne arasındaki ilişki olarak ele alınıyor

İlişki türüne göre değişen doğrusal kod çözme fonksiyonları

%60’tan fazla geri getirme başarısı ve doğrusal saklamanın sınırları

Modelin ne bildiğini gösteren attribute lens

Yanlış yanıtları düzeltme olasılığı ve kalan araştırma konuları

İlgili okumalar

1 yorum

Hacker News yorumları