2 puan yazan GN⁺ 2024-03-29 | 1 yorum | WhatsApp'ta paylaş

MIT araştırmacıları, büyük dil modellerinin bilgiye erişim tekniğini ortaya koydu

  • Büyük dil modellerinin, kullanıcının istemlerine yanıt verirken depolanmış bilgiyi geri getirmek için basit bir mekanizma kullandığı bulundu.
  • Araştırmacılar, bu basit mekanizmadan yararlanarak modelin çeşitli konular hakkında ne bildiğini belirleyebiliyor ve yanlış depolanmış bilgileri düzeltebiliyor.

Büyük dil modellerinin karmaşıklığı

  • Büyük dil modelleri müşteri desteği, kod üretimi, dil çevirisi gibi çeşitli alanlarda kullanılıyor, ancak nasıl çalıştıkları tam olarak anlaşılmış değil.
  • MIT ve diğer kurumlardan araştırmacılar, bu dev makine öğrenimi modellerinin depolanmış bilgiyi geri getirme mekanizmasını inceledi.

Bilginin basit geri getirme mekanizması

  • Araştırma sonucunda, büyük dil modellerinin depolanmış gerçekleri geri kazanmak ve çözümlemek için çoğu zaman basit bir doğrusal fonksiyon kullandığı görüldü.
  • Model, benzer türdeki gerçekler için aynı çözümleme fonksiyonunu kullanıyor.
  • Doğrusal fonksiyon, iki değişken arasındaki doğrusal ilişkiyi gösteren bir denklemdir.

Modelin ne bildiğini keşfetmek

  • Araştırmacılar, çeşitli gerçeklere ilişkin doğrusal fonksiyonları belirleyerek modelin yeni konular hakkında ne bildiğini araştırdı ve bu bilginin model içinde nerede depolandığını doğruladı.
  • Geliştirilen teknikle tahmin edilen basit fonksiyonlar sayesinde, model yanlış yanıt verdiğinde bile çoğu zaman doğru bilgiyi içinde barındırdığı ortaya çıktı.

Model bilgisinin görselleştirilmesi

  • Araştırmacılar, bu fonksiyonları kullanarak modelin farklı konular hakkında neyi doğru kabul ettiğini belirledi.
  • Örneğin, "Bill Bradley was a" istemiyle başlayıp "plays sports" ve "attended university" için çözümleme fonksiyonlarını kullanarak modelin Sen. Bradley'nin bir basketbol oyuncusu olduğunu ve Princeton University'de okuduğunu bilip bilmediğini kontrol ettiler.
  • Bu keşif tekniğiyle, belirli ilişkiler hakkındaki bilginin dönüştürücünün farklı katmanlarında nerede depolandığını görselleştiren ve "attribute lens" olarak adlandırılan bir ızgara oluşturuldu.

GN⁺ görüşü

  • Bu araştırma, büyük dil modellerinin olgusal bilgiyi nasıl depolayıp geri getirdiğine dair anlayışı bir adım ileri taşıyor.
  • Bulgular, modelin yanlış bilgi verme eğilimini azaltmak için bilgiyi düzeltme ve yapay zeka sohbet botlarındaki hataları önleme olasılığını gösteriyor.
  • Bu teknolojinin uygulanması, yapay zekanın güvenilirliğini artırmaya katkı sağlayabilir ve kullanıcı deneyimini iyileştirmeye yardımcı olabilir.
  • Ancak tüm gerçeklerin doğrusal olarak kodlanmadığı göz önüne alındığında, bu tekniğin her tür bilgi geri getirme sürecine uygulanıp uygulanamayacağı konusunda daha fazla araştırmaya ihtiyaç var.
  • Benzer işlevler sunan açık kaynak projeler arasında Google'ın BERT'i ve OpenAI'nin GPT serisi yer alıyor; bunlar da büyük dil modellerinin çalışma prensiplerini anlamaya katkı sağlıyor.
  • Yeni bir teknoloji benimsenirken modelin karmaşıklığı ile yorumlanabilirliği arasındaki denge dikkate alınmalı; bu tekniğin seçilmesiyle elde edilebilecek fayda ise model doğruluğu ve güvenilirliğinin artması olacaktır.

1 yorum

 
GN⁺ 2024-03-29
Hacker News yorumu
  • Bu dikkat çekici çalışma, günümüzde yapay zeka alanındaki en büyük sorunlardan bazılarını öne çıkarıyor

    • Perceptronlardan ya da onlardan çok da farklı olmayan nöronlar veya kural setleri dışında bir şey üzerinde gerçekten çalışmayı denemiyoruz
    • Basit bir toplama fonksiyonu olan perceptron yapısının model içinde tekrar etmesi şaşırtıcı değil
    • Feedforward topolojisinin ve tek nöronlu adımların, eğitilmesi ve grafik kartlarında çalıştırılması en kolay olduğu için gerçekten en iyi seçenek olup olmadığı sorgulanıyor
    • Büyük kütüphaneler tarafından desteklenmediği için kullanılmayan benzersiz eğitim yöntemleri ve kodlama şemaları mevcut
    • Sinir ağlarının temel kural setinde gerçek değişiklikler görmeye başlayana kadar her zaman perceptron varyasyonlarıyla uğraşacağız
  • Dilin yapısı, Word2Vec'i mümkün kılıyor

    • Word2Vec + konumsal kodlama ile kodlanmış terabaytlarca insan metni üzerinde eğitim, bir sonraki kodlamayı insanüstü seviyede tahmin etmeyi mümkün kılıyor
    • Bag-of-words (girdi/çıktı yöntemi) ile konumsal kodlamayı çalıştırmak için kullanılan sınırlı bağlam penceresi, içsel bilişsel yapıyla büyük bir uyumsuzluk yaratıyor
    • GPT-4 ve benzerlerine çok daha fazla hesaplama gücü verilmesiyle, insanların keşfetmesi gereken yeni temsil biçimleri evrimleşiyor olabilir
    • MemGPT, sınırsız uzun vadeli hafızası nedeniyle sonunda AGI olabilir, ancak daha olası olan şey, Memento filminin kahramanı gibi olmasıdır
  • Gerçeklerin doğrusal fonksiyonlar olarak depolanmasının ne anlama geldiğini anlamaya yardımcı oluyor

    • LLM, gerçekleri N boyutlu bir "gerçekler uzayı" olarak kodluyor; gerçekleri uzayda noktalar/hiperküreler/Voronoi manifoldları gibi yapılara gömüyor; gerçekleri hatırlamak ise sinir ağının bir anahtar hesaplayıp/hatırlayıp bu uzayda anahtar-değer araması yapması anlamına geliyor
    • Bu tür KV-store yapılarını edge-propagation grafik modellerine nasıl gömdüğümüz ve bunun için şu anda iyi bilinen manuel teknikler olup olmadığı soruluyor
    • İnsan beyninin gerçekleri kolayca geri çağrılabilecek şekilde doğrusal fonksiyonlara gömmesini sağlayan "hafıza sarayı" tekniğiyle ilginç bir bağlantı kuruluyor
  • Programlama bilgisini kodlamak için kullanılan fonksiyon türlerine dair merak

    • Standart kütüphanenin veya başka kütüphanelerin, maliyetli eğitim ya da performansı düşüren fine-tuning olmadan doğrudan LLM'in beynine yüklenip yüklenemeyeceği sorgulanıyor
    • Bu hâlâ bilim kurgu gibi bir yetenek, ancak giderek daha yakın görünüyor
  • Word2Vec'teki ilişki vektörlerinin yaptıklarına benzer olduğu fark ediliyor

    • "X'in" vektörünü eklemek çoğu zaman doğru cevabı verebiliyor
    • Transformer'lar, varlıkları embedding uzayına daha iyi eşliyor olabilir
  • LLM, iyi bir sıkıştırma mekanizması gibi görünüyor

    • PC'de yerel bir Llama kopyasına sahip olup neredeyse tüm internete erişebiliyor olmak hayret verici
  • "King - Man + Woman = Queen" embedding örneğini hatırlatıyor

    • Embedding'lerin anlamsal özellikler içermesi nedeniyle basit doğrusal fonksiyonların neden etkili çalıştığını açıklıyor
  • 7 milyar "parametreye" sahip bir "CSV dosyası/veritabanı/modelin" nasıl olup da neredeyse her konuda bilgili, etkileşimli bir LLM/GPT sunduğunu anlamak zor

    • 4 bit bir "sıkıştırma yöntemi"dir ve model sonuçta f32 görür
    • Quantization, sinir ağının ağırlıkları olan 32 bit kayan noktalı sayıları, 4 bit değerler gibi çok daha küçük bit gösterimlerine eşleme sürecidir
    • Dequantization, model kullanılırken gerçekleşir; 4 bit quantized ağırlıkları, modelin hesaplamaları gerçekten yaptığı kayan noktalı sayılara dönüştürür
    • "Parametreler" ile modelin bildiği "benzersiz token sayısı (vocabulary size)" arasındaki ilişki soruluyor
    • LLAMa, GPT-3'e kıyasla 32.000 vocabulary size ve 65B parametreye sahip
    • 6,5 milyar parametre, eğitim verisindeki tokenlar arasında öğrenilen ilişkilere dayanarak verilen bir girdiye nasıl tepki verileceğini belirleyen karmaşık bir eşleme sistemi olarak işlev görüyor
  • Bu makalenin harika olduğu ve bu fikirleri doğrulamak için deneyler yapılmış olması beğeniliyor

    • LLM'lerin kelimeler arasındaki basit istatistiksel eğilimleri doğal olarak öğrendiği düşünüldüğünde, fikrin kendisinin ne kadar yeni olduğu sorgulanıyor
    • Tüm LLM davranışlarının bu kadar basit şekilde açıklanamayacağını açıkça göstermiş olması ise çok daha etkileyici
  • Muhakeme kısmını bilgi kısmından ayırma olasılığı

    • Eğer bu doğruysa, son derece şaşırtıcı bir keşif olur