Büyük Dil Modellerinde Akıl Yürütme: Geometrik Bir Bakış

(arxiv.org)

1 puan yazan GN⁺ 2024-07-09 | 1 yorum | WhatsApp'ta paylaş

LLM akıl yürütme performansını basit bir model boyutu meselesi olarak değil, Transformer katmanlarının geometrisi üzerinden yorumluyor; self-attention grafiğinin yoğunluğunun MLP girdisinin içsel boyutunu değiştirdiği bağlantısını ele alıyor
MLP, girdi uzayını birden çok parçalı afin bölgeye ayırır; girdinin içsel boyutu arttıkça daha fazla bölge oluşturup doğrusal olmayan fonksiyonları daha ince ayrıntıyla yaklaştırabilir
Token’ları düğüm olarak gören attention grafiğinde head sayısı veya bağlam uzunluğu arttığında grafik yoğunluğu yükselir; bunun sonucunda MLP’nin işlediği temsil uzayı da büyüyebilir
GSM8K-Zero ve Llama 3 8B/70B Instruct deneylerinde, 1–10 adet few-shot örnek eklendiğinde son katmandaki içsel boyut artışı doğruluk oranındaki iyileşmeyle güçlü biçimde örtüşüyor
İlk katmandaki içsel boyut artışı yalnızca rastgele token eklenince de görülebildiği için açıklayıcılığı zayıf; gerçek akıl yürütme iyileşmesi, ilgili bağlamın son katman temsilini zenginleştirdiği durumlarda daha net ortaya çıkıyor

Akıl yürütme yeteneğine neden geometriyle bakılıyor?

Gerçek LLM kullanımında akıl yürütme yeteneğini iyileştirmek temel bir sorun; GPT-4 ve Llama 3 gibi modeller çeşitli görevlerde güçlü performans gösteriyor
Mevcut iyileştirme yönleri genel olarak iki dala ayrılıyor
- Model boyutunu artırma: Daha büyük modellerin daha iyi akıl yürütme yeteneği gösterdiği örnekler var
- Bağlam uzunluğunu artırma: chain of thought, retrieval augmented generation ve örnek tabanlı prompting gibi girdi token sayısını artıran yöntemler kullanılıyor
Daha uzun girdiler ve daha büyük modeller, pratik kullanımda hesaplama maliyetini ve çıkarım gecikmesini artırabilir
Bu çalışma, Transformer layer geometrisi üzerinden LLM’lerin ifade gücü ile akıl yürütme yeteneği arasındaki ilişkiyi inceliyor
Temel soru, girdi dizisi uzunluğu ve attention head sayısının LLM geometrisini, özellikle de self-attention block’un içsel boyutunu nasıl etkilediği

MLP’nin uzay bölümlenmesi ve ifade gücü

ReLU, leaky-ReLU, absolute value, max-pooling gibi doğrusal olmayanlıklar kullanan MLP, girdi uzayını birden çok bölgeye ayıran sürekli parçalı afin fonksiyon olarak görülebilir
Her bölgeye, o aralıkta girdiyi işleyen bir afin eşleme bağlanır
- Hedef fonksiyon bir aralıkta doğrusal ise tek bir bölge yeterlidir
- Hedef fonksiyon doğrusal değilse eğriliği yaklaştırmak için birden çok bölge gerekir
Sine fonksiyonunu yaklaştıran toy deneyde hidden neuron sayısı 50’den 500’e çıktıkça daha fazla bölge oluşur ve yaklaştırma daha ayrıntılı hale gelir
Bölgelerin girdi uzayında nereye yerleştiği veriye bağlıdır; eğitim verisinin büyüklüğü ve tekdüzeliği ile yapısal değişimler bölümlenme yoğunluğunu etkileyebilir
Aynı neuron sayısında bile girdinin içsel boyutu arttığında MLP’nin oluşturabileceği bölge sayısı üstel olarak artar

Transformer’da içsel boyutun ortaya çıkma biçimi

Causal LLM’in Transformer layer’ı self-attention, multi-head attention, MLP, residual connection ve layer normalization’dan oluşur
Attention map, token’ları düğüm ve attention değerlerini kenar ağırlığı olarak alan bir grafik şeklinde yorumlanabilir
Self-attention grafiğinin yoğunluğu, token’lar arası bağlantı düzeyini ifade eder ve bu yoğunluk MLP girdisinin içsel boyutuyla bağlantılıdır
Theorem 2.1’e göre multi-head attention çıktısının her satırı, single-head convex hull’ların Minkowski toplamı içinde yer alır; etkin boyut, her head’de attention değeri 0’dan büyük olan token sayılarının toplamıyla sınırlanır
Çalışmada kullanılan soft intrinsic dimension, threshold ε’den büyük attention değerine sahip token sayısı olarak tanımlanır
- Deneylerde ε, attention değerlerinin istatistikleri ve dağılımı temel alınarak belirlenir
- Tüm deneylerde threshold 0.1 olarak ayarlanmıştır

Attention head ve bağlam uzunluğunun ifade gücünü artırdığı yol

MLP girdisinin içsel boyutu attention map tarafından belirlendiği için, attention grafiği ne kadar yoğunsa MLP o kadar fazla bölge oluşturabilir
İçsel boyutu artırmanın iki yolu olarak özetlenir
- attention head sayısını artırma: Birden çok head’in etkisi toplanır ve etkin boyut büyüyebilir
- Prompt’u değiştirme veya bağlamı genişletme: Girdi değiştirilerek attention grafiğinin yoğunluğu artırılabilir
One-layer LLM toy deneyi, embedding → attention block → 1-hidden-layer MLP yapısıyla sine fonksiyonunu yaklaştırır
Context length 10/100 ve head sayısı 1/10 karşılaştırıldığında, bağlam uzunluğu ve head sayısı arttıkça MLP’nin girdi uzayında oluşturduğu bölge sayısı artar
Head sayısını değiştirmek pre-training veya fine-tuning gerektirebilir; ancak bağlam uzunluğu, model weight’lerine dokunmadan ayarlanabilir

GSM8K-Zero ve Llama 3 deneyleri

Deneyler, reasoning question’lara verilen LLM yanıtlarının performansını GSM8K-Zero veri kümesiyle değerlendirir
Koşullar 0-shot baseline ve 1–10-shot prompt varyasyonlarından oluşur
- few-shot örnekler, GSM8K-Zero training set’inden rastgele seçilen question-answer pair’lerdir
- Karşılaştırma deneylerinde başa random token veya karıştırılmış few-shot example text eklenir
Hedef modeller Llama3 8B Instruct ve Llama3 70B Instruct’tır
Base prompt, GSM8K-Zero’da yanlış yanıt alınan yaklaşık 300 sample’dan oluşur
Yanıtların doğru olup olmadığı, Mixtral 8×22B Instruct modeline prompting yapılarak değerlendirilir

Son katman ID’si performansla daha iyi örtüşüyor

Başa few-shot örnekler eklendiğinde, son katmanda içsel boyutun arttığı durumlarda doğru yanıt alma olasılığı yükselir
Hem Llama3 8B hem de 70B Instruct’ta final layer ID değişim miktarı büyüdükçe correct response oranının artma eğilimi gösterdiği görülür
İlk katmanda, ne tür token eklenirse eklensin içsel boyut artabilir
- İlk katman attention graph’ı token’ların tamamı üzerinde uniform distribution gibi davranır
- random token deneyi, ilk katmandaki ID artışının akıl yürütme performansıyla mutlaka bağlantılı olmadığını gösterir
random token koşulunda ID artışı sınırlı veya negatifti ve correct response oranı yaklaşık %40 düzeyinde doygunluğa ulaştı
Birden çok layer’ı karşılaştıran Figure 8’de, model boyutundan bağımsız olarak son katmanın ID’si, yanıtın doğru olup olmadığını ayırt etmede daha yararlı bir sinyal olarak ortaya çıkar
LLM’lerde self-attention head’in çıktıladığı her token, MLP’de bağımsız olarak dönüştürülür; daha ince partition’a sahip bir MLP, her token’a daha uyarlanabilir bir affine map uygulayabilir
Tahmin, embedded token’ların doğrusal bileşimiyle oluşturulduğundan token bazındaki yaklaştırma hataları birikebilir; token çevresindeki daha ince bölümlenme, nihai tahminin yaklaştırma hatasını azaltabilir
İçsel boyut ve affine map partition’ın LLM’in genelleme yeteneği ile nasıl bağlantılı olduğu, bu çalışma ve ilgili çalışmaların çoğunda henüz yeterince araştırılmış değildir

1 yorum

GN⁺ 2024-07-09

Hacker News yorumları

Yapay zekanın değeri küvet eğrisi gibi görünüyor. Düşük seviyede 1–3 satırlık kodu fena olmayan şekilde yazan süper güçlü bir otomatik tamamlama; yüksek seviyede ise eldeki işle ilgili üst kavramları açıklamakta iyi.
Orta bölgede ise iyi çalışmıyor. Ondan çok aşamalı bir plan yapmasını istediğinizde, her parça ayrı ayrı makul olsa da birbirine oturmuyor. Yapay zekada “bu dört parça sıkı biçimde bağlanıp tek bir bütün oluşturmalı” hissi yok; A’dan B’ye giden dört adım üretirken farklı yolları kabaca birbirine ekliyormuş gibi hissettiriyor.
- Bu bir küvet eğrisi değil. Düşük seviye işler de “yüksek” seviye işler de sonuçta aynı olasılıksal metin üretimi.
  Kod hakkında akıl yürütmüyor, verdiği açıklamalar hakkında da akıl yürütmüyor. Yapay zeka düşünemiyor, verilen problemin içsel bir modelini kurmuyor; sadece tahmin ediyor. Bu “orta” işlerin başarısız olmasının nedeni, doğru yanıt için soyut akıl yürütme gerekmesi.
- Eğitim verisini düşünürsek, çok aşamalı plan örnekleri o kadar da fazla değil. Kavramların, yani yüksek boyutlu vektörlerin nasıl birbirine oturduğunu öğrenen bir yapıysa, gereken akıl yürütme örnekleri yeterli olmadığında iyi yapamaz.
  Sonuçta sentetik veri, hedefe dair iyi açıklamalar ve o hedefi hayata geçiren kod gibi materyaller biriktikçe daha iyi olacaktır.
- Düşük seviye ve yüksek seviye ekseni, yapay zekayı değerlendirmek için iyi bir ölçüt olmayabilir. Bu ölçüte kernel trick uygulayıp seviyenin alçaklığı/yüksekliği ile çok aşamalı planlama problemini ayırmak gerekir.
  Başka bir deyişle, bu üç problemi ayırt etmek için başka bir boyut kullanmak gerekir.
“Mad Libs” oyununu hatırlıyor musunuz bilmiyorum. “Fiil”, “isim”, “sıfat” gibi boşlukları doldurup sonra sonraki sayfada bu kelimelerle komik bir hikâye oluşturulan oyun. İlk başta kelimeleri girerken bağlam olmadığı için dilbilgisel olarak doğru ama bağlam açısından anlamsız olur; bu yüzden komiktir.
LLM, üstüne bağlam tahminleyicisi eklenmiş Mad Libs gibi. Dilbilgisel olarak doğru çıktılar üretir ve istatistiksel korelasyonlar çoğunlukla anlamlı sonuçlar verdiği için bağlam tahminleyicisi saçmalığı azaltır. Ama burada “akıl yürütme” yok; yalnızca dilbilgisel kalıp doldurma ve istatistiksel otomatik tamamlama var.
- Doğru, ama bu neredeyse hayal etmesi zor derecede karmaşık bir otomatik tamamlama modeli. Ayrıca insan akıl yürütmesinin önemli bir kısmı metinde istatistiksel olarak tahmin edilebilir olduğundan, iyi bir otomatik tamamlama modeliyle gerçekten akıl yürütme benzeri davranış elde edilebilir.
  Her durumda çalışmıyor diye bunun ne kadar şaşırtıcı derecede iyi işlediğini ve çalışıyor olmasının başlı başına ne kadar beklenmedik olduğunu küçümsememek gerekir. Asıl metnin odağı da yeterince büyük bir otomatik tamamlama modelinde akıl yürütmeye benzer olguların nasıl ortaya çıktığını araştırmak.
- “Dilbilgisel kalıp doldurma ve istatistiksel otomatik tamamlamadan ibaret” demek olasılıksal papağan hipotezidir ve HN’ye her LLM makalesi geldiğinde mutlaka tekrarlanır.
  Bu hipotez yalnızca felsefi bir iddia olarak kalmıyor; yanlışlanabilir öngörüler üretiyor ve deneyler bunları yeterince yanlışladı. LLM’lerde dünya modeli var. Bu konudaki ünlü makalelerden biri OthelloGPT; daha yakın tarihli olanlardan biri de Transformers Represent Belief State Geometry in their Residual Stream.
- İnsanların “akıl yürütme”nin neden bir tür dilbilgisel kalıp doldurma ve istatistiksel otomatik tamamlama olmadığına sürekli bu kadar emin olduğunu anlamıyorum.
- Bence akıl yürütme, yeterince gelişmiş dilbilgisel kalıp doldurma ve istatistiksel otomatik tamamlamadır.
  Dilbilgisel dönüşümlerin Turing-complete olduğunu da hatırlamakta fayda var: https://wiki.c2.com/?RewriteRules
- Bu fikirden, daha doğrusu ad-libs’ten yola çıkarak LLM boşluk doldurma için TypeScript kütüphanemin adını koydum: https://github.com/gsuuon/ad-llama/
Tartışmanın iki yönü var gibi görünüyor. Modelin muazzam miktarda metni soğururken bir şekilde akıl yürütme yeteneği geliştirdiği, yani akıl yürütmenin dilden sonra ortaya çıktığı görüşü var.
Buna karşılık, akıl yürütmenin insanların zaten yapıp yazıya döktüğü bir şey olduğu; “Juliet’ten sonra Romeo başka bir aşk mı aramalıydı?” gibi bir soru sorulduğunda modelin, milyarlarca İngiliz edebiyatı denemesine yansımış akıl yürütme kümelerini geri yansıttığı görüşü de var. Bir şeyi mi kaçırıyorum?
- Bu ikisi aynı madalyonun iki yüzü gibi görünüyor. LLM temelde metin tamamlama yapmak üzere eğitilir; eğitim de verilen model mimarisi ve parametre sayısı içinde bunu en etkili yapmanın yolunu bulma sürecidir.
  “LLM muazzam miktarda metni soğurur” noktasından başlarsak, basit bir model metni ezberleyerek tamamlayabilir. Ama 234 * 452 = ifadesini doğru tamamlamak için, olası tüm çarpımları ezberlemektense gerçekten hesap yapmak çok daha basittir. Benzer şekilde, dünyayı anlayıp akıl yürütebilmek, insanların yazdığı cümleleri daha iyi tamamlamayı sağlar. Dolayısıyla yeterince iyi eğitilmiş, bunu yapacak kadar çok parametresi olan ama basitçe aşırı uyum sağlayacak kadar da çok parametresi olmayan bir modelin bir ölçüde akıl yürütme yeteneği geliştirmesi beklenebilir.
  “Eğitim kümesinde çok fazla akıl yürütme var” noktasından başlarsak, ezberleme aşamasında bile akıl yürütme gibi görünen sonuçlar elde edilebilir. Ama modelin gerçek akıl yürütmeyi geliştireceği mantığı hâlâ geçerlidir ve daha da güçlenir. Birinin argümanını tamamlamanız gerekiyorsa, o kişinin düşünce akışını takip edebildiğinizde bu çok daha kolaydır.
- Bugün LLM’lerde kullanılan daha geniş kapsamlı akıl yürütme testlerinden MuSR gibi şeylere bakmak iyi olur. Sorular yeni üretildiği için, ikinci açıklama tek başına bunu açıkça açıklamakta zorlanır: https://arxiv.org/abs/2310.16049
- Böyle bir modelin “akıl yürütebilmesinin” ya da daha doğru söylemek gerekirse karmaşık kavramlarla başa çıkabilmesinin nedeni oldukça sezgiseldir. Devasa metinleri işlerken, kavramların basit düğümler, yani nöronlar veya nöron kümeleri olarak temsil edildiği iç temsiller oluşturur.
  Böylece bilgiyi gerçekten damıtır. Ya da bunu, önemli çeşitli yönleri çıkaran çok iyi bir temel bileşen analizi gibi düşünebilir; otomatik oluşturulmuş bir anlam grafiği olarak da görebilirsiniz. Bilgi damıtıldığında, kavramları birleştirerek onun üzerine kolayca inşa edilebilir. Özel bir sır yok.
- Makaleye hızlıca baktığımda, bu sorunun farkında oldukları ama biraz üzerinden atladıkları izlenimini edindim.
  Gerçekten de yaklaşım yeteneği ile genellemenin aynı kavram olmadığı açıktır diyorlar. Ancak LLM’lerin akıl yürütme yeteneğinin genellemeyle bağlantılı olup olmadığı henüz kesinleşmiş değil; bu kavramları hâlâ tam olarak yakalamak zor olduğu için deney bölümünde içsel boyut, yani ifade gücü ile akıl yürütme yeteneği arasındaki ilişkiye odaklandıklarını söylüyorlar.
- “Model o yanıtı geri yansıtır” derken geri yansıtır sözünün içinde çok fazla şey var. Gerçekten bu kadar basit mi?
  Bu, modelin “okuduğu” belirli bir edebiyat eleştirisi denemesinin görüşünü benimsediği anlamına mı gelir? Yoksa bütünün bir tür “ortalama” görüşünü mü alır? Zaten belirli bir konuya ilişkin “ortalama” görüş nasıl tanımlanabilir?
  Bu, LLM’nin ne olduğunun özüne dokunan ilginç bir mesele; ancak bu makalenin odağı çok daha dar olduğu için buna yanıt vereceğini sanmıyorum.
Çıkarımın geometriyle ne ilgisi var? Farklı kavramların içinde yerleşik geometrik biçimler olduğu fikrine mi benziyor? Aklın geometrisine dair Platoncu ya da entelektüalist bir bakış mı? Makaleyi büyük ölçüde anlamakta zorlandım
- Geometrinin nereden geldiği konusunda, makaleyi biraz daha okuduktan sonra ekleme
  Makalenin alıntıladığı kaynaklardan biri olan bu makale[1], modern derin sinir ağlarının doğrusal olmayan katmanlarının girdiyi bölgelere ayırdığını ve her bölgeye afin dönüşüm[2] uygulayarak çıktıyı ürettiğini gösteriyor. Bunun vektör niceleme ve k-ortalama kümeleme ile nasıl bağlantılı olduğunu da ele alıyor
  Dolayısıyla buradaki geometrik bakış, lise tipi geometri değil; vektör uzayı[3] ya da kombinatoryal hesaplamalı geometri[4] gibi daha soyut kavramlar anlamına geliyor
  Sunulan makale, bu tür bölümlendirmenin sinir ağının yaklaşım yeteneğiyle doğrudan bağlantılı olduğunu gösteriyor. Ardından yaklaşım yeteneği arttıkça matematik sözel problem yanıtlarının iyileştiğini, bu yüzden yaklaşım yeteneğinin LLM'in çıkarım yeteneğiyle ilişkili olduğunu öne sürüyor
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Modern sinir ağları lineer cebiri çok kullanır; özellikle de modern LLM'leri çalıştıran Transformer[1] mimarisi böyledir
  Lineer cebir geometriyle[2] yakından ilişkili olduğundan, yetenek ve performansı belirleyen geometrik yönler olması oldukça doğal
  Bu makalede özellikle attention katmanının içsel boyutuna[3] bakılıyor ve bunun LLM performansıyla nasıl ilişkili olduğu inceleniyor
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- “Farklı kavramların içinde yerleşik geometrik biçimler vardır” fikri doğru. Aslında matematiğin temellerini bu kavramın üzerine kurmak, bir anlamda “çıkarım” ve kanıt da oluşturmak mümkün
  Bağımlı tip sistemleri bu şekilde çalışır. HoTT ve modal homotopi teorisine bakılabilir. Lean4, Coq ve teorem kanıtlama da bu şekilde işler
  Lambda cebiri ya da Boole cebirinin temellerini düşünürsek, kısmi sıralı kümelerden oluşan kafesler ya da yarı kafesler üzerinde örgütlenmiş matematiksel nesneler bir dizi dönüşüm olarak ele alınır. Örneğin Boole cebirinde içerme, kısmi sıralamayı sağlar
  Attention mekanizmasının yoğunluğunun bağımlı tip sistemlerine benzer bir ilerleme izleyip izlemediğini; ayrıca kanıtta yer alan bağımlı tiplerle LLM içindeki karşılık gelen uzay arasında, yakınlık operatörlerine benzer sürekli gevşetmeler ve üst düzey kavramlardan çıktı token'larına giden dönüşümler yoluyla bir bağlantı olup olmadığını anlamak ilginç olurdu
  Embedding'lerde geometrinin anlam taşıdığını zaten gördük. Belirli basit kavramlar vektör yönlerine karşılık gelir. Bağımlı kavramlar üzerine çıkarımın, LLM'in geçtiği yolun karmaşık bir altuzayına karşılık gelmesi ve yeterince eğitimle bu bağlantının karşılık gelen kanıtın mantıksal yapısına giderek yaklaşması hiç şaşırtıcı olmazdı
- Bu makale bunu söylemiyor ama burada AlphaGeometry tarzı sentetik bir benchmark[1] oluşturulabilir. Bir geometri motorunun 100 milyon sözel problem üretip LLM'in bunları çözmesini sağlamak gibi
  Geometri problemlerini mekanik olarak üretmek ve çözmek kolaydır; ancak genel Transformer LLM'lerin bunlarda özellikle iyi olması için bir neden yoktur ve ölçeği muazzam biçimde büyütme avantajı vardır. HumanEval gibi yalnızca 164 problemden oluşan benchmark'lardan farklı olduğundan, LLM'in yanıtları ezberlediği eleştirisinden kaçınmak da daha kolaydır
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Sanırım kelime embedding'lerinden söz ediyor. Burada bağlam yüksek boyutlu bir geometrik uzaya gömülüyor; bazı boyutlar bir kelimenin ne kadar “kadınsı” olduğu ya da “maviye ne kadar yakın” olduğu gibi şeyleri yakalayabiliyor
Burada bölge ile ne kastediliyor, daha çok bölge daha mı iyi, bölgeler nasıl ayrılıyor, tek bir bölge ilgili birçok bölgeyle aynı kavram olabilir mi merak ediyorum
- Anladığım kadarıyla bölgeler, girdi alanının bölümlenmesini oluşturan parçalar; yani ağırlıklarla oluşan vektör uzayının parçaları. Alıntılanan makalenin[1] 3.1. bölümünden itibaren daha fazla ayrıntı var
  O makalenin savı, genel derin sinir ağlarının katmanlarının girdi alanını birçok bölgeye ayırdığı ve her bölgenin girdi için kendine ait bir afin dönüşüme sahip olduğu yönünde
  Rastgele bir aktivasyon fonksiyonu için hem bölümlendirmenin kendisini hem de bölge başına afin dönüşüm parametrelerini bulmak gerekir. Ancak yaygın aktivasyon fonksiyonları küresel olarak konveks olduğundan, makale bunun bölümlendirmenin bölge başına afin dönüşüm parametreleri tarafından tamamen belirlenmesini sağlayacak şekilde kullanılabileceğini gösteriyor
  Böylece belirli bir x girdisi için katmanın çıktısı, “bölümlendirme-bölge bağımlı, x'in parçalı afin dönüşümü” oluyor. Afin dönüşüm parametreleri esasen eğitim sırasında değişen şeylerdir; dolayısıyla bölgelerin sayısı ve şekli de eğitim sırasında değişir
  Sunulan makale, bölge sayısı arttıkça sinir ağı katmanının yaklaşım yeteneğinin büyüdüğünü gösteriyor. Yukarıdakiler düşünüldüğünde bu başlı başına şaşırtıcı değil, ancak önemli bir basamak taşı olarak kullanılıyor
  [1]: https://arxiv.org/abs/1805.06576v2
Pek çok felsefi tartışmada olduğu gibi, LLM'lerin “akıl yürütebildiğini” iddia etmek pek anlamlı değil. Çünkü “akıl yürütme” iyi tanımlanmış bir terim değil ve herkes tek bir tanım üzerinde uzlaşmayacaktır.
Bir bilgisayar bilimciye, kıta felsefecisine ve antropoloğa “akıl yürütme”nin ne olduğunu sorarsanız tamamen farklı yanıtlar alırsınız.
Akıl yürütmeden matematikte kullanılan tümdengelimsel akıl yürütmeyi ve bilimde kullanılan tümevarımsal akıl yürütmeyi kastediyorsak, LLM'lerin bunu yaptığına dair kanıt yok. Yalnızca dilsel örüntü eşleştirmeyle, insan düşüncesi dediğimiz her şeyi taklit edebileceğimize inanmak için de bir neden yok. Bunu iddia etmek için “düşünce”yi aşırı dar tanımlamak ve bedene sahip zekâlar olduğumuz, kendimizi saydam ve belki de dil öncesi yollarla bilebileceğimiz gerçeğini göz ardı etmek gerekir. Yapay zeka bedenlenmedikçe ve aynı şeyleri yapabilir hâle gelmedikçe, insanlar gibi “düşüneceğine” ya da “akıl yürüteceğine” inanmıyorum. Hâlâ son derece iyi bir istatistiksel göz boyama.
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Bunların tümevarım yaptığına dair çok kanıt var.
- Bu doğru olabilir, ama “yeterince iyiyse” bunun ne önemi var? Slack/Teams'te biletleri zamanında ele alan ve kod kalitesi de fena olmayan bir kullanıcının LLM mi yoksa ben mi olduğunu ayırt edemiyorsam, o varlığın kendini saydam ve dil öncesi bir biçimde bilip bilmediği pek umurumda olmaz.
“Sadece daha fazla boyut ekle, bro!”
Yapay zeka alanından biri değilim; kenardan izlemeyi seviyorum. Makaleyi gözden geçirdikten sonra uzman olmayan biri olarak özetim şöyle; yanlış yerler varsa düzeltirseniz sevinirim.
Modern sinir ağlarında, örneğin LLM'lerde kullanılan çok katmanlı algılayıcı[1] katmanları, özünde girdiyi birden çok bölgeye ayırır. Tek bir MLP katmanının ayırabileceği bölge sayısı, girdinin içsel boyutuna[2] üstel olarak bağlıdır; bölge/bölüm sayısının MLP katmanının yaklaşım gücünü artırdığı görülüyor.
Bu yüzden nöron sayısını artırmadan da girdiyi fiilen “damıtarak” MLP katmanının yaklaşım gücü büyük ölçüde artırılabilir.
Transformer mimarisinde MLP katmanının girdisi self-attention[3] katmanıdır. Yazarlar, self-attention katmanının grafik yoğunluğunun self-attention katmanının içsel boyutuyla güçlü biçimde ilişkili olduğunu gösteriyor. Yani daha yoğun bir self-attention katmanı, MLP'nin daha iyi iş çıkarmasını sağlayabilir.
Attention katmanının yoğunluğunu artırmanın bir yolu daha fazla bağlam eklemektir. Sorunun önüne bağlam olarak herhangi bir token ekleyip son katmanın içsel boyutunu artırmanın LLM performansını iyileştirdiği görülüyor.
Ayrıca transformer mimarisinin yaklaşım hatasının birikmesine yatkın olduğunu, yüksek içsel boyutlu girdi alan MLP katmanının sağladığı daha hassas bölümlendirmenin buna yardımcı olabileceğini yazıyorlar. Ancak bunun genelleme üzerindeki etkisi daha fazla araştırılmalı.
Sonuçlar geçerli kalırsa bu makale, LLM benzeri sinir ağlarını daha iyi optimize etmek için iyi içgörüler sunuyor gibi görünüyor.
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Attention grafiğinde token'ları birbirine bağlayan kenar sayısıyla yoğunluğu tanımladıklarını düşünmek daha sezgisel olur. Daha basit söylemek gerekirse, token'ın diğer token'larla kaç bağlantısı olduğu sayısının token sayısına bölünmesidir.
  Bu yüzden gerçekten birbirleriyle ilgili ve bilgi sağlayan token'lar iyidir; alakasız token'lar ise yardımcı olmaz.
  “Sorunun önüne bağlam olarak herhangi bir token eklerseniz LLM performansı iyileşir” ifadesi bana doğru görünmüyor. Makalenin bulduğu şey, mevcut sorunun önüne herhangi türden token eklendiğinde ilk katmanın içsel boyutunun arttığı, ancak bu artışın modelin akıl yürütme yeteneğiyle mutlaka ilişkili olmadığıdır.
  Yalnızca öne eklenen token'lar modelin son katman içsel boyutunu artırdığında LLM'nin akıl yürütme yeteneğinin belirgin biçimde arttığı söyleniyor.
- İlgilendiğimiz farklı bölge sayısı, verinin Vapnik–Chervonenkis boyutunun[a] bir alt kümesi; hatta uç durumda aynı bile sayılabilir, değil mi?
  Orijinal metinde VC boyutundan bahsedilmiyor.
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Büyük Dil Modellerinde Akıl Yürütme: Geometrik Bir Bakış

Akıl yürütme yeteneğine neden geometriyle bakılıyor?

MLP’nin uzay bölümlenmesi ve ifade gücü

Transformer’da içsel boyutun ortaya çıkma biçimi

Attention head ve bağlam uzunluğunun ifade gücünü artırdığı yol

GSM8K-Zero ve Llama 3 deneyleri

Son katman ID’si performansla daha iyi örtüşüyor

İlgili okumalar

1 yorum

Hacker News yorumları