Her şey RNN’lerden mi ibaretti?

(arxiv.org)

1 puan yazan GN⁺ 2024-10-04 | 1 yorum | WhatsApp'ta paylaş

Transformer, 2017’den sonra derin öğrenmeyi yeniden şekillendirdi; ancak uzun dizilerde self-attention maliyeti büyüdükçe, paralel eğitilebilen yinelemeli modellere yeniden ilgi artıyor
Transformer’dan önceki 20 yıl boyunca dizi modellemede yaygın biçimde kullanılan LSTM ve GRU, kapıların önceki duruma bağımlılığı azaltıldığında paralel eğitim olanağını açıyor
Basitleştirilmiş minLSTM ve minGRU, mevcut LSTM ve GRU’dan daha az parametreye sahip, eğitim sırasında tamamen paralelleştirilebiliyor ve birçok görevde Transformer dahil güncel modellerle rekabetçi performans gösteriyor
Transformer’ı verimli hale getirme çalışmaları seyreklik, düşük rütbeli yaklaştırma ve tiling yönlerine ilerledi; son dönemde durum-uzayı modelleri, doğrusal hale getirilmiş attention ve doğrusal RNN gibi alternatif yinelemeli modeller de güçlü performans sergiliyor
Ek bölümdeki birkaç satırlık plain PyTorch uygulaması sayesinde minGRU ve minLSTM, yeni başlayanlar, uygulayıcılar ve araştırmacılar için denemesi kolay hafif modeller olarak görülebilir

Transformer sonrası yeniden gündemde olan yinelemeli modeller

RNN, 1990’lardan beri makine çevirisi ve metin üretimi gibi dizi modelleme görevlerinde yaygın olarak kullanılıyordu
- Temsilci modeller LSTM (1997) ve GRU (2014)
- Özünde sıralı bir yapıya sahip oldukları için paralelleştirme sınırlı kalır ve uzun dizilerin eğitiminde hesaplama verimliliği kolayca düşebilir
Transformer, 2017’de self-attention üzerinden paralel eğitim mekanizmasını devreye sokarak dizi modellemede hızla başarı kazandı
- Sonrasında yalnızca büyük dil modellerine değil, bilgisayarlı görü, pekiştirmeli öğrenme ve biyoinformatiğe de yayıldı
- Self-attention, token’lar arası etkileşimi modeller; ancak hesaplama karmaşıklığı dizi uzunluğuna göre karesel olarak artar
- Uzun dizilerde veya kaynakların kısıtlı olduğu ortamlarda maliyet ciddi biçimde artabilir
Transformer verimliliğini artırmaya yönelik araştırmalar birkaç farklı koldan ilerledi
- Seyreklik
- Düşük rütbeli yaklaştırma
- Tiling
Son dönemde daha verimli ölçeklenen, paralelleştirilebilir yinelemeli modeller yeniden yükselişe geçti
- Durum-uzayı modelleri
- Doğrusal hale getirilmiş attention
- Doğrusal RNN
- Bu modern yinelemeli modeller, girdiye bağımlı geçişlerden yararlanıyor ve Transformer’a benzer ölçüde güçlü performans gösteriyor
- Yalnızca büyük dil modellerine değil, görüntü ve grafik tabanlı verilere de uygulanıyor

minLSTM ve minGRU’nun temel fikri

Bu çalışma, Transformer öncesinde uzun süre kullanılan LSTM ve GRU’yu tarihsel bir bakışla yeniden inceliyor
Her iki model de erken dönem girdi bağımlı yinelemeli modellerin örnekleri olarak görülebilir
Kapıların önceki duruma bağımlı kısmı kaldırıldığında LSTM ve GRU da paralel eğitim için uygun hale geliyor
Ek sadeleştirmelerle minLSTM ve minGRU adlı asgari sürümler elde ediliyor
- Mevcut LSTM ve GRU’ya göre daha az parametre içeriyor
- Eğitim sırasında tamamen paralelleştirilebiliyor
- Basit yapısına rağmen birçok görevde rekabetçi performans gösteriyor
- Karşılaştırma yapılan modeller arasında Transformer da yer alıyor
Bu sonuç, model yapısını ve algoritmik karmaşıklığı sürekli büyütme eğilimini sorgulatıyor
Ek bölümde minGRU ve minLSTM’in plain PyTorch uygulaması birkaç satır kodla veriliyor
- Model hafif ve uyarlaması kolay
- Yeni başlayanlar, uygulayıcılar ve araştırmacılar için kullanımı kolay bir yapı sunuyor

1 yorum

GN⁺ 2024-10-04

Hacker News yorumları

Tekrarlamalı yapıları IIR filtre, yalnızca ileri beslemeli yapıları da FIR filtre olarak düşününce dijital sinyal işleme ile birçok benzerlik var gibi görünüyor
IIR filtreler çoğu zaman aynı yanıtı veren FIR filtrelerden çok daha az elemana ihtiyaç duyar; FIR filtreler ise genelde uygulaması, kontrolü ve ölçümü daha kolaydır
Sabit noktalı aritmetik donanımı, GPU’larda iyi çalışan makine öğrenimi yapılarına benziyor gibi geliyor; yapay zekanın gerçekten ürkütücü, üstel bir aşamaya geçmesi için temelde tekrarlamalı bir yapıya ihtiyaç var gibi görünüyor
LSTM, bu benzetmede dinamik katsayılara sahip bir FIR gibi ara bir hack’e daha yakın; uzun vadede ise nöromorfik yaklaşım verimlilik açısından en iyi seçenek gibi görünüyor
- Sinyal işleme açısından bakıldığında, z-dönüşümü uygulanmış filtre aktarım fonksiyonunun kutup konumuna bağlı olarak IIR çıktısının kararlılık bölgesi dardır; bu yüzden genellikle dikkatli tasarlanması gerekir
  Aksi halde IIR filtre ya üstel olarak 0’a sönümlenir ya da üstel olarak sonsuza büyür
  LSTM gibi RNN hücreleri, sönümlenmeyi engellemek ve bir şeyi “hatırlamak” için doğrusal olmayan kapılar eklenmiş bir sönümlü filtreye daha yakındır
  FIR filtrelerin tasarımı çok daha basittir ve böyle hack’ler olmadan da bellek taşıyabilir
- Nöromorfik yaklaşımın ne olduğunu ve AI/AGI’ye nasıl katkı sağladığını basitçe açıklayan biri olsa iyi olurdu
  Konunun dışından biri olarak ilk izlenimim, bunun yalnızca nöronları simüle etmekten ziyade, birden fazla “ajan”ın veya alt sistemin çeşitli biçimlerde etkileşime girdiği 《The Society of Mind》 tarzı fikirlere benzediği yönünde
- Bir süredir, temelde tekrarlamalı bir yapı olmadan yapay zekanın ürkütücü, üstel aşamaya geçemeyeceğini düşünüyordum; ama artık devasa bağlam pencerelerinin tek başına yeterli olup olmayacağını merak ediyorum
  Tekrarlamalılık daha nöromorfik olabilir ve uzun vadede önemli olabilir; ancak süper zekâ için şart olmayabilir
  Yine de ilgili bilgisi sığ olan konunun dışından biri olduğum için tamamen yanılıyor da olabilirim
- Mevcut GPU benzeri mimarilerde IIR filtreleri büyük ölçekte uygulamanın iyi performans ve ölçeklenebilirlik sağlayıp sağlayamayacağından şüpheliyim
Alanın tamamı uzun ufuk problemi konusunda yetersiz görünüyor
Bugün yaygın kullanılan çözüm ölçek büyütmek, ancak bu, küçük memeli beyinlerinin işlediği ufuk ölçeğine bile hiç yaklaşmıyor
Bir model trilyonlarca parametreye sahip olabilir, ama uzun vadeli görevler ve verimlilikte bir farenin beyni hâlâ kazanacak gibi geliyor
Küçük bir hesaplama bütçesi içinde neredeyse en uygun yolu bulan ve öğrenmeye devam eden küçük, basit ve zarif bir arama algoritması var sanki
Gelecekte mühendislerin bu tür problemleri bir dizüstü bilgisayarda 100 satırlık bir Jupyter Notebook ile çözeceğini düşününce biraz imreniyorum
Uzun ufuk problemine uygun bir yöntem ya da algoritma bulunursa, 2 milyar parametreli bir model bile kısa ve uç düzey akıl yürütme problemleri dışındaki tüm alanlarda mevcut modelleri geride bırakabilir
Olası bir çözüm olarak kusursuz ağırlıklar yerine modelin boyutsallığını zaman içinde genişletmeyi düşündüm
Boyutsallık arttıkça teorik depolama kapasitesi büyür; bir katman birden fazla aykırı noktanın süperpozisyonu gibi çalışırken başka bir katman bunları nasıl kullanacağını bilen iki katmanlı bir modele benzeyebilir
Kayıp yüzeyinde belirli bir görev için birden fazla minimum olduğunu düşünürsek, gerektiğinde modeli yeniden yapılandırıp bu minimumlar arasında hareket ettirerek neredeyse sonsuz yerel minimuma, yani daha yüksek boyutlu belleğe sahip tek bir model oluşturmak da mümkün olabilir
İnsan beyni bir gün içinde binlerce bağlantı kurup koparıyorsa, bu bağlantılar o gün ihtiyaç duyulan farklı minimumlar arasında iç kayıp yüzeyini yönlendiriyor olabilir
- Evet, bu alanda kutsal kâse olan uzun ufuk problemi eksik
  Ama spam e-posta sınıflandırmak için bir fare beynine ihtiyaç yok
  2 milyardan fazla parametreli büyük modeller hâlâ pratikte çalıştırılması çok zor, özel amaçlı kullanım alanlarına daha yakın; sınırlı donanım ve veri kümelerinde yalnızca yararlı problemleri çözen akıllı ve küçük modellere geniş yer var
  İhtiyaca göre boyutu değişen modeller de denendi, ancak sınırlı güç bütçelerinde ya fazla verimsiz kaldılar ya da optimize edilmeleri zordu
  Yine de giderek daha büyük ölçeklere çıkmaya devam edilecekse, sonunda bu tür modellere ihtiyaç duyulması olası görünüyor
  Asıl darboğaz eğitimin kendisindeki bir atılım olabilir
  Geri yayılım kaybı mevcut modelleri bile mükemmel biçimde optimize etmek için fazla basit; gelecekteki daha büyük modeller içinse daha da yetersiz
  Daha iyi bir alternatifin var olduğunun garantisi de yok; bu yüzden mevcut makine öğrenimi yaklaşımının sabit bir sınırı olabilir
Tartışmaların birden fazla yere dağılması hem avantaj hem dezavantaj
Twitter/X’te gördüğüm François Chollet’nin yazısı ilginçti: https://x.com/fchollet/status/1841902521717293273
“RNN’leri yeniden canlandıran ilginç bir çalışma. https://arxiv.org/abs/2410.01201 — Genel olarak farklı yönlerden çıkan son mimarilerin kabaca Transformer’larla başa baş olması, eğri uydurma paradigmasının, yani derin öğrenmede mimarinin temelde önemli olmadığının kanıtıdır.
Eğri uydurma, veri kümesini bir eğri üzerine gömme işidir. Asıl belirleyici veri kümesidir; eğrinin şeklini kısıtlayan belirli hard-code edilmiş süslemeler değil. Eğrinin ifade gücü yeterliyse, büyük ölçekli veri ortamında tüm mimariler aynı performansa yakınsar.”
- “Asıl belirleyici veri kümesidir; eğrinin şeklini kısıtlayan belirli hard-code edilmiş süslemeler değil” sözüne büyük ölçüde katılmıyorum
  Veri kümeleri uzun zamandır çoktu; son 10 yıldaki ilerleme, eğriyi nasıl tasarlayıp veriye uydurduğumuzdan ve daha fazla hesaplama kullanmanın yollarından geldi
  Eski modellerin yaklaşık 1 milyon kat daha fazla hesaplama kullanırsa yeni problemleri aynı şekilde çözebileceği teorik olarak anlamlı olabilir; ama buna “sadece optimizasyon” demek, algoritma tasarımında karmaşıklık analizinin önemini yok sayıp bogosort ile quicksort’un aynı olduğunu söylemeye benziyor
  Aşırı uyumu azaltan düzenlileştirme tekniklerini katman katman eklemeyi ve Deep Q Learning ya da OpenAI o1’in arama uzayı tasarımı gibi daha ajanvari yapıları da düşününce, bunun basit bir optimizasyon olduğu bakışı pek ikna edici değil
  Eski yapılar yalnızca daha fazla hesaplamayla bu tür problemleri çözemiyordu
- Makaleyi tamamen okumadım ama veri kümesi boyutundan çok hesaplama optimizasyonuna odaklanmış gibi görünüyor
  “Eğitim sırasında tamamen paralelleştirilebilir ve uzunluğu 512 olan dizilerde 175 kat daha hızlı” gibi ifadeler var
  Çeşitli mimariler zamanla aynı kayba yakınsasa bile, büyük ölçekli GPU maliyetleri düşünüldüğünde en hızlı yakınsayan mimariyi bulmak oldukça değerli
- Çeşitli süslemelerin üstlendiği büyük rollerden biri eğitim uzayını sınırlamak
  CNN’lerin bilgisayarlı görüyü domine etmesinin nedeni yoğun sinir ağlarının yapamadığı bir şeyi yapmaları değil, pek önemli olmayan birçok bağlantıyı kaldırarak eğitim bütçesinin daha derin ağlara harcanabilmesini sağlamalarıydı
  Benzer şekilde Transformer’ların iyi olmasının nedeni, devasa ağları bir ölçüde verimli biçimde eğitebilmeyi sağlamaları
  Bu makale de RNN eğitimini çok daha hızlı hale getirince pratikte oldukça iyi olabildiğini gösteriyor
  Büyük darboğaz, mimarinin gerçek ifade gücünden çok eğitim hızı ve verimliliği
- MLP’nin evrensel fonksiyon yaklaştırıcı olduğunu düşününce bu oldukça doğal görünüyor
  Devasa bir MLP de Transformer ile aynı sonuçları verebilir
  Sorun ölçek; yeterince büyük bir MLP’yi eğitemiyoruz
  Transformer bir performans optimizasyonu olduğu için yararlı
- Sonuçta kilit nokta hesaplama verimliliği olacak
  Ayda bir kez yeniden eğitmek değil, sürekli yeniden eğitmek istiyoruz; bir ajanın 5 LLM ile konuşması değil, binlerce LLM’in birlikte çalışmasını istiyoruz
Yanıt “hayır”a yakın görünüyor
Bu tür RNN’ler bazı durumlarda yeterince iyi olabilir ve bazı durumlarda Transformer’ı geçebilir; ancak LLM’lerde Transformer’ın evrensel yerine geçeceğini sanmıyorum
Örneğin kullanıcı uzun bir metin verip “bunu Almancaya çevir” derse, Transformer tüm geçmişe geri dönüp bakabilir
RNN’de bağlam uzunluğu sınırsız olsa bile, herhangi bir anda hatırladığı bilgi miktarı gizli durumun içinde bulunanlarla sınırlıdır
İlgili makale: https://arxiv.org/abs/2402.01032
- “Hatırlanan bilgi miktarının gizli durumla sınırlı olması” Transformer için de farklı değil
  Transformer da sonuçta sonlu bir duruma bağlı; sadece bu durum farklı bir şekilde organize edilmiş durumda
- Bu sorun 90’lardan beri RNN’lerin başını ağrıtıyor
  Eski durumun kaç bit aktarması gerektiğine dair bilgi hassasiyeti sorunu, bilgi eskidikçe zayıflayan sönümleme sorunu ve temsillerin karışması ya da üst üste eklenmesi sorunu var
- Karşı argüman, gizli durum boyutu yeterince büyütülürse istenen uzunluktaki diziler için sıkıştırılmış bir temsil taşıyabileceği
  Merak edilen şey, kayan nokta işlem sayısı sabitlendiğinde RNN’nin Transformer ile rekabet edip edemeyeceği; ancak asıl makale bu kısmı doğru dürüst ele almıyor gibi
- Uzun bir metnin ardından “Almancaya çevir” demeye gerek yok
  Bunun yerine “aşağıdakini Almancaya çevir” derseniz, gereken tek şey mevcut görevi ve çok daha az miktarda yakın tarihli girdiyi hatırlamak olur
  Elbette girdiyi işlerken paralel olarak çıktı üretebilme yeteneği de gerekir
Anladığım kadarıyla Transformer’ın sonraki patlamayı mümkün kılmasının nedeni, RNN’in iki büyük sorununu çözmüş olmasıydı
Gradyan sönümlenmesi bağlamı ve model boyutunu sınırlıyordu; paralelleştirmenin zor olması da eğitim verisi boyutunu sınırlıyordu
Şimdi bu iki sorun için çözümler olup olmadığını merak ediyorum
- Transformer, herhangi bir anda sonradan yararlı hale gelen önceki bilgiyi yeniden geri getirebilir
  RNN ise belleği sürekli güncelleyip üzerine yazdığı için, ileride yararlı olacak bilgiyi önceden tahmin edip saklamak zorundadır
  ChatGPT gibi etkileşimli kullanım senaryolarında bu, Transformer için muazzam bir avantajdır
  Bir bağlam verip birkaç tur boyunca soru sorduğunuzda, hangi bağlamın belirli bir soru için önemli olduğu ancak token dizisinin daha ilerilerinde anlaşılabilir
  Daha doğrusu bunun dikkat tabanlı modellerin avantajı olduğunu söylemek gerekir; Jamba gibi iki yaklaşımı başarıyla karıştıran hibrit modeller de var
- Gradyan sönümlenmesi ya da patlaması yalnızca RNN’leri değil, tüm derin yapıları etkiliyordu
  İlk olarak 1997’de önerilen LSTM önce bir çözüm sundu: https://www.semanticscholar.org/paper/Long-Short-Term-Memory...
  Bu bilginin neredeyse unutulmuş gibi görünmesi ilginç
  2014 civarında LSTM son derece popülerdi: https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  https://colah.github.io/posts/2015-08-Understanding-LSTMs/
- Makaleyi üstünkörü okuduğum kadarıyla bu makale “gradyan sönümlenmesi”nden çok özellikle paralelleştirme ve hızlı eğitimi hedefliyor
  Bununla birlikte, yinelemeli birimi basitleştirirken ikisini de iyileştirmiş gibi görünüyor
  Oldukça zekice ve ilginç bir çalışma
  Makale sürekli “10 yıllık mimari” diye adlandırıyor ama aslında çeşitli alanlara uyarlanması kolay olduğu için bugün de muazzam ölçüde kullanılıyor
  Bunu Transformer’ın “rakibi” olarak konumlamak da tamamen adil değil; çünkü Transformer ve RNN birbirini dışlayan şeyler değil, ikisini birleştirmenin de birçok yolu var
  RNN iyileştirmeleri beklenmedik pek çok yerde iyileşmeye yol açabilir
minGRU mimarisinin sadeliğini gerçekten beğendim
Temelde token’dan önerilen gizli durumu ve karışım katsayısını ayrı ayrı doğrusal dönüşümlerle üretip torch.lerp(proposed_hidden_state, previous_hidden_state, mix_factors) ile karıştırıyor
Her katmanın önerilen gizli durumu ve karışım katsayısı yalnızca mevcut token’a bağlı olduğundan, eğitimde olduğu gibi tüm diziyi önceden biliyorsanız hepsini paralel hesaplayıp ardından paralel scan ile doğrusal zamanda birleştirebiliyorsunuz
Küçük ölçekli deneylerde Transformer ve durum uzayı modelleriyle rekabetçi olması, “en iyi PR kod silen PR’dır” diye düşünen tarafımın hoşuna gidiyor
Yine de, güncel en iyi modellerle benzer parametre ve veri ölçeğine büyütmeden bunun büyük B ile bir Breakthrough olup olmadığını bilemeyiz
Eke bakınca tüm hesaplamaları log uzayında yapıyor gibi görünüyor; bunun sayısal kararlılık için olduğu söyleniyor
Çıkıştan tanh kaldırılıp doğrusal uzayda hesaplama yapılırsa değerler patlayabileceği için mi, sezgisel olarak tam oturtamıyorum
Ayrıca bu tür dizi modellemenin çalışıyor olması başlı başına ilginç
Sanki bir kitabın tüm sayfalarını yırtıp rastgele sırayla veriyor, önceki sayfaları hiç bilmeden her sayfa vektörünü ve “bu vektörü önceki tüm sayfa vektörüyle nasıl karıştıracağını” üretmesini istiyor, sonra da ben bunları yeniden sırayla karıştırıp nihai vektörün kitabın tamamının özeti olarak ne kadar iyi olduğuna not veriyorum
Şu anda token’ı önerilen gizli duruma ve interpolasyon karışım katsayısına dönüştürmek için yalnızca iki yoğun doğrusal katman kullanılıyor; bu dönüşüm tek bir doğrusal katman yerine MLP yapılırsa ne olacağını da merak ediyorum
- Dışarıdan bakınca bu mimari, token dizilerini tanımaya yarayan temel işlevi engelliyor gibi görünüyor
  En azından pumping lemma türü bir sorun çıkacak gibi
  [the ][cat ][is ][black ] belirli bir vektöre yakın bir çıktı üretiyorsa, [the ][cat ][is ][black ] dizisini üç kez tekrarlayan bir girdinin o vektöre daha da yaklaşması ve “neden aynı cümleyi üç kez tekrarladın?” vektöründen uzaklaşması gerekmez mi diye düşünüyorum
  Girdi token’ları ile gizli durum arasında doğrusal olmayan bir karışım yoksa, benzer token dizileri arasında epey doğrusal benzerlik kalacak gibi
- Büyük B ile Breakthrough olarak görmüyorum ama yinelemeli sinir ağları her yerde
  Eğitim ve performansı iyileştiren bir basitleştirmeyse, bunun üzerine daha üst düzeyde yeniden karmaşıklık inşa edilecek bir zemin sağlar
- Log uzayı, token olasılıkları çok geniş bir değer aralığına, yani birçok basamaklık farka sahip olduğunda önemlidir
  Maksimum olabilirlik uyumlamasının her zaman log olabilirlik üzerinden yapılmasının bir nedeni var
Üniversite projesi olarak RNN yapmıştım; o zamanlar yok olmuş tarihî teknolojilere ilgim olduğundan, okuldan ayrılınca sinir ağları hakkında bir daha bir şey duymayacağımı düşünüp fırsatı değerlendirmem gerektiğine inanmıştım
Yaptığım şey çalışıyordu ama çok basitti ve eski bir dizüstü bilgisayarda inanılmaz yavaştı
O dizüstünde hiçbir şey hızlı olamazdı ama RNN’in ileri beslemeli ağlardan epey yavaş olduğu aklımda kalmış
Bunun 1980–1990’ların akademik merak konusu olan ölü bir teknoloji olduğuna emindim; bunun ne kadar hızlı değiştiğini görmek tuhaf gelecek kadar şaşırtıcıydı
- Yaşlanmış hissediyorum
  2000 civarında dinamik sistem öğrenimi, örneğin kontrol amaçlı RNN üzerine yüksek lisans tezi yazmıştım; o dönemde oldukça yeni bir konuydu
  Geri yayılımı C++ ile yazıp gece boyunca çalıştırırdım; küçük gradyanlar yüzünden gerçekten yavaştı
  Ağ mimarisi de tek bir gizli katmanda 5 ya da 10 nöron civarındaydı
  Sinir ağları, dersini bulabilirseniz şanslı sayılacağınız küçük bir konuydu; kısa süreliğine gözlerimi kapatıp 2015’te tekrar baktığımda her şey tamamen değişmişti
Yazarların — aralarında Yoshua Bengio da var — makaleyi cevabı bildiklerini öne sürerek değil, bir soruyla bitirmeleri takdir edilecek bir nokta
Bu modeller akademik ölçütlere göre bile çok küçük; bu yüzden herhangi bir sonucun bugünkü LLM ölçeğine mutlaka genişleyeceği söylenemez
Temel sonuç, RNN ailesi ağların da modern alternatifler kadar verimli biçimde eğitilebildiği, ancak nihai performansın rekabetçi olduğunun yalnızca küçük ölçekte doğrulandığı
- “Mutlaka öyle değildir” kısmına vurgu yapmak gerekiyor
  Sonucun da “nihai performansın rekabetçi olduğu yalnızca küçük ölçekte doğrulandı” şeklinde olması gerekmez mi diye düşünüyorum
Makaledeki model, paralelleştirilebilir hale getirildiği için https://arxiv.org/abs/2404.08819 içinde açıklanan nedenlerle “gerçek” bir RNN değil; dolayısıyla teorik olarak geleneksel RNN’lerden daha az güçlü
RNN’lerin aslında iyi olduğu bazı problem sınıflarında zorlanıyor
Buna karşılık https://arxiv.org/abs/2405.04517 “gerçek” RNN bileşenleri içeriyor ve Transformer’ın zorlandığı durum izleme problemlerinde büyük iyileşme gösteriyor
- Bunlar da gerçek RNN
  Hâlâ önceki gizli duruma bağlılar; yalnızca gating ona bağlı değil
  Temel RNN denklemi paralel prefix scan algoritması ile paralelleştirilebilir
Makaleyi ayrıntılı incelemedim; biri yanıtlayabilirse iyi olur
Söylediğiniz gibi RNN’den gizli durumu kaldırınca geriye ne kalıyor? Tek bir tokenden tahmin yapan bir MLP mi?
- Gizli durumu tamamen kaldırmış değiller; yalnızca giriş kapısı, unutma kapısı ve güncelleme kapısından kaldırmışlar
  Makaleyi tamamen sindirmiş değilim ama GRU için bunun, gizli durum güncelleme maskelemesinin — yani makaledeki formüllerde z_t ve r_t değerlerinin — yalnızca yeni girdiye bağlı olduğu, girdi ile önceki gizli durumun toplamına bağlı olmadığı anlamına geldiği anlaşılıyor
- Tamamen kaldırılmış değil; paralel scan ile hesaplanabilmesi için yalnızca belirli bağımlılıklar kaldırılmış
  Hâlâ gizli durum var
  Mamba’da yapılan işle bir ölçüde benzer
- Kabaca göz attığımda, durum güncellemesini sıralı çalıştırmak gerekmeyecek şekilde ayarlayıp paralel scan ile çalıştırılabilir hale getirmişler gibi görünüyor
- İşin püf noktası, özyinelemeli bağımlılığın doğrusal kalmasını sağlamak; böylece paralel eğitim mümkün oluyor

Her şey RNN’lerden mi ibaretti?

Transformer sonrası yeniden gündemde olan yinelemeli modeller

minLSTM ve minGRU’nun temel fikri

İlgili okumalar

1 yorum

Hacker News yorumları