Differential Transformer: attention gürültüsünü bastıran Transformer

(arxiv.org)

1 puan yazan GN⁺ 2024-10-09 | 1 yorum | WhatsApp'ta paylaş

decoder-only Transformer, LLM’lerin standart mimarisi haline geldi; ancak uzun bağlamlarda kritik bilgileri kaçırıp alakasız token’lara dikkat dağıtan attention gürültüsü performansı sarsıyor
differential attention, query ve key’i iki gruba ayırıp iki softmax attention map oluşturduktan sonra, öğrenilebilir λ uygulanmış ikinci haritayı çıkararak nihai attention score’unu hesaplıyor
DIFF Transformer, model boyutu, eğitim token’ları ve bağlam uzunluğunu büyüten deneylerde Transformer’dan daha iyi sonuçlar gösterdi; benzer performans için gereken model boyutu veya eğitim token’ı yaklaşık %65 düzeyinde kaldı
Uzun bağlam modelleme, kritik bilgi erişimi, halüsinasyon azaltma, in-context learning, matematiksel akıl yürütme ve activation outlier azaltmada avantaj gösterirken; QA ve özetlemede alakasız bağlamın etkisini azaltıyor
Genel yerleşimi Transformer ile aynı tutup yalnızca softmax attention’ı değiştirdiği için, parametre sayısı ve hesaplama maliyeti korunurken FlashAttention da yeniden kullanılabiliyor

Transformer’ın attention gürültüsü sorunu

decoder-only Transformer, LLM’lerin fiilî standart mimarisidir ve merkezinde, dizi içindeki token önemini softmax ile ağırlıklandıran attention mechanism bulunur
LLM’ler bağlam içindeki kritik bilgiyi doğru biçimde bulmakta zorlanır; özellikle alakasız bağlam arttıkça doğru cevabın ipuçları daha kolay gömülür
Belge yığınının ortasına eklenmiş doğru cevabın bulunması gereken örneklerde, Transformer doğru cevaba düşük attention score verirken alakasız bağlama aşırı score dağıtma eğilimi gösterir
Alakasız bağlama dağıtılan ve göz ardı edilmesi zor bu attention score’lar attention noise olarak işlev görür
Figure 1’deki Multi-Needle Retrieval örneği, Transformer ve Differential Transformer doğruluğunu sırasıyla %55 ve %85 olarak gösterir

Differential attention nasıl çalışır

DIFF Transformer, sequence modeling ve LLM’ler için temel bir mimaridir; mevcut Transformer’ın makro yerleşimini korur ve standart softmax attention’ı differential attention ile değiştirir
Girdi X üzerinden query, key ve value projekte edilir; ancak query ve key, Q1, Q2, K1, K2 olmak üzere iki gruba ayrılır, value ise V olarak kalır
attention çıktısı, iki softmax attention map’in farkı olarak hesaplanır
- DiffAttn(X) = (softmax(Q1K1^T / √d) − λ softmax(Q2K2^T / √d))V
- Yapı, ilk attention map’ten ikinci attention map’i çıkararak ortak gürültüyü temizler
λ öğrenilebilir bir scalar’dır ve öğrenme dinamiklerini hizalamak için şu şekilde yeniden parametrelenir
- λ = exp(λq1 · λk1) − exp(λq2 · λk2) + λinit
- Temel deneylerde λinit = 0.8 − 0.6 × exp(−0.3 · (l − 1)) kullanılır
- Tüm katmanlarda aynı λinit, örneğin 0.8, kullanma yaklaşımı da incelenmiş ve ablation çalışmalarında başlatma stratejisindeki farklara karşı görece dayanıklı performans görülmüştür
Bu yaklaşım, iki sinyalin farkıyla common-mode noise’u kaldıran differential amplifier ve gürültü engelleyici kulaklıkların fikrine benzer
Naderi ve arkadaşları, differential attention’ın attention matrix’in spektral dağılımını daha dengeli hale getirerek rank collapse sorununu etkili biçimde çözdüğünü kanıtladı

Multi-head yapı ve genel mimari

multi-head differential attention, her head için farklı projection matrix kullanır; aynı katman içinde scalar λ, head’ler arasında paylaşılır
Her head çıktısına bağımsız olarak RMSNorm uygulanır, ardından (1 − λinit) ile çarpılır; sonra head’ler channel dimension boyunca concatenate edilip çıktı projeksiyonu WO üzerinden geçirilir
Figure 2’deki GroupNorm gösterimi, her head’e bağımsız normalization uygulandığını vurgular
- differential attention daha sparse örüntüler gösterme eğilimindedir; bu yüzden head’ler arası istatistiksel bilgi daha çeşitlidir
- head bazlı normalization, concatenate öncesi her head’i normalize ederek gradient istatistiklerini iyileştirir
Tüm DIFF Transformer katmanı iki modülden oluşur
- MultiHead(LN(Xl)) + Xl
- SwiGLU(LN(Yl)) + Yl
Yapı olarak pre-RMSNorm ve SwiGLU kullanılır; bu da LLaMA ailesindeki iyileştirmeleri takip eder

Verimlilik ve eğitim kararlılığı

differential attention, FlashAttention’ı doğrudan yeniden kullanabildiği için model verimliliğini önemli ölçüde artırabilir
head sayısı h = dmodel / 2d olarak ayarlanır; burada d, Transformer’daki head dimension ile aynıdır
Bu ayar, Transformer ile parametre sayısı ve hesaplama karmaşıklığını eşleştirmek içindir
Head normalization sonrasında sabit çarpan (1 − λinit) kullanılarak gradient akışı Transformer ile hizalanır
Appendix G, genel gradient akışının Transformer’a benzer kaldığını gösterir; bu da benzer hyperparameter’ların devralınabilmesini ve eğitim kararlılığının korunmasını sağlar

Deney sonuçları ve uygulama etkisi

Dil modelleme deneyleri, parameter count, training tokens ve context length artırılarak DIFF Transformer’ı ölçeklendirdi
Scaling curve üzerinde DIFF Transformer, Transformer ile benzer dil modelleme performansına ulaşmak için gereken model boyutu veya eğitim token’ında yaklaşık %65 seviyesinde kalır
Downstream task’larda da Transformer’dan daha iyi performans gösterdi ve long-sequence değerlendirmelerinde bağlam uzadıkça bunu daha etkili kullandı
Kritik bilgi erişiminde, doğru span’e daha yüksek attention score; alakasız bağlama ise daha düşük score verme örüntüsü görüldü
QA ve text summarization’da alakasız bağlamdan daha az etkilenerek hallucination sorununu hafifletir
in-context learning’de doğruluğu artırırken, kronik bir dayanıklılık sorunu sayılan order permutation karşısında da daha sağlamdır
activation outlier’ları azaltması, quantization için yeni fırsatlar sunar

1 yorum

GN⁺ 2024-10-09

Hacker News yorumları

Buradaki temel sezgiyi kaçırıyor gibiyim. Sıradan softmax attention'ın alakasız şeylere sıfıra yakın dikkat vermekte zorlanması sorununu anlıyorum; çıkarma yapısı olduğunda da aykırı aktivasyon değerleri olmadan tam olarak ya da neredeyse 0 olan dikkat ağırlıkları üretilebileceğini anlıyorum.
Ancak bu yapı negatif attention ağırlıkları da kolayca üretecek gibi görünüyor; bu da değer vektörünün negatifine pozitif dikkat vermekle aynı şey gibi duruyor. Sezgisel olarak, ilgilenilmeyen şeylerin hepsini 0 civarında tutan dengeyi kurmak zor görünüyor. Yine de Figure 1 bunun iyi çalıştığını gösterdiği için olasılığından şüphe etmiyorum; ama ağın bunu somut olarak nasıl başardığını zihnimde canlandıramıyorum
- Sıradan softmax ve attention'da bir hata var. Softmax exp()/1+∑exp() olmalı.
  Paydada 1 eklenmesi kritik nokta. Negatif sonsuzda softmax herhangi bir epsilon değil, 0 olabilir. x'e ek bir 0 değeri koymak da aynı etkiyi verebilir. Dezavantajı, bunu düzeltmek için modeli baştan yeniden eğitmek gerekmesi
- Negatif ağırlıklara izin verip ardından ReLU gibi bir şeyden geçirmemek modeli biraz engelliyor gibi geliyor. Ama bu işlem model için sanılandan daha kolay bir problem olabilir.
  İlk attention ağırlığı görseline bakarsanız, gürültü bölgesinde gerçekten negatif skorlar var. Yine de o bölgeye verilen dikkat zaten çok küçük. İkinci attention haritasının yalnızca birincideki gürültüyü tahmin etmesi gerekiyor; birinci girdiye tamamen erişebildiği için bunu oldukça doğru yapabileceği bir iş.
  Makaledeki gerçek dünya benzetmesine dönersek, gürültü önleyici kulaklıklar mikrofona kulakta duyulan sese erişim sağladığı için doğru bir iptal sinyali üretebilir. Benzer şekilde ikinci attention haritası da birinciye neyin girdiğini bildiğinden buna karşılık gelen iptal sinyalini üretebilir. Mükemmel değil, ama gürültü önleyici kulaklıklar da mükemmel değil; yine de %99'a kadar yaklaşabiliyor ve bu performans artışı için yeterli
- Sezgisel olarak, modelin eğitim sırasında lambda'yı 0'a optimize etmesi çok kolay olacak gibi geliyor. O zaman aslında aşırı karmaşık bir parametre budama düzeneği takılmış sıradan bir Transformer'a dönüşür.
  Budama, parametre sayısını şaşırtıcı derecede iyi azaltan bir yöntem olarak literatürde zaten epey yerleşmiş durumda ve yaklaşık %40'a kadar azaltabiliyor. Gerçek model tam olarak böyle çalışmayabilir; ama sonuçta sıradan bir Transformer'ı yaklaştıran bir yol olsa da şaşırtıcı olmaz
- Negatif değerler ifade gücünü artırabilir
Çok zekice. Bu tür ince işleri seviyorum; değişiklik de küçük olduğundan başkalarının kolayca uygulayabileceği görünüyor. Harika.
Yine de "2 Differential Transformer" bölümünün girişindeki son cümle beni biraz endişelendirdi. Önceki makalelerdeki iyileştirmeleri kullandıklarını söylüyor; ama dilbilgisel bağlamdan bu iyileştirmenin hem sıradan Transformer'a hem de diff Transformer'a uygulanıp uygulanmadığı belirsiz. Uygulanmadıysa karşılaştırma bulanıklaşır. Hemen önceki cümledeki "main difference" ifadesi bende alarm yaktı.
Elbette iyi niyetli araştırmacılar bunun farkında olup özellikle açıklama gereği duymamış olabilir. Ama bu alandaki bazı yayınlanmış araştırmalarda ne kadar dikkatli olunsa azdır
- Evet. Gerçekten iyi görünüyor. Eğitim süresi, eğitim token'ı başına ve model boyutu başına perplexity iyileştirmeleri genel olarak görülüyor.
  MoE yapısını akla getiriyor; o dünyada çıkarım işinin bir kısmını ya da tamamını ele alacak en uygun küçük model seçiliyor. Transformer alternatif olasılıkları ayırt etmeye zorlanırken MoE'nin de benzer bir kazanç elde edip etmediğini merak ediyorum.
  Her durumda sayılar korunursa yaygın şekilde benimsenecek gibi. Dediğin gibi, esasen dezavantajı yok gibi görünüyor ve yeniden üretmesi de kolay görünüyor
- Bahsettikleri diğer iki değişiklik zaten yaygın biçimde benimsenmiş durumda ve karşılaştırma yaptıkları bazı modellerde de yer alıyor. Sanırım özgün Transformer mimarisine kıyasla yapılan değişiklikleri eksiksizlik adına listelemişler
Makine öğreniminin bu yeni dünyasındaki çoğu şey gibi, bunun neden çalıştığı gerçekten kafa karıştırıcı
Gürültü engelleyen kulaklık benzetmesi yardımcı oluyor, ama o durumda neyin sinyal neyin gürültü olduğunu açıkça biliyoruz. Burada da biliyorsak, başta neden gürültü engelleme işi yapmamız gerektiğini anlamıyorum
- Tek bir softmax tam olarak 0'ı tahmin edemez, yalnızca çok küçük sayılar tahmin edebilir. Toplanacak çok değer olduğunda bu küçük değerler çıktıya çok sayıda alakasız şeyi karıştırır ve makalenin dediği gürültü ile kirletir
  Daha kötüsü, düşük attention değerlerinin gradyanı çok küçülür; bu yüzden bu tür hataları geri almak için çok sayıda ağırlık güncellemesi gerekir. Buna karşılık iki softmax'in çıktısını çıkarınca model bazı değerler için tam olarak 0 olan ağırlıkları tahmin edebilir ve makul bir gradyan akışını da korur
  Yani model neyin gürültü olduğunu zaten biliyor, ancak tek softmax bunu dışlamayı zorlaştırıyor. Ayrıca tek softmax'te tüm head'lerin çıktısı değer vektörlerinin konveks zarfı içinde kalmaya zorlanırken, bu varyantta her head kendi lambda'sını seçerek çıktı aralığını değerlerin önceden belirlediği konveks zarfın dışına taşıyabiliyor. Bu yüzden genel modelin ifade gücü artıyor
- Gürültü engelleyen kulaklıklar burada muhtemelen yanlış benzetme
  Daha iyi bir örnek, profesyonel seste ve Ethernet, HDMI, USB gibi birçok dijital sinyal protokolünde kullanılan diferansiyel sinyal. Toprağı referans alan tek bir hat kullanmak yerine, sinyal iki hat arasındaki fark olarak gönderilir. İki hat aynı sinyali zıt polaritede taşır ve yan yana ilerledikleri için dış gürültü ikisine de aynı şekilde uygulanır
  Gerilim değişir, ama iki hat arasındaki gerilim farkı aynı kalır. Alıcı tarafta iki gerilim çıkarılınca gürültü basitçe birbirini götürür
- Benzetme aramayın; bunu yalnızca yeni bir matematiksel yetenek eklenmiş gibi görmek yeterli. Negatif attention'ı mümkün kılarak ağın attention hesabında "bu token'ın katkısını çıkarmak istiyorum" diyebilmesini sağlıyor. Önceden yalnızca ne kadar ekleneceğini azaltabiliyordu
  Bunu yapmanın basit bir yolu softmax'i kaldırmak ya da sigmoid kullanmak olurdu; ancak pratikte softmax daha iyi çalışıyor gibi görünüyor
- Bunun çalışmasının nedeni için bir hipotez, RoPE'nin dezavantajını hafifletmesi
  Basitçe söylersek RoPE, attention yaparken sorgu ile anahtarın birbirinden ne kadar uzakta olduğuna dair bilgiyi modele veren modern bir strateji. Şu anda mevcut en iyi strateji, ancak uzaktaki token'lar arasındaki bazı bağlantıları istenenden çok daha güçlü hâle getiren büyük bir dezavantajı var. Xpos (https://arxiv.org/pdf/2212.10554) da Microsoft'un RoPE sorununu ele aldığı bir makale; 4. sayfadaki Figure 1'e bakarsanız sinüs dalgası biçimindeki attention şiddetinin görsel yorumunu görebilirsiniz. Aslında istenen şey pürüzsüz olması
  Differential Transformer'ın özellikle uzun dizilerde iyi çalışmasının büyük nedeni bence şu: q1 ve q2 herhangi bir token'la eşleşmediğinde bile RoPE'nin göreli şiddeti aynı değeri aldığı için gürültü birbirini götürüyor. Yalnızca amaçlanan eşleşme kalıyor; ancak bunun bedeli RoPE'nin normalde getirdiği değerin bir miktar zayıflaması
  Elbette bu sadece bir hipotez. İkisini de alibi attention (https://arxiv.org/pdf/2108.12409) kullanan bir baseline ile karşılaştırarak deney yapmak bunu kolayca doğrulayabilir. alibi'nin bu yöntemin hafifletemeyeceği başka ödünleşimleri var, ama yine de gerçekten ilginç bir sonuç
- Buradaki önceki çalışmalardan bazıları ladder networks ve, biraz el yordamıyla söylersek, residual nets. İkisi de nihai sonucu doğrudan tahmin etmek yerine modeli önceki tahminin hatasını azaltacak şekilde eğitmek olarak yorumlanabilir
  Neden çalıştığına dair sezgi, gradyan inişi manzarasını biraz daha dostça hâle getirip küçük adımlarla öğrenmeyi kolaylaştırması gibi görünüyor. Çünkü artık ağın kendisi, başlangıçta tahminde çok hata yapıp zamanla iyileşeceği fikrine açıkça uyacak şekilde tasarlanıyor
"Differential attention takes the difference between two softmax attention functions to eliminate attention noise" ifadesini doğru anladıysam, bu yapı attention belleğini 2 kat kullanma karşılığında daha yüksek kaliteli bir model ya da benzer kalitede daha az parametre elde etme ödünleşimi gibi görünüyor
"6.8B-size DIFF Transformer achieves a validation loss comparable to 11B-size Transformer, requiring only 62.2% of parameters" kısmına bakınca birkaç soru doğuyor. Parametre sayısı yalnızca %60 ise, attention alanının iki kat olması bunu telafi edip geleneksel Transformer ile benzer bellek özellikleri sağlıyor mu; ayrıca bu ödünleşimin eğitim ile çıkarım arasında belirgin şekilde değişip değişmediğini merak ediyorum
- İkinci attention mekanizması için gereken ek parametrelerin de o 6.8B parametreye dahil olduğunu anladım. Yani bu, standart bir Transformer olsaydı sahip olacağı varsayımsal parametre sayısı değil, modelin toplam parametre sayısı. Bu yüzden sonuç iki kat etkileyici
  Makalede şöyle deniyor: "We set the number of heads h = dmodel/2d, where d is equal to the head dimension of Transformer. So we can align the parameter counts and computational complexity." Başka bir deyişle, bunu telafi etmek için katman başına attention head sayısını yarıya indiriyorlar
- Toplam head sayısını yarıya indirip V ve O'yu iki katına çıkararak ek bellek ve hesaplamayı hafifletmiş gibi görünüyorlar. Gerçek matematiği kontrol etmedim, ancak sabit çarpanlar ve çıkarma gibi ucuz işlemler hariç, kayan nokta işlem sayısının eşdeğer olacağını düşünüyorum
- RAM tasarrufu muhtemelen dengelenir, ancak depolama sırasında gereken alanı azaltır ve depolama hızı ile model boyutuna bağlı olarak ilk başlatma süresini de düşürebilir. Bu yüzden tüketici cihazlarındaki düşük seviye modeller için fena olmayabilir
- KV cache boyutu iki katına çıkar ve büyük bağlam boyutlarında bu oldukça büyük, GB ölçeğinde bir miktara ulaşabilir
"We empirically find that the setting λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) works well in practice" ifadesinin arkasında nasıl bir hikâye olduğunu merak ediyorum
- 0.8 iyi çalışıyor, ama alt katmanlarda daha düşük bir başlangıç değeri deneyelim. Yaklaşık 0.2 olsun. Güzel, 0.2 ile 0.8 arasında gidip gelip yavaşça 0.8'e yaklaşan bir formüle ihtiyacımız var. Sayılarla 20 dakika oynayıp “bu kadarı yeter” demişler gibi geliyor
- Gerçekten çok şey, analog kadranı çevirip deneyerek ya da dinleyerek kabul edilebilir olana kadar ayarlama yöntemiyle eniyileniyor
- Bu formül, en azından eğitimin başlarında, ön katmanlarda, yani küçük l değerlerinde negatif attention terimini arka katmanlara göre daha küçük yapıyor gibi görünüyor. Makul. Sonunda gerçekten bakılması gereken birkaç konuma karar vermeden önce her şeye biraz dikkat vermek istersiniz
  Ancak makalede yazarın bu tercihi ayrıca tartışmadığını düşünüyorum
Başta anlamadığım temel nokta, iki attention grubunun aynı şeyi öğrenmesi durumunda ne olacağıydı. Attention maskelerini birbirinden çıkardıkları için ikisi de benzer değerler üretirse toplam attention 0'a düşer ve kayıp büyür
Bu yüzden kaybı azaltmanın tek yolu, farklı şeylere dikkat etmeyi öğrenmeleridir. Öğrenebilecekleri en basit stratejilerden biri, makalenin iddia ettiği gibi, bir grubun ilgili bağlama, diğerinin ilgisiz bağlama odaklanmasıdır. Böylece bir grup gürültüyü, diğeri sinyali öğrenir. Gerçekte bu kadar keskin ayrılmaz, ama anlamak için bir basitleştirme olarak yararlı
- İlginç olan kısım basit çıkarma değil, ikinci softmax'in yalnızca bir kısmının çıkarılması
  İki kopya aynıysa softmax çıktılarının da aynı olacağını ve farkın her yerde 0'a ineceğini düşününce bu mantıklı. Ama ölçeklenmiş bir kopyayı çıkarınca, farkı normalize etme süreci sinyal değerlerini gürültüye göre daha fazla öne çıkarıp normalizasyon öncesine kıyasla sinyali belirginleştiriyor gibi görünüyor
- İki grubun attention'ının aynı şeyi öğrenmesi durumunda ne olduğuna dair, kendi şaşkınlık deneyimimiz ve faydayla ilgili bir benzetme olup olmadığını merak ediyorum
  Bir attention head'i başka bir head'in öğrendiği şeye şaşırırsa ağırlığı artırıyor, ikisi de aynı şeyi bulursa bunu pek şaşırtıcı saymayıp ağırlığı düşürüyor gibi
  Kabul etmek gerekirse “şaşkınlık” bilgi tabanımda epey büyük bir yer kaplıyor[1][2][3]. Öznel bir duygu ve zihnin uyum sağlama işlevi olarak, bildiğimiz en karmaşık adaptif sistemlerden biri
  [1] https://plus.maths.org/content/information-surprise
  [2] https://blakeelias.name/papers/Multi-Agent-Cooperation-Intri...
  [3] https://complexity.simplecast.com/episodes/81/transcript
- İkisinin de aynı şeyi öğrenmesi gibi küçük bir ihtimal olabilir, ama büyük bir sorun olacak kadar olası görünmüyor
- Kayıp fonksiyonu ikisinin aynı şeyi öğrenmesine ceza da veriyor olabilir mi
Burada neyi kaybettiğimizi merak ediyorum. Mutlaka bir ödünleşim vardır
Yaratıcılığı ya da kavramlar arasında interpolasyon yapma yeteneğini etkileyip etkilemediğini de merak ediyorum. Halüsinasyon ile yaratıcılık oldukça ilişkili görünüyor. Halüsinasyonu, insanların uygun bulduğu interpolasyon uzayından sapmış şey olarak anlıyorum
- Halüsinasyon ile yaratıcılığın neden ilişkili göründüğünü bilmiyorum. Ben bunu sadece örnekleme hatası olarak görüyorum
  Elbette hatalar bazen ilham verebilir, ama yaratıcılık hatadan çok daha fazlasıdır
  Bu tür dil modelleri sonraki token tahminleyicileridir. Sonraki token, modelin çıktıladığı olasılık uzayından örneklenerek tahmin edilir. Bu örnekleme süreci deterministik olmayabilir
  Halüsinasyon, bu örneklemenin sonucu olarak yanlış ya da amaçlanmayan cümleler oluşturan token'ların ortaya çıkmasıdır. Modelin ürettiği her şeyi halüsinasyon olarak da görebiliriz, ama biz modeli, istediğimiz şeyleri halüsinasyon etme olasılığı daha yüksek bir uzay üretmesi için eğitiriz. Aksi halde yalnızca anlamsız gürültü üretir
  “Halüsinasyon”, açıklamaya çalıştığı şey için gerçekten berbat bir kelime
- Ödünleşimlerden biri hız ve bellek. Attention bloğunda Q ve K ağırlıkları iki kat fazla olduğu için, H100'lerinde işlem hacmi yaklaşık %10 azalmış. Ek A'daki Tablo 7'de yer alıyor
- Her halüsinasyon yaratıcılık değildir. Bir RAG uygulamasını düşünürsek, model verilen belgeleri izlemelidir
Buradaki değerin ne kadarının RoPE'nin yarattığı konumsal gürültüyü dengelemesinden geldiğini merak ediyorum. Yalnızca buradaki RoPE modellerini değil, alibi sürümüyle alibi temel çizgisini karşılaştıran bir tablo da görmek isterdim
Yine de muazzam bir iyileştirme; araştırmacıları tebrik ederim
Burada olan şey, softmax'in değerleri 0'a itememesi ama iki softmax haritasını çıkarınca 0 çıktı üretilebilmesi mi
- Ardından gelen soru şu: 0 üretme olasılığı son derece düşük değil mi
- Ya da negatif değerler de mümkün
Çözülmesi gereken iyi bir problem, ama yaklaşımın yanlış olduğunu düşünüyorum
Neye dikkat edildiğini ve tüm bağlamı bilmek için bunun hiyerarşik bir şekilde yapılması gerekir. Fark vektörü attention vektörüyle aynı girdiden hesaplanıyorsa, attention vektörünü nasıl doğru biçimde değiştireceğini nasıl bilebilir, anlamıyorum
- Sonuçta her şey, geri yayılım türevinin söylediği yöne ve onun gradyanına orantılı olarak ayarlanmıyor mu? Başka bir deyişle geri yayılım sistemi çalıştığı sürece, ağırlıkların hangi yönde ayarlanması gerektiği sorun olmaz gibi geliyor

Differential Transformer: attention gürültüsünü bastıran Transformer

Transformer’ın attention gürültüsü sorunu

Differential attention nasıl çalışır

Multi-head yapı ve genel mimari

Verimlilik ve eğitim kararlılığı

Deney sonuçları ve uygulama etkisi

İlgili okumalar

1 yorum

Hacker News yorumları