Differential Transformer
(arxiv.org)-
Transformer, çoğu zaman ilgisiz bağlama aşırı dikkat ayırma eğilimi gösterir.
-
Diff Transformer, ilgili bağlama yönelik dikkati güçlendiren ve gürültüyü ortadan kaldıran yeni bir yaklaşım önerir.
-
Ayırt edici dikkat mekanizması
- Dikkat skorları, iki ayrı softmax dikkat haritası arasındaki fark üzerinden hesaplanır.
- Bu çıkarma işlemi gürültüyü temizler ve seyrek dikkat örüntülerinin ortaya çıkmasını teşvik eder.
-
Deney sonuçları
- Dil modelleme deneylerinde Diff Transformer, çeşitli model boyutları ve eğitim token ayarlarında Transformer'dan daha iyi performans gösterir.
- Pratik uygulamalarda uzun bağlam modelleme, temel bilgiye erişim, halüsinasyon azaltma, bağlam içi öğrenme ve aktivasyon aykırı değerlerinin azaltılması gibi alanlarda kayda değer avantajlar sunar.
-
Pratik faydalar
- İlgisiz bağlamdan daha az etkilenerek soru-cevap ve metin özetlemede halüsinasyonları azaltabilir.
- Bağlam içi öğrenmede doğruluğu artırmanın yanı sıra, sıra dönüşümlerine karşı dayanıklılığı da yükseltir.
-
Sonuç
- Diff Transformer, büyük dil modellerini geliştirmek için son derece etkili ve umut verici bir mimari olarak konumlanır.
GN⁺ özeti
- Diff Transformer, Transformer'ın sınırlamalarını aşmak için önerilen yeni bir mimaridir; ilgili bağlama yönelik dikkati güçlendirmeye ve gereksiz gürültüyü ortadan kaldırmaya odaklanır.
- Bu çalışma, büyük dil modellerinin performansını iyileştirir ve özellikle uzun bağlam modelleme gibi pratik uygulamalardaki faydaları vurgular.
- İlgisiz bağlamdan daha az etkilenerek halüsinasyonları azaltmaya, ayrıca bağlam içi öğrenmenin doğruluğunu ve dayanıklılığını artırmaya katkı sağlar.
1 yorum
Hacker News görüşleri
Yaygın
softmaxdikkat mekanizması, alakasız bilgilere 0'a yakın dikkat ağırlıkları atamakta zorlanıyor. Yeni yöntem bunu çözüyor, ancak negatif dikkat ağırlıkları oluşma ihtimali de var. Ağın bunu nasıl çözdüğünü anlamak zorBu tür ayrıntılı çalışmalar çok ilginç. Değişiklik küçük olduğu için başkaları tarafından kolayca uygulanabilir. Ancak "2 Differential Transformer" bölümünün son cümlesi net değil; bu da karşılaştırmayı etkileyebilir
Makine öğreniminin bu yeni dünyasında neden böyle yöntemlerin işe yaradığı kafa karıştırıcı. Gürültü engelleyen kulaklık benzetmesi yardımcı oluyor, ama burada sinyal ile gürültüyü net biçimde ayıramıyoruz
Differential attention, dikkat gürültüsünü gidermek için iki
softmaxdikkat işlevi arasındaki farkı kullanıyor. Bu mimari, daha yüksek kaliteli bir model için iki kat dikkat belleği kullanıyor ya da benzer kalitede daha az parametre kullanıyorİki dikkat grubu aynı şeyi öğrenirse, dikkat maskeleri birbirinden çıkarılır ve dikkat 0'a düşerek kayıp yükselir. Kaybı azaltmak için farklı şeyler öğrenmeleri gerekir. Bir grup ilgili bağlama, diğeri ise ilgisiz bağlama odaklanan bir strateji öğrenir
λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1))ayarının deneysel olarak iyi çalıştığı belirtiliyor. Bu formülün arka planını merak ediyorumKonumsal gürültünün giderilmesinin ne kadar değerli olduğunu merak ediyorum.
alibisürümü ilealibitemel çizgisi için bir karşılaştırma tablosu görmek isterdim. Araştırmacıları tebrik ederimBurada neyin kaybedildiğini merak ediyorum. Yaratıcılık ya da kavramlar arasında enterpolasyon yapabilme yeteneği üzerinde nasıl bir etkisi var, bunu merak ediyorum. Halüsinasyon ile yaratıcılığın birbiriyle oldukça ilişkili olduğunu düşünüyorum
Sorunu çözmek güzel ama yaklaşımın yanlış olduğunu düşünüyorum. Tüm bağlamı hiyerarşik bir şekilde kavramak gerekir. Dikkat vektörüyle aynı girdiyle fark vektörünü hesaplarsanız, dikkat vektörünü doğru şekilde nasıl düzelteceğinizi bilemezsiniz
softmaxdeğerleri 0'a itemezken, ikisoftmaxharitasını çıkararak 0 üretmenin mümkün olup olmadığını merak ediyorum