1 puan yazan GN⁺ 2024-10-09 | 1 yorum | WhatsApp'ta paylaş
  • Transformer, çoğu zaman ilgisiz bağlama aşırı dikkat ayırma eğilimi gösterir.

  • Diff Transformer, ilgili bağlama yönelik dikkati güçlendiren ve gürültüyü ortadan kaldıran yeni bir yaklaşım önerir.

  • Ayırt edici dikkat mekanizması

    • Dikkat skorları, iki ayrı softmax dikkat haritası arasındaki fark üzerinden hesaplanır.
    • Bu çıkarma işlemi gürültüyü temizler ve seyrek dikkat örüntülerinin ortaya çıkmasını teşvik eder.
  • Deney sonuçları

    • Dil modelleme deneylerinde Diff Transformer, çeşitli model boyutları ve eğitim token ayarlarında Transformer'dan daha iyi performans gösterir.
    • Pratik uygulamalarda uzun bağlam modelleme, temel bilgiye erişim, halüsinasyon azaltma, bağlam içi öğrenme ve aktivasyon aykırı değerlerinin azaltılması gibi alanlarda kayda değer avantajlar sunar.
  • Pratik faydalar

    • İlgisiz bağlamdan daha az etkilenerek soru-cevap ve metin özetlemede halüsinasyonları azaltabilir.
    • Bağlam içi öğrenmede doğruluğu artırmanın yanı sıra, sıra dönüşümlerine karşı dayanıklılığı da yükseltir.
  • Sonuç

    • Diff Transformer, büyük dil modellerini geliştirmek için son derece etkili ve umut verici bir mimari olarak konumlanır.

GN⁺ özeti

  • Diff Transformer, Transformer'ın sınırlamalarını aşmak için önerilen yeni bir mimaridir; ilgili bağlama yönelik dikkati güçlendirmeye ve gereksiz gürültüyü ortadan kaldırmaya odaklanır.
  • Bu çalışma, büyük dil modellerinin performansını iyileştirir ve özellikle uzun bağlam modelleme gibi pratik uygulamalardaki faydaları vurgular.
  • İlgisiz bağlamdan daha az etkilenerek halüsinasyonları azaltmaya, ayrıca bağlam içi öğrenmenin doğruluğunu ve dayanıklılığını artırmaya katkı sağlar.

1 yorum

 
GN⁺ 2024-10-09
Hacker News görüşleri
  • Yaygın softmax dikkat mekanizması, alakasız bilgilere 0'a yakın dikkat ağırlıkları atamakta zorlanıyor. Yeni yöntem bunu çözüyor, ancak negatif dikkat ağırlıkları oluşma ihtimali de var. Ağın bunu nasıl çözdüğünü anlamak zor

  • Bu tür ayrıntılı çalışmalar çok ilginç. Değişiklik küçük olduğu için başkaları tarafından kolayca uygulanabilir. Ancak "2 Differential Transformer" bölümünün son cümlesi net değil; bu da karşılaştırmayı etkileyebilir

  • Makine öğreniminin bu yeni dünyasında neden böyle yöntemlerin işe yaradığı kafa karıştırıcı. Gürültü engelleyen kulaklık benzetmesi yardımcı oluyor, ama burada sinyal ile gürültüyü net biçimde ayıramıyoruz

  • Differential attention, dikkat gürültüsünü gidermek için iki softmax dikkat işlevi arasındaki farkı kullanıyor. Bu mimari, daha yüksek kaliteli bir model için iki kat dikkat belleği kullanıyor ya da benzer kalitede daha az parametre kullanıyor

    • 6.8B boyutundaki DIFF Transformer, 11B boyutundaki Transformer ile benzer doğrulama kaybına ulaşıyor ve bunun için parametrelerin yalnızca %62,2'sine ihtiyaç duyuyor
    • Parametrelerin %60'ı ile geleneksel transformer'a benzer bir bellek profilinin korunup korunamadığını merak ediyorum
    • Eğitim ve çıkarım arasında bu tür ödünleşimlerin belirgin biçimde değişip değişmediğini merak ediyorum
  • İki dikkat grubu aynı şeyi öğrenirse, dikkat maskeleri birbirinden çıkarılır ve dikkat 0'a düşerek kayıp yükselir. Kaybı azaltmak için farklı şeyler öğrenmeleri gerekir. Bir grup ilgili bağlama, diğeri ise ilgisiz bağlama odaklanan bir strateji öğrenir

  • λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) ayarının deneysel olarak iyi çalıştığı belirtiliyor. Bu formülün arka planını merak ediyorum

  • Konumsal gürültünün giderilmesinin ne kadar değerli olduğunu merak ediyorum. alibi sürümü ile alibi temel çizgisi için bir karşılaştırma tablosu görmek isterdim. Araştırmacıları tebrik ederim

  • Burada neyin kaybedildiğini merak ediyorum. Yaratıcılık ya da kavramlar arasında enterpolasyon yapabilme yeteneği üzerinde nasıl bir etkisi var, bunu merak ediyorum. Halüsinasyon ile yaratıcılığın birbiriyle oldukça ilişkili olduğunu düşünüyorum

  • Sorunu çözmek güzel ama yaklaşımın yanlış olduğunu düşünüyorum. Tüm bağlamı hiyerarşik bir şekilde kavramak gerekir. Dikkat vektörüyle aynı girdiyle fark vektörünü hesaplarsanız, dikkat vektörünü doğru şekilde nasıl düzelteceğinizi bilemezsiniz

  • softmax değerleri 0'a itemezken, iki softmax haritasını çıkararak 0 üretmenin mümkün olup olmadığını merak ediyorum