1 puan yazan GN⁺ 2023-07-25 | 1 yorum | WhatsApp'ta paylaş
  • Modern yapay zekadaki attention formülünde, Transformer modellerinin sıkıştırılması ve dağıtımında zorluklara yol açan bir off-by-one hatası bulunuyor.
  • Bu hata, model içindeki aykırı ağırlıklarla ilişkili; bu aykırı değerler benzerlerine kıyasla çok daha büyük oldukları için performans düşüşüne ve quantization zorluklarına neden oluyor.
  • Hata, attention mekanizmasında kullanılan softmax fonksiyonuyla ilgili ve bu fonksiyon bu görev için uygun değil.
  • Önerilen çözüm, softmax fonksiyonunda küçük bir değişiklik yapmak: paydaya 1 ekleyerek, attention head'lerin bilgi ekleyemediğinde "hiçbir şey söylememesini" sağlamak.
  • Softmax Super-Mod veya QuietAttention adı verilen bu değişikliğin, aykırı değer geri besleme döngüsünü çözmesi ve quantization'ı iyileştirmesi bekleniyor.
  • Bu çözümün etkisini doğrulamak için deneylerde giriş bağlamına önek olarak 0 vektörü eklenebilir ve ağırlık basıklığı ile aktivasyonların sonsuz normu gözlemlenebilir.
  • Yazar, bu çözümü daha fazla araştırmak ve doğrulamak için iş birliği ve deney çağrısında bulunuyor.

1 yorum

 
GN⁺ 2023-07-25
Hacker News görüşleri
  • Yazar, softmax'in paydasına 1 eklemeyi öneriyor.
  • Bu değişiklik, ağın bir şeye yüksek güven seçmek zorunda kalmaması için yüksek ya da düşük ağırlıklar vermesine olanak tanıyor.
  • Bazı yorumcular bu değişikliğin öneminden şüphe ediyor ve benzer tekniklerin daha önce de kullanıldığını öne sürüyor.
  • Diğerleri ise makalenin akademik olmayan tonunu ve yeni fikirleri keşfetme isteğini övüyor.
  • Bir yorumcu, başlangıçta başkaları tarafından göz ardı edilen popüler bir algoritmadaki hatayı keşfettiğine dair kişisel deneyimini paylaşıyor.
  • Başka bir yorumcu, yazarın gerçek bir sorunu tespit edip basit bir çözüm önermesini övüyor.
  • Ancak aynı kişi, bu çözümün aykırı değer geri besleme döngülerini çözeceği iddiası için yazarın daha fazla kanıt ve açıklama sunmasını istiyor.
  • Bazı yorumcular, önerilen çözümün doğrulanması için ek deneyler ve daha ince ayar gerektiğini öne sürüyor.
  • Bir yorumcu, niceleme sorunlarını çözebilecek başka bir attention formülü öneren 2020 tarihli bir makaleye atıfta bulunuyor.
  • Paydaya 1 ekleme yönteminin, dummy token kullanımının yaygınlaşmasından önce sıkça kullanıldığı belirtiliyor.
  • Bazı yorumcular yazarın tonunu eleştiriyor ve araştırma topluluğunda bu tekniğe dair farkındalığın düşük olmasına şaşırdıklarını ifade ediyor.