- Modern yapay zekadaki attention formülünde, Transformer modellerinin sıkıştırılması ve dağıtımında zorluklara yol açan bir off-by-one hatası bulunuyor.
- Bu hata, model içindeki aykırı ağırlıklarla ilişkili; bu aykırı değerler benzerlerine kıyasla çok daha büyük oldukları için performans düşüşüne ve quantization zorluklarına neden oluyor.
- Hata, attention mekanizmasında kullanılan softmax fonksiyonuyla ilgili ve bu fonksiyon bu görev için uygun değil.
- Önerilen çözüm, softmax fonksiyonunda küçük bir değişiklik yapmak: paydaya 1 ekleyerek, attention head'lerin bilgi ekleyemediğinde "hiçbir şey söylememesini" sağlamak.
- Softmax Super-Mod veya QuietAttention adı verilen bu değişikliğin, aykırı değer geri besleme döngüsünü çözmesi ve quantization'ı iyileştirmesi bekleniyor.
- Bu çözümün etkisini doğrulamak için deneylerde giriş bağlamına önek olarak 0 vektörü eklenebilir ve ağırlık basıklığı ile aktivasyonların sonsuz normu gözlemlenebilir.
- Yazar, bu çözümü daha fazla araştırmak ve doğrulamak için iş birliği ve deney çağrısında bulunuyor.
1 yorum
Hacker News görüşleri