Özet
- Modern sinir ağlarında normalizasyon katmanları zorunlu kabul ediliyordu.
- Bu çalışma, normalizasyon olmadan da aynı veya daha iyi performansa ulaşılabileceğini gösteriyor.
- Normalizasyon katmanlarının yerini alabilecek basit bir yöntem olan Dynamic Tanh (DyT) tanıtılıyor.
- DyT, çoğu durumda hiperparametre ayarı olmadan bile normalize edilmiş modellerle eşdeğer veya daha iyi performans gösteriyor.
- DyT'nin etkisi çeşitli ayarlarda doğrulandı; bu da normalizasyon katmanlarının gerçekten vazgeçilmez olup olmadığını yeniden düşünmeye yöneltiyor.
Uygulama
- DyT modülü, birkaç satırlık PyTorch koduyla uygulanabiliyor.
Temel bulgular
- Layer normalization, ölçeklendirilmiş bir
tanh fonksiyonu gibi çalışıyor.
- İlk katmanlarda çoğunlukla doğrusal davranırken, derin katmanlarda
tanh fonksiyonuna özgü S eğrisini sergiliyor.
Değerlendirme
- DyT'nin etkisi ve genellenebilirliği çeşitli mimariler ve görevler üzerinde değerlendirildi.
- Tüm durumlarda DyT kullanan Transformer'lar, normalize edilmiş modellerle benzer veya daha iyi performans gösterdi.
Kaynaklar
- Araştırmanın ayrıntılarına makaleyi indirerek ulaşabilirsiniz.
- Uygulama ayrıntıları GitHub deposunda bulunabilir.
Henüz yorum yok.