1 puan yazan GN⁺ 2025-03-16 | Henüz yorum yok. | WhatsApp'ta paylaş

Özet

  • Modern sinir ağlarında normalizasyon katmanları zorunlu kabul ediliyordu.
  • Bu çalışma, normalizasyon olmadan da aynı veya daha iyi performansa ulaşılabileceğini gösteriyor.
  • Normalizasyon katmanlarının yerini alabilecek basit bir yöntem olan Dynamic Tanh (DyT) tanıtılıyor.
  • DyT, çoğu durumda hiperparametre ayarı olmadan bile normalize edilmiş modellerle eşdeğer veya daha iyi performans gösteriyor.
  • DyT'nin etkisi çeşitli ayarlarda doğrulandı; bu da normalizasyon katmanlarının gerçekten vazgeçilmez olup olmadığını yeniden düşünmeye yöneltiyor.

Uygulama

  • DyT modülü, birkaç satırlık PyTorch koduyla uygulanabiliyor.

Temel bulgular

  • Layer normalization, ölçeklendirilmiş bir tanh fonksiyonu gibi çalışıyor.
  • İlk katmanlarda çoğunlukla doğrusal davranırken, derin katmanlarda tanh fonksiyonuna özgü S eğrisini sergiliyor.

Değerlendirme

  • DyT'nin etkisi ve genellenebilirliği çeşitli mimariler ve görevler üzerinde değerlendirildi.
  • Tüm durumlarda DyT kullanan Transformer'lar, normalize edilmiş modellerle benzer veya daha iyi performans gösterdi.

Kaynaklar

  • Araştırmanın ayrıntılarına makaleyi indirerek ulaşabilirsiniz.
  • Uygulama ayrıntıları GitHub deposunda bulunabilir.

Henüz yorum yok.

Henüz yorum yok.