- Yann LeCun ve diğerlerinin 1989'da yayımladığı "Backpropagation Applied to Handwritten Zip Code Recognition" makalesinin tarihsel önemini ele alan bir yazı; bu makale, geri yayılım kullanılarak bir sinir ağının uçtan uca eğitildiği en erken pratik uygulamalardan biri kabul ediliyor.
- Yazar, PyTorch gibi modern araçları kullanarak makaledeki çalışmayı yeniden üretmeye çalıştı ve orijinal ağın Bottou ve LeCun 1988'in geri yayılım simülatörü SN (daha sonra Lush olarak adlandırıldı) kullanılarak Lisp'te uygulandığını belirtti.
- Orijinal ağ SUN-4/260 iş istasyonunda 3 gün boyunca eğitildi, ancak yazarın MacBook Air (M1) CPU kullanarak yaptığı yeniden üretim yaklaşık 90 saniye sürdü.
- Yazar ayrıca Adam optimizasyon aracını kullanmak, veri artırma ve dropout eklemek, ayrıca
tanh aktivasyon fonksiyonunu ReLU ile değiştirmek gibi modern derin öğrenme tekniklerini denedi; bunun sonucunda hata oranı yaklaşık %60 azaldı.
- Yazar, ağın veya veri setinin ölçeğini büyüterek daha fazla iyileştirme sağlanabileceğini, ancak bunun hesaplama maliyetini artırıp çıkarım gecikmesine yol açabileceğini öne sürüyor.
- Son 33 yıldaki derin öğrenme ilerlemesine dönüp bakan yazar, temel ilkelerin aynı kaldığını, ancak veri setlerinin ve modellerin ölçeğinin büyük ölçüde arttığını ve modelleri eğitmek için gereken sürenin ciddi biçimde azaldığını vurguluyor.
- Yazar, 2055'e kadar sinir ağlarının daha da büyüyeceğini ve çoğu uygulamanın ağın bir bölümünü hafifçe ince ayar yaparak, prompt engineering ile ya da veriyi veya modeli daha küçük, özel amaçlı çıkarım ağlarına damıtarak gerçekleştirileceğini tahmin ediyor.
1 yorum
Hacker News görüşleri