2 puan yazan GN⁺ 2023-08-27 | 1 yorum | WhatsApp'ta paylaş
  • Yann LeCun ve diğerlerinin 1989'da yayımladığı "Backpropagation Applied to Handwritten Zip Code Recognition" makalesinin tarihsel önemini ele alan bir yazı; bu makale, geri yayılım kullanılarak bir sinir ağının uçtan uca eğitildiği en erken pratik uygulamalardan biri kabul ediliyor.
  • Yazar, PyTorch gibi modern araçları kullanarak makaledeki çalışmayı yeniden üretmeye çalıştı ve orijinal ağın Bottou ve LeCun 1988'in geri yayılım simülatörü SN (daha sonra Lush olarak adlandırıldı) kullanılarak Lisp'te uygulandığını belirtti.
  • Orijinal ağ SUN-4/260 iş istasyonunda 3 gün boyunca eğitildi, ancak yazarın MacBook Air (M1) CPU kullanarak yaptığı yeniden üretim yaklaşık 90 saniye sürdü.
  • Yazar ayrıca Adam optimizasyon aracını kullanmak, veri artırma ve dropout eklemek, ayrıca tanh aktivasyon fonksiyonunu ReLU ile değiştirmek gibi modern derin öğrenme tekniklerini denedi; bunun sonucunda hata oranı yaklaşık %60 azaldı.
  • Yazar, ağın veya veri setinin ölçeğini büyüterek daha fazla iyileştirme sağlanabileceğini, ancak bunun hesaplama maliyetini artırıp çıkarım gecikmesine yol açabileceğini öne sürüyor.
  • Son 33 yıldaki derin öğrenme ilerlemesine dönüp bakan yazar, temel ilkelerin aynı kaldığını, ancak veri setlerinin ve modellerin ölçeğinin büyük ölçüde arttığını ve modelleri eğitmek için gereken sürenin ciddi biçimde azaldığını vurguluyor.
  • Yazar, 2055'e kadar sinir ağlarının daha da büyüyeceğini ve çoğu uygulamanın ağın bir bölümünü hafifçe ince ayar yaparak, prompt engineering ile ya da veriyi veya modeli daha küçük, özel amaçlı çıkarım ağlarına damıtarak gerçekleştirileceğini tahmin ediyor.

1 yorum

 
GN⁺ 2023-08-27
Hacker News görüşleri
  • Bu yazı, son 33 yılda derin sinir ağlarının geçirdiği evrimi ele alıyor ve önümüzdeki 33 yıla dair öngörüler sunuyor.
  • Bu ağın ilk eğitimi, Sun 4/260 iş istasyonunda 3 gün sürdü ve yaklaşık 14400 watt-saat enerji tüketti. Bugün ise aynı eğitim bir MacBook'ta yalnızca 90 saniyede gerçekleştirilebiliyor ve sadece 0.5 watt-saat kullanıyor; bu da enerji verimliliğinde neredeyse 30000 katlık bir iyileşme anlamına geliyor.
  • Bazı okurlar, yazının 2055'e dair öngörülerini hâlâ bugünü başlangıç noktası alan bir "worldline symmetry" yansıttığı gerekçesiyle "meta-linear" diye eleştiriyor. Onlara göre bu, beklenmedik atılımlar ve engellerin fazlasıyla mümkün olduğu kadar uzun bir zaman dilimi.
  • Önümüzdeki 33 yıl boyunca daha fazla veri ve daha fazla hesaplama gücüyle aynı şeyi yapmayı sürdürmenin mi, yoksa yeni yaklaşımları keşfetmenin mi daha doğru olacağı konusunda bir tartışma var.
  • Bazı okurlar, önümüzdeki 33 yılda hesaplamanın ölçeklenebilirliğini sorgularken, bazıları bunun geçmişteki kadar ölçeklenmesine gerek olmadığını savunuyor.
  • Yazı, makine öğrenmesinin temellerini doğrudan ve sade bir biçimde ele aldığı için övgü alıyor; bu da birçok makalenin yeni ve karmaşık mimarilerle yeniden üretmesi zor sonuçlarla sayfaları doldurmasına tezat oluşturuyor.
  • Okurlar, en temel değişimin hangi modelin eğitildiğinde yattığını; küçük görüntülerden insan türünün dilsel ve görsel iletişimine doğru bir geçiş yaşandığını belirtiyor.
  • Bu yazı, sinir ağlarına ilginin yükselişine, düşüşüne ve yeniden canlanışına tanık olmuş bazı okurlarda nostalji uyandırıyor.
  • Bazı okurlar teknolojinin geleceği konusunda heyecan duyduklarını ifade ederken, bazıları yapay zekanın egemen olduğu bir dünyada insanların anlamsız hâle gelme ihtimalinden endişe ediyor.
  • Yazı, donanımdaki ilerlemelerin yapay zekanın evriminde kritik rol oynadığını gösteriyor; ancak bazı okurlar gelecekteki ilerlemelerin bu kadar dramatik olmayabileceğini savunuyor.