Derin Sinir Ağları: 33 Yıl Önce ve 33 Yıl Sonra Nasıl Görünüyordu (2022)

(karpathy.github.io)

2 puan yazan GN⁺ 2023-08-27 | 1 yorum | WhatsApp'ta paylaş

Yann LeCun ve diğerlerinin 1989 tarihli el yazısı posta kodu tanıma makalesi, backpropagation ile uçtan uca eğitilmiş sinir ağlarının ilk gerçek dünya uygulamalarından biri olarak; veri kümesi, mimari, kayıp fonksiyonu, optimizasyon ve hata oranı raporlama biçimi açısından modern derin öğrenme makalelerine de benziyor
PyTorch ile yeniden uygulama, 7.291 adet 16x16 gri tonlamalı rakam görüntüsü ve yaklaşık 1.000 nöron ölçeğinde küçük bir ağı hedefledi; orijinal makaledeki 3 günlük eğitim, M1 MacBook Air CPU üzerinde yaklaşık 90 saniyeye indi
Orijinal makale eğitim hatasını %0,14, test hatasını %5,00 olarak raporlarken; yeniden üretim, MNIST'in 16x16'ya küçültülmüş ikame verisi nedeniyle birebir aynı olmasa da eğitim hatasını %0,62'ye, test hatasını %4,09'a kadar yakaladı
2022 tarzı teknikler olan cross-entropy, AdamW, veri artırma, Dropout ve ReLU uygulandığında test hatası %4,09'dan %1,59'a düştü; eğitim süresi yaklaşık 4 kat artsa da çıkarım gecikmesi değişmedi
33 yıl boyunca makro yapı büyük ölçüde korundu, ancak veri, model ve hesaplama ölçeği ezici biçimde büyüdü; ayrıca foundation model ve fine-tuning akışı, belirli görevler için sinir ağlarını sıfırdan eğitme yaklaşımını hızla demode hale getiriyor

1989 tarihli makaleyi 2022'de neden yeniden uyguladı?

Yann LeCun ve diğerlerinin 1989 tarihli Backpropagation Applied to Handwritten Zip Code Recognition makalesi, backpropagation tabanlı gerçek uygulama açısından tarihsel olarak önemli erken örneklerden biri
- Backpropagation ile uçtan uca eğitilmiş sinir ağlarının gerçek bir probleme uygulanmasına dair erken makalelerden biri olarak değerlendiriliyor
- O dönemde veri kümesi, 7.291 adet 16x16 gri tonlamalı rakam görüntüsünden oluşuyordu ve ağ yaklaşık 1.000 nöron ölçeğindeydi
Makalenin yapısı, modern derin öğrenme makalelerine çok benziyor
- Veri kümesini tanımlıyor
- Sinir ağı mimarisini açıklıyor
- Kayıp fonksiyonu ve optimizasyonu ele alıyor
- Eğitim ve test kümesindeki sınıflandırma hata oranlarını raporluyor
Yeniden uygulama kodu PyTorch ile yazıldı ve karpathy/lecun1989-repro adresinde yayımlandı
Orijinal ağ Lisp ile uygulanmıştı ve Bottou ile LeCun'un 1988 tarihli backpropagation simulator SN yazılımını kullanıyordu
Modern derin öğrenme kütüphanelerinin tasarımı genelde üç bölüme ayrılıyor
- C/CUDA tabanlı hızlı Tensor kütüphanesi
- İleri yayılım hesaplama grafiğini izleyip geri yayılım işlemlerini üreten autograd motoru
- Python ile betiklenebilen yüksek seviye API, katmanlar, mimariler, optimizer'lar ve kayıp fonksiyonları

Eğitim hızı ve yeniden üretimin sınırları

Orijinal eğitimde 7.291 eğitim örneği üzerinden 23 geçiş yapıldı ve böylece ağa toplam 167.693 giriş-etiket çifti sunuldu
1989'daki ağ, SUN-4/260 iş istasyonunda 3 gün boyunca eğitildi
PyTorch ile yeniden uygulama, MacBook Air M1 CPU üzerinde yaklaşık 90 saniye sürdü ve basit kıyasla yaklaşık 3.000 kat daha hızlıydı
- conda, Rosetta emülasyonu değil yerel arm64 derlemesini kullanıyordu
- PyTorch, M1'in GPU ve NPU'sunu tam kullanabilseydi hız artışı daha da büyük olabilirdi
A100 GPU üzerinde doğrudan çalıştırıldığında ise aksine daha yavaştı
- Ağ çok küçüktü: 4 katmanlı convnet, en fazla 12 kanal, toplam 9.760 parametre, 64K MACs, 1K aktivasyon
- SGD yapısı aynı anda yalnızca tek bir örnek kullanıyordu
- A100, CUDA ve PyTorch'tan tam yararlanmak için örnek başına SGD yerine full-batch eğitimle GPU kullanım oranını yükseltmek gerekiyordu
Orijinal makalenin raporladığı performans şöyleydi
- Eğitim: loss 2.5e-3, hata %0,14, miss 10
- Test: loss 1.8e-2, hata %5,00, miss 102
Yeniden üretim betiğinin 23. geçiş sonucu ise şöyleydi
- Eğitim: loss 4.073383e-03, hata %0,62, miss 45
- Test: loss 2.838382e-02, hata %4,09, miss 82
Birebir yeniden üretim çeşitli nedenlerle zor
- Orijinal veri kümesi zaman içinde kaybolmuş görünüyor
- Bunun yerine MNIST'in 28x28 rakamları bilinear interpolation ile 16x16'ya küçültülüp gereken sayıda örnek rastgele, tekrar etmeden seçiliyor
- Ağırlık başlatma açıklaması soyut ve PDF biçim sorunları nedeniyle nokta ya da karekök sembolü kaybolmuş olabilir
- H1 ile H2 arasındaki seyrek bağlantı yapısı makalede ayrıntılı verilmediği için makul tahminler yapmak gerekti
- Makaledeki tanh'nin, o dönemde yaygın olan normalized tanh olabileceği ihtimali endişe yarattı
- Orijinal makale Hessian'ın pozitif köşegen yaklaşımını kullanan özel bir Newton algoritması kullanırken, yeniden uygulama daha basit SGD kullandı

33 yıl sonraki tekniklerle düşürülen hata oranı

İlk değişiklik, MSE regresyon yaklaşımından modern çok sınıflı sınıflandırma yaklaşımına geçmek oldu
- Başlangıçta 10 sınıflı sınıflandırma, -1 veya +1 hedeflere karşı MSELoss regresyonu olarak modelleniyordu
- Çıkış katmanındaki tanh kaldırılarak class logits üretildi ve CrossEntropyLoss uygulandı
- Eğitim kümesi tamamen overfit edilerek eğitim hatası %0,00, test hatası %4,38 oldu
Sonraki adımda SGD yerine Adam ailesi kullanıldı
- AdamW, learning rate 3e-4 ile başlayıp eğitim sırasında 1e-4'e düşürüldü
- Sonuç eğitim hatası %0,00, test hatası %3,59 oldu
- Varsayılan parametrelerdeki weight decay de birlikte geldiği için overfitting'i azaltmaya yardımcı oldu
Veri artırma, giriş görüntüsünü yatay veya dikey yönde en fazla 1 piksel kaydırma biçimindeydi
- Veri kümesi büyümesini taklit ettiğinden geçiş sayısı 23'ten 60'a çıkarıldı
- Yalnızca orijinal ayarda geçiş sayısını artırmak sonuçları büyük ölçüde iyileştirmedi
- Sonuç eğitim hatası %1,70, test hatası %2,19 oldu
Dropout ve ReLU kombinasyonu ek iyileştirme sağladı
- En fazla parametre içeren H3 katmanından hemen önce 0,25 oranında hafif Dropout eklendi
- Dropout aktivasyonları 0 yaptığı için, aktivasyon aralığı [-1, 1] olan tanh yerine ReLU ile daha uyumlu olduğu düşünüldü
- Tüm doğrusal olmayanlıklar tanh'den ReLU'ya çevrildi ve geçiş sayısı 80'e çıkarıldı
- Sonuç eğitim hatası %1,47, test hatası %1,59, test miss 32 oldu
Yalnızca tanh'yi ReLU ile değiştirmek büyük bir iyileşme getirmedi; iyileşmenin çoğu Dropout eklenmesinden geldi
Bu teknikler 1989'a götürülebilseydi hata sayısı yaklaşık 80'den yaklaşık 30'a, test hata oranı da yaklaşık %1,5'e düşebilirdi
- Bunun karşılığında eğitim süresi neredeyse 4 kat artarak 1989 ölçüsünde 3 günden yaklaşık 12 güne çıkardı
- Çıkarım gecikmesi etkilenmezdi

Daha büyük modellerden önce etkiyi veri genişlemesi yarattı

Sonrasında kolay iyileştirme alanı giderek azaldı
- weight normalization gibi ek teknikler büyük iyileşme getirmedi
- Parametre sayısı ve işlem miktarı benzer tutulmuş bir “micro-ViT” de convnet performansına ulaşamadı
Son 33 yılda çok sayıda yenilik geldi, ancak bazılarının anlamı daha çok çok büyük modellerde ortaya çıkıyor
- residual connection, layer normalization ve batch normalization daha çok büyük ölçekli optimizasyonu kararlı hale getirmekle ilgili
Ek büyük performans artışının ağ boyutunu büyütmekten gelmesi muhtemel, fakat bu test sırasında çıkarım gecikmesini artırır
Veriyi artırma yaklaşımı da performansı iyileştirdi
- MNIST'in tamamı kullanılarak eğitim kümesi 7.291'den 50.000'e, yani yaklaşık 7 kat büyütüldü
- Mevcut baseline eğitim 100 geçişle çalıştırıldığında test hatası %2,74'e, miss sayısı 54'e indi
Veri genişlemesini modern tekniklerle birleştiren sonuç en iyisiydi
- Eğitim hatası %1,07, test hatası %1,25, test miss 24
- 1989'da yalnızca veri kümesini büyütmek bile çıkarım gecikmesi olmadan sistem performansını yükseltebilirdi

1989'dan 2022'ye ve 2055'e uzanan gözlemler

33 yıl boyunca makro yapı çok değişmedi
- Hâlâ katmanlardan oluşan, türevlenebilir sinir ağı mimarileri kuruluyor ve backpropagation ile stokastik gradyan inişi üzerinden uçtan uca optimize ediliyor
- Fark, o zamanki ölçeğin çok daha küçük olmasıydı
1989'daki veri kümesi ve model, günümüz ölçütlerine göre çok küçük
- Eğitim kümesi yalnızca 7.291 adet 16x16 gri tonlamalı görüntüden oluşuyordu
- Modern görsel veri kümeleri, web'den toplanmış yüz milyonlarca yüksek çözünürlüklü renkli görüntü kullanabiliyor
- OpenAI CLIP gibi, Google JFT-300M ve 400M görüntüyle eğitilmiş örnekler var
- Girdi piksel verisi açısından bunun kabaca 100.000.000 kat daha fazla olduğu hesaplanıyor
1989'daki ağ yaklaşık 9.760 parametre, 64K MACs ve 1K aktivasyona sahipti
- Modern görsel sinir ağları milyarlarca parametreye ve yaklaşık 1e12 MACs ölçeğine ulaşıyor
- Doğal dil modelleri trilyon ölçeğinde parametrelere çıkabiliyor
2022'ye 2055'ten bakıldığında benzer bir desenin tekrarlanabileceği varsayılıyor
- 2055'in sinir ağları, makro açıdan 2022'nin sinir ağlarıyla neredeyse aynı ama daha büyük olabilir
- Bugünün veri kümeleri ve modelleri yaklaşık 10.000.000 kat daha küçük görünebilir
- 2022'nin en ileri modellerinin bile kişisel bir bilgi işlem cihazında hafta sonu projesi gibi yaklaşık 1 dakikada eğitilebildiği hayal ediliyor
- Model, kayıp fonksiyonu, artırma ve optimizer ayrıntılarını değiştirmenin tek başına hata oranını yaklaşık yarıya indirebileceği varsayılıyor
Belirli görevler için bir sinir ağını sıfırdan eğitme yaklaşımı hızla eskimekte
- GPT gibi foundation model'ler, büyük hesaplama kaynaklarına sahip az sayıdaki kurum tarafından eğitiliyor
- Uygulamaların çoğu, ağın bir bölümüne hafif fine-tuning, prompt engineering veya verinin ve modelin küçük özel amaçlı çıkarım ağlarına damıtılmasıyla hayata geçirilebilir
- En uç durumda, 2055'te kullanıcının 10.000.000 kat daha büyük bir neural net “megabrain” ile İngilizce konuşarak ya da düşünerek iş istediği ve doğrudan sinir ağı eğitme ihtiyacının azaldığı bir tablo da mümkün

1 yorum

GN⁺ 2023-08-27

Hacker News yorumları

Bir ilginç nokta daha var. Orijinal eğitim Sun 4/260 iş istasyonunda 3 gün sürmüştü; tam teknik özellikleri bulamadım ama erken SPARC iş istasyonları dönemiyse toplam güç tüketimi kabaca 200W civarında olmalıydı.
CPU’nun kendisi çok yüksek güç tüketmiyordu ama disk ve monitör dâhil tüm sistemin bu seviyede olması oldukça olası. O zaman 200W × 72 saat = 14.400Wh.
Karpathy aynı düzeydeki eğitimi MacBook’ta, üstelik onu tam kapasite kullanmadan 90 saniyede çalıştırdı. Kabaca 20W × 0,025 saat = 0,5Wh ise enerji verimliliği neredeyse 30.000 kat iyileşmiş demek.
- Bu epey ilginç; sinir ağı performansının her zaman paydasında enerji olan birimlerle ölçülmesi gerektiğini düşünmüşümdür.
- Moore Yasası’nı düşününce 30.000 kat da kulağa o kadar büyük gelmiyor. 1989’dan bu yana daha büyük bir iyileşme beklerdim; süper bilgisayar performansı o zamana göre bir milyon kattan fazla arttı.
- Wh diyorsak, sadece sabit bir katsayı farkıyla joule (J) demiş olmuyor muyuz?
Yazı gerçekten çok iyiydi. Ancak 2055 tahmininin meta-lineer olması biraz üzücü. Mevcut teknolojiyi olduğu gibi alıp sayıları 33 yıl sonrasına kadar doğrusal regresyonla uzatmak gibi yaygın hatadan kaçınmış, ama yine de bugünü orijin alan bir tür dünya çizgisi simetrisini varsayıyor gibi.
Zaman aralığı yeterince uzun olduğu için beklenmedik atılımlar ve engeller yüzünden bu tahminlerin hiçbiri tutmayabilir. Birileri “perceptron++”tan çok daha basit bir temel yapı bulabilir; herkes 3D Gauss bulutları eğitiyor olabilir; kuantum bilgisayarlar sonunda yükselişe geçip kullanacağımız bileşenlere ne ad vereceğimizi bile henüz bilmiyor olabiliriz.
Tersine donanımda ya da eğitimde daha önce görmediğimiz ölçeklenme sınırlarına çarpabiliriz veya medeniyet ölçeğinde bir gerileme yaşanabilir. Yine de bahis oynayan biri olsaydım bu yazının sonucunun tersine pek oynamazdım. Yalnızca geçmişi ve bugünü bilip dış değerleme yaparsak, muhtemelen en iyi sonuca yakın olduğunu düşünüyorum.
- Bence doğru bir nokta. Önümüzdeki 33 yılın bugünden oldukça farklı olma ihtimali büyük.
  Ben değişimin daha dramatik olacağı tarafa yakınım. Çünkü yalnızca kaynaklar değil, algoritmik iyileştirme için de büyük alan var.
  Daha bariz tarafta, çoğu kütüphane bilinen birçok gradyan optimizasyon tekniğini hâlâ yeterince kullanmıyor. Veriyi ve işlem hacmini basitçe artırmak çok kolay olduğu için, uygulanabilecek araçlar hâlâ birikmiş durumda.
  Ayrıca başarılı büyük modeller önemli ipuçları veriyor. Örneğin dil modelleri, düşünceleri işleme biçimimize benzeyen bir tür dil mantığı öğreniyor ve çok farklı bilgileri makul biçimde birbirine bağlayabildiği açık.
  Bir gün bu işlemenin özünü kavrarsak dil işleme bir anda çok daha basit hâle gelebilir. Bu, radikal mimari ve algoritma geliştirme fırsatlarından yalnızca biri; gerçekten de devrimsel olur.
Öyleyse önümüzdeki 33 yıl boyunca aynı şeyi yapıp sadece veri ve hesaplama gücünü daha da artırmak yeterli mi olacak? LLM’ler ilk ortaya çıktığında görülen “hayatımda sonunda böyle bir şeyin olduğunu görmek” türü coşkuyu ve “modeli ve veriyi büyütmek yeterli” havasını mantıksal olarak ileri götürürsek sonuç bu oluyor. Ama gerçekten yalnızca kaba kuvvetle AGI’ye kadar gidebilir miyiz?
33 yıl önce “bağlantıcı yapay zeka” baskın paradigma değildi; “sembolik yapay zeka” da tek alternatif yaklaşım değildi. Fiziksel dünyayla etkileşmeden gerçek zekâya sahip olunamayacağını savunan “robot işlevselciliği” gibi yaklaşımlar da vardı.
33 yıl sonra bu farklı yaklaşımlar bağlantıcılıkla birleşerek yeniden doğabilir ya da tamamen yeni yaklaşımlar ortaya çıkabilir.
Harika bir yazı. Yapay sinir ağlarının ilk dönemlerini bizzat yaşadım. 1980’lerin ortasında DARPA’nın sinir ağı araçları danışma panelinde yer aldım, SAIC ANSim ticari ürününün ilk sürümünü yazdım ve şirketin FAA sözleşmesi kapsamında yaptığı bomba dedektörüne dağıtılan basit bir geri yayılım modeli de geliştirdim.
5-6 yıl önce Capital One’da “geleneksel” bir derin öğrenme ekibini de yönettim. Son 18 ay gerçekten heyecan vericiydi. Mümkün olduğunca çok zamanımı kendi barındırdığım LLM’leri ve Hugging Face, OpenAI gibi API’leri keşfetmeye ayırıyorum.
Şimdiden 33 yıl sonraki teknolojiyi düşünmek bile başımı döndürüyor.
En temel değişim, modelin neyle eğitildiği farkında yatıyor.
Küçük karakter görüntüleri quiz tarzı bir probleme daha yakın; neredeyse tüm insanlığın dilsel ve görsel iletişimini öğrenmekten tamamen farklı.
Önümüzdeki 33 yılda bilgi işlem kaynakları daha da ölçeklense bile, insan davranışını ve bilgisini taklit eden modelleri eğitme aşamasında kalmayacağız. O problem, yani biz kendimiz, çok daha önce oyuncak probleme indirgenmiş olacak.
- Yapay zeka modellerinin sentetik veri üretip bunu filtreleyerek ve iyileştirerek yeniden eğitildiği bir şekilde evrileceğini düşünüyorum. Kod çalıştırma, arama, insanlar, simülasyonlar, robotlar gibi dış sistemler de döngünün içine girebilir.
  Kalite düşmeyecek. Çünkü veri filtreleme ve çeşitlilik sağlamaya çok emek harcanacak. Modele daha fazla zaman vererek her zaman iyileştirme yapmak mümkün.
  Model mimarisi, veri kümesine kıyasla önemli değil. Aynı aileden herhangi bir model aynı veriden aynı yetenekleri öğrenebilir; ama veriyi değiştirirseniz hepsinin yetenekleri değişir. Zekâ verinin içindedir.
  Gelecek model mimarisi tasarımı değil, veri mühendisliğidir. Benzetme yaparsak insan kültürü, insan biyolojisinden daha hızlı evrimleşir. Veri, modelden daha hızlı evrimleşiyor.
  Son dönemde yapay zekada yeni mimarilerin hızla azaldığını, çeşitli veri kümelerinin aynı Transformer modeline uygulandığını görüyoruz. Transformer içinde bile yaygın kullanılan varyantlar çok az; binlercesi terk edildi.
  Zekânın gerçek motorunun memler üzerinden dil evrimi olduğunu düşünmek istiyorum. Biz ve yapay zeka birlikte dilin üstel büyümesine biniyoruz.
- Önce otonom sürüş denen oyuncak problemi bile neredeyse çözmelerini isterdim. Hâlâ bekliyorum.
Hesaplama gücünün önümüzdeki 33 yıl boyunca önceki gibi genişlemeye devam edip etmeyeceği net değil. Ama buna mutlaka gerek de yok
Yazıyı okurken aklımdan şu geçti: “Aman Tanrım, o hafta sonu hobi amaçlı makine öğrenimi projemde MSE kullanmıştım ve iyi sonuç vermemişti; meğer kayıp fonksiyonunu yanlış seçmişim.”
Bugünün LLM’leri, ya da gelecek yılın LLM’i, kodumu ve grafiklerimi nasıl iyileştirebileceğimi bana yeterince söyleyebilecek. Böylece normalde 50 bin saatlik ustalık birikimi nedeniyle benim için kapalı olan uzman düzeyi teknikleri uygulayabileceğim
Bir yanım insanlığın işinin bittiğini ve 33 yıl sonra insanın anlamsız olduğu bir dünya yaratmış olacağımızı söylüyor. Ama başka bir yanım, bu kaderden ve diğer tüm felaketlerden kaçınabilirsek geleceğin epey parlak olabileceğini söylüyor
- “Gelecek yılın LLM’i” gibi sözleri zaten çok duyduk ve duymaya da devam edeceğiz. Son 5 yarda en zoru; o olmadan önceki 5 milin de faydası sınırlı kalıyor
- Bir gün kötü sonuçlardan kaçınmak için AI’ı çok, çok ciddi biçimde yavaşlatmamız gereken bir noktanın geleceğini düşünüyorum. Zvi Mowshowitz’in bakış açısına katılıyorum. Yok oluş riski taşıyan alanlar dışında her alanda ilerleme ve risk almayı teşvik etmeliyiz
  Bugünkü LLM’leri her türlü soruna uygulamak bizi bitirmez. Ama bilince sahip ve plan yapabilen AGI birkaç yıl içinde ortaya çıkabilir; onları ne kadar zeki hâle getirebileceğimizin üst sınırını da bilmiyoruz
  Dünyaya dahil ettiğimiz her zeki varlıktan sorumlu olduğumuzu düşünüyorum. Ebeveyn olmak için bir sınav olmamasından yakınanlar var; peki ya tamamen yeni sanal beyinlerden bir milyon kopya üretmeye ne demeli? Üstelik fiilen ömür boyu angarya için doğmuş olacaklar
Gerçekten çok iyiydi. Açıkça ele alınmamış olsa da, 33 yıl sonraki farkın modelin işlediği girdi olduğunu düşünüyorum. 1989’un en ileri modeli 16×16 gri tonlamalı görüntüler kullanıyordu; bugün ise tek haneli megapiksel renkli görüntüler var
30 yıl sonra bir masaüstü bilgisayar CLIP’i 90 saniyenin altında eğitebilecek, ama o dönemin en ileri modeli neyle eğitilecek?
- Bir sonraki hangi token’ı yazacağından çok daha genel anlamda insan davranışı olacak. Temel derin öğrenme yöntemleriyle insanı olabildiğince yakından taklit etmek için, insan davranışının tamamını tahmin edebilen bir şey eğitmek gerekir
  Bunun için çeşitli insanların her türlü insan etkinliğini yaptığı milyarlarca ila katrilyonlarca saatlik video ve ses, muhtemelen başka birçok girdi gerekecek
- Telefon kameralarıyla kolayca elde edilebilen megapiksel görüntüler var, ama pratikte yaygın kullanılan neredeyse tüm görme modelleri girdi olarak 224×224 çözünürlük, ya da en fazla 384×384 civarı alıyor. Daha yüksek çözünürlükler sonunda downsample ediliyor
  Şimdilik hesaplama bütçesini daha iyi “gözler” yerine daha büyük bir “beyne” harcamak daha mantıklı görünüyor
- Vision Pro gibi başlıklarla yakalanmış milyonlarca saatlik veri de olabilir
  Tam olarak neyin yakalandığını bilmiyorum, ama ses, video, uzamsal bilgi, iris gibi çeşitli girdilerin birleşimiyle bir model eğitilebilir
Bu dönem boyunca sinir ağlarına duyulan ilginin neredeyse tamamen kaybolup sonra geri dönmüş olması ilginç
- Üniversitede AI derslerini birkaç kez yeniden almak zorunda kaldım. Çünkü “AI sembolik aramadır” görüşüne katılamıyordum
  Şimdi insanlar kesinlikle LLM’leri birbirine bağlayıp ileri ve geri yönlü akıl yürütme yaptırıyordur
- Bu durumda canlanması için iyi bir neden var, ama aslında yazılımla ilgili neredeyse her şeyde benzer biçimde tekrarlanıyor. Sadece daha ana akım teknolojilerde moda döngüleri daha kısa oluyor
- Bunun için Hinton’a teşekkür etmek gerek. Yazılımda Nobel Ödülü olmaması üzücü
  Yine de Turing Award da oldukça iyi
Ne kadar az şeyin değiştiğiyle ne kadar çok şeyin değiştiği aynı anda şaşırtıcı. “RNN’lerin mantıksız derecede etkili oluşu”nu okuduğumda bunun bana ne kadar vahiy gibi geldiğini hatırlıyorum; şimdi ise tamamen başka bir dünyada yaşıyormuşum gibi hissediyorum
- 2015’teki o çalışmayı bir tür referans çizgisi olarak alırsak, daha yapıcı ve sakin bir konuşma yapabiliriz gibi geliyor
  Yeni teknoloji çok daha iyi ve geleceğe dönük sonuçları da büyük. Ama o zamandan beri ilgi duyan insanlar için, “inanılmaz derecede iyileşti” ifadesinin doğrudan “kontrolden çıktı”ya bağlanmadığı bir referans noktası vardı
  Çok daha iyi hâle geldiği doğru
Andrej Karpathy’nin yazıları her zaman ferahlatıcı. Ne kadar çok bilirseniz, makine öğrenimi biliminin temellerini o kadar doğrudan ve sade biçimde keşfediyor
Bu alan, yeniden üretmesi bile zor olan küçük iyileştirmeler için karmaşık yeni yapılar öneren ve en güncel sonuçları geçme umuduyla işe yaramaz 50 sayfa doldurup kendi çalışmalarını “ciddi” göstermeye çalışan makalelerle dolu

Derin Sinir Ağları: 33 Yıl Önce ve 33 Yıl Sonra Nasıl Görünüyordu (2022)

1989 tarihli makaleyi 2022'de neden yeniden uyguladı?

Eğitim hızı ve yeniden üretimin sınırları

33 yıl sonraki tekniklerle düşürülen hata oranı

Daha büyük modellerden önce etkiyi veri genişlemesi yarattı

1989'dan 2022'ye ve 2055'e uzanan gözlemler

İlgili okumalar

1 yorum

Hacker News yorumları