Ilya Sutskever’in NeurIPS konuşması: seq2seq’e 10 yıl sonra bakış [Video]

(youtube.com)

1 puan yazan GN⁺ 2024-12-15 | 1 yorum | WhatsApp'ta paylaş

Ilya Sutskever, NeurIPS 2014’teki Sequence to Sequence Learning with Neural Networks çalışmasına 10 yıl sonra dönerek, günümüz büyük dil modeli akışının başlangıç noktasını otoregresif metin modelleri, büyük sinir ağları ve büyük veri kümeleri olarak özetliyor
O dönemdeki cesur varsayım, sinir ağlarının bir sonraki token’ı yeterince iyi tahmin etmesi halinde dizinin doğru dağılımını yakalayabileceğiydi ve bu fikir çeviri problemine uygulandı
Uygulama LSTM ve 8 GPU’lu pipeline yapısına dayanıyordu; 3,5 kat hız artışı sağlandı ancak bugünün ölçütleriyle pipeline’ın iyi bir tercih olmadığı değerlendiriliyor
GPT-2, GPT-3 ve scaling laws’a uzanan ön eğitim çağı, internet verisinin sınırları nedeniyle kaçınılmaz olarak sona erecek; ona göre artık peak data noktasına ulaşıldı
Bir sonraki aşama; ajanlar, sentetik veri, çıkarım anı compute’u ve o1 gibi erken örneklere uzanıyor; uzun vadede ise daha fazla akıl yürüten ve hatta öz farkındalığa sahip niteliksel olarak farklı sistemler ortaya çıkabilir

2014 seq2seq makalesine 10 yıl sonra bakış

NeurIPS 2014 Montreal’de sunulan Sequence to Sequence Learning with Neural Networks, 10 yıl sonra bir geri bakışın konusu oldu
Sutskever, o dönemki ortak yazarlarına ve iş birlikçilerine teşekkür ediyor; 10 yıl önceki sunum slaytlarına yeniden bakarak nelerin doğru çıktığını, nelerin daha az doğru olduğunu gözden geçiriyor
Makalenin özü üç başlıkta toplanıyor
- metin üzerinde eğitilmiş otoregresif model
- büyük sinir ağları
- büyük veri kümeleri

Dönemin temel fikri ve uygulaması

2014 sunumunda Deep Learning Hypothesis yer alıyordu
- 10 katmanlı büyük bir sinir ağının, insanın 1 saniyeden kısa sürede yapabildiği işleri gerçekleştirebileceği varsayılıyordu
- Bunun dayanağı, yapay nöronlarla biyolojik nöronların bir ölçüde benzer olduğu ve gerçek nöronların yavaş çalıştığı düşüncesiydi
- O dönemde eğitilebilen sinir ağları yaklaşık 10 katmanlı olduğu için odak, “insanın çok hızlı yapabildiği işler” üzerindeydi
Bir diğer temel nokta, otoregresif modellerin bir sonraki token’ı yeterince iyi tahmin etmesi halinde devam eden dizinin doğru dağılımını yakalayacağı fikriydi
- Tam anlamıyla ilk otoregresif sinir ağı değildi; ancak iyi eğitilirse istenen sonucu vereceğine güçlü biçimde inanılan erken örneklerden biri olarak sunuluyor
- O dönemde görev çeviriydi; bugün bakıldığında mütevazı görünebilir ama o zaman için son derece cüretkâr bir hedefti
Uygulamada LSTM kullanıldı
- Sutskever, LSTM’yi Transformer öncesi dönemde derin öğrenme araştırmacılarının kullandığı yapı olarak tanımlıyor
- LSTM’yi “90 derece döndürülmüş bir ResNet”e benzetiyor; bugün residual stream denen yapıda bir integratör ve çarpma mekanizmasının bulunduğunu söylüyor
Eğitim paralelleştirmesi, GPU başına bir katman yerleştirilen pipeline yöntemiyle yapıldı
- 8 GPU ile 3,5 kat hız artışı elde edildi
- Bugünün bakış açısından pipeline akıllıca bir tercih değil; ancak o dönemde bu şekilde ilerlendi

Ölçekleme, bağlantıcılık ve ön eğitim çağı

2014’teki sonuç slaytı, scaling hypothesis’in başlangıcı olarak görülebilir
- Çok büyük veri kümeleri ve çok büyük sinir ağları eğitilirse başarının garanti olduğu düşüncesi vardı
- Sutskever, cömert bir yorumla bunun pratikte gerçekten böyle geliştiğini değerlendiriyor
Daha uzun ömürlü kalan fikirlerden biri olarak connectionism öne çıkıyor
- Yapay nöronların biyolojik nöronlara bir ölçüde benzediğine inanmak, sinir ağlarını insan beyninin ölçeğine çıkarmadan da insanların yaptığı hemen her şeyi yapabilecek şekilde kurma konusunda güven veriyor
- Ancak insan beyni kendini yeniden yapılandırabiliyor; mevcut eğitim algoritmaları ise parametre sayısı kadar veri noktasına ihtiyaç duyduğu için bu açıdan insanın hâlâ daha iyi olduğu söyleniyor
Bu akış, ön eğitim çağına dönüştü
- GPT-2, GPT-3 ve scaling laws bunun öne çıkan örnekleri olarak anılıyor
- Eski çalışma arkadaşları Radford, Kaplan ve Dario Amodei’nin bu yönü gerçekten işler hale getirmede katkısı olduğu belirtiliyor
- Bugünkü ilerlemenin itici gücü, dev sinir ağlarını dev veri kümeleriyle eğitmek oldu

Ön eğitim sonrasının yönü

Sutskever, ön eğitimin mutlaka sona ereceğini düşünüyor
- Donanım, algoritmalar ve kümeler compute miktarını artırmayı sürdürebilir
- Veri ise tek bir internete dayanıyor ve internet bir tane
- Veriyi yapay zekanın fosil yakıtına benzetiyor; artık peak data noktasına gelindiği için elimizdeki veriyle devam etmek zorunda olduğumuzu söylüyor
Ön eğitim sonrasında birkaç yön gündeme geliyor
- Ajanlar: geleceğin yönü olarak sık anılan kavram
- Sentetik veri: bunun tam olarak ne anlama geldiği başlı başına büyük bir mesele
- Çıkarım anı compute’u: son dönemde o1 modeliyle daha belirgin görülen yön
Biyolojik örnek olarak memelilerde vücut büyüklüğü ile beyin büyüklüğü ilişkisini ele alıyor
- Memeliler ve insan dışı primatlar benzer bir ilişki gösterirken, hominidlerde beyin-vücut büyüklüğü ölçekleme katsayısının eğimi farklı
- x ve y eksenlerinin log ölçekli olduğu grafikte bu fark görülüyor
- Biyolojide de farklı tür ölçekleme örnekleri bulunduğunu; şimdiye kadar yapay zekanın ölçeklediği şeyin, ilk kez nasıl ölçekleneceği keşfedilmiş bir hedef olduğunu düşünüyor

Süperzekâ, akıl yürütme ve niteliksel olarak farklı sistemler

Uzun vadede alanın yönü süperzekâya gidiyor
- Mevcut dil modelleri ve chatbot’lar etkileyici olsa da aynı zamanda tuhaf biçimde düşük güvenilirliğe sahip ve zaman zaman kafası karışmış görünüyor
- Buna karşılık bazı değerlendirmelerde dramatik biçimde insanüstü performans gösterdikleri için bu iki görünümü bağdaştırmanın zor olduğunu düşünüyor
Gelecekteki sistemler, bugünkülerden niteliksel olarak farklı olabilir
- Gerçek anlamda ajan benzeri hale geleceklerini öngörüyor
- Mevcut sistemlerin anlamlı düzeyde ajan olmadığı, ancak çok zayıf bir başlangıç yaptığı değerlendiriliyor
- Akıl yürütme yeteneğine sahip olacakları, sınırlı veriden anlayabilecekleri ve kafalarının karışmayacağı düşünülüyor
Akıl yürütme, öngörülemezliği artırıyor
- Klasik derin öğrenme, insan sezgisini; yani 0,1 saniyelik tepkiler gibi işlemleri kopyalamaya daha yakındı ve bu yüzden daha öngörülebilirdi
- Akıl yürüten sistemler, daha çok akıl yürüttükçe daha öngörülemez hale geliyor
- Güçlü bir satranç yapay zekasının, en iyi insan satranç oyuncusu için bile öngörülemez olması örnek veriliyor
Öz farkındalık da olasılıklar arasında
- Kişinin kendisi dünya modelinin bir parçası olduğu için self-awareness’in faydalı olabileceğini düşünüyor
- Bu unsurlar birleştiğinde, bugün var olan sistemlerden temelden farklı özellik ve yeteneklere sahip sistemler ortaya çıkabilir
- Böyle sistemlerin doğuracağı sorunlar da bugün alışık olunan sorunlardan çok farklı olabilir ve geleceği gerçekten öngörmek zor

Soru-cevap bölümünde öne çıkan başlıklar

Biyolojiden ilham alan yapay zeka konusunda, somut içgörüye sahip olanlar için bunun peşinden gitmeye değer olduğunu söylüyor
- Şimdiye kadarki başarılı biyolojik ilhamın, “nöron kullanalım” düzeyinde çok sınırlı kaldığını düşünüyor
- Daha ayrıntılı biyolojik ilhamı elde etmek zor olmuş olsa da, özel bir içgörü varsa faydalı olabilir
Akıl yürütme modellerinin halüsinasyonları kendi kendine düzeltebilip düzeltemeyeceği sorusuna, bunun çok yüksek ihtimalle mümkün olduğu yanıtını veriyor
- Uzun vadede modelin akıl yürüterek halüsinasyonların nasıl oluştuğunu anlayıp düzeltebileceği yönüne katılıyor
- Bazı erken akıl yürütme modellerinde bunun şimdiden yaşanıyor olma ihtimalini de dışlamıyor
- Ancak buna autocorrect demenin, meselenin ölçeğini küçümseyen bir ifade olduğunu düşünüyor
Yapay zekanın hakları, birlikte yaşama ve teşvik yapıları konusunda kesin yanıt vermekten kaçınıyor
- Eğer yapay zeka insanlarla bir arada yaşar ve haklar isterse, bunun kötü bir sonuç olmayabileceğini söylüyor
- Ancak durum çok öngörülemez olduğu için kendinden emin konuşmanın zor olduğunu ekliyor
LLM’lerin çok adımlı akıl yürütmeyi dağılım dışına genelleyip genellemediği sorusuna, bunun basit bir evet/hayır yanıtı olmadığını belirtiyor
- “Dağılım içi” ve “dağılım dışı”nın ne olduğunun kendisi zaten bir sorun
- İstatistiksel makine çevirisi döneminde veri kümesiyle aynı olmayan ifadeler bile genelleme sayılırken, bugün matematik yarışması soruları ile internet tartışmaları arasındaki benzerlik üzerinden bunun ezber mi genelleme mi olduğu tartışılıyor
- Genelleme çıtası ciddi biçimde yükseldi; insanların daha iyi genellediği doğru, ancak LLM’lerin de belli ölçüde dağılım dışı genelleme yaptığı yanıtını veriyor

1 yorum

GN⁺ 2024-12-15

Hacker News yorumları

Bu sunum bana epey içi boş gibi geldi.
Yorgun kafayla hatırladığım ana fikirler şunlardı: son 10 yılın özeti, kullanılabilir verinin neredeyse tamamını tükettiğimiz için ölçekleme yasalarının sınırına yaklaştığımız, bir sonraki aşamada ajanlar, sentetik veri ve hesaplama iyileştirmelerinin olabileceği.
Bunun dışında yapay sinir ağları ile biyolojik sinir ağlarını karşılaştıran, biraz tekrar niteliğinde kısımlar vardı; vücut ağırlığı ile beyin kütlesi arasındaki pozitif korelasyon gibi şeylerden bahsetti ama net bir argüman pek görünmüyordu.
Sorular ise modelin halüsinasyonu kendi kendine bilip bilemeyeceği, kripto para ile ilgili bir soru ve biraz ilginç olan çok atlamalı akıl yürütme hakkındaydı.
- Salonda dinledim; bağlam gerekiyor. Kendisi test of time konuşma serisine davet edilmişti, bu yüzden tarih kısmının uzun olması açıklanabilir.
  Ilya’nın eğilimleri ve bunun AI ile ilişkisi, sondaki gevşek spekülasyonlara bağlanmış gibi.
  Oldukça uzak geleceğe dair spekülatif konulardan bahsetmek istiyor ama bunu “ne zaman ve nasıl olduğunu söylemiyorum, ama olacak” gibi savunarak çürütülmesini zorlaştırıyor.
  Bu yaklaşım, sondaki kripto para sorusu gibi tuhaf insanları kolayca çekiyor; hemen önce GAN’ın etkisini ele alan sunum ise oturumun konusundan sapmamıştı.
- Asıl nokta sanırım şuydu: “Daha yüksek boyutlu modelleri daha büyük internet dökümleriyle eğitince yeteneklerin sürekli iyileşmesini artık bekleyemeyiz.”
  Tek cümle ama oldukça önemli; birçok kişi zaten biliyor olsa bile Sutskever’ın bunu bizzat söylemesi, bunun ortak kanaat hâline gelmesi açısından anlamlı.
  Geri kalan kısım esasen giriş ve kapanış gibiydi.
- Videoyu bir LLM ile özetleyip uyarı notuyla yorum olarak paylaşan kimsenin olmaması şaşırtıcı.
- Ne kadar parlak bir zihin olursa olsun, her istendiğinde sürekli derin şeyler ortaya koymak zor olsa gerek.
- Sorular büyük bir uyarı işareti gibi görünüyordu. Kripto para, AI’ın insan hakları, AI için “otomatik düzeltme” gibi gevşek sorulardı; konferanslarda soru soranlar zaten tuhaf bir kesim olsa da, şu anda AI alanında dolandırıcıvari katılımcıların gerçek araştırmayı gölgeleyebilecek kadar fazla olduğu hissine kapılıyorum.
  Temel katkı sağlayanların çoğu zaten iyi sözleşmeleri olan milyonerler; laboratuvarlar ve bölümler AI araştırma başlıklarıyla büyük fonlar aldı.
  Önümüzdeki 10 yıl boyunca sentetik veri, ajanlar ve otomatik üretilen görsellerde göğüslerin görünmemesini sağlama sorununa para harcanabilir; ama temel ilerlemenin çok olacağını sanmıyorum.
  /remindme 10 years
Sutskever’ın “bildiğimiz biçimiyle ön eğitimin hiç şüphesiz sona ereceğini” ve “veri zirvesine ulaştık, artık daha fazlası yok” dediği kısım kilit nokta.
İnternetin, insan yapımı içeriğin sonlu olması bakımından petrol gibi sonlu bir kaynak olduğuna dair bir benzetme de vardı.
O hâlde internet verisinin yerini ne alacak? Kürasyonlu sentetik veri kümeleri mi?
Telif hakkı kaygıları nedeniyle eğitimde pek kullanılmayan devasa özel veri kümeleri var; ama o veriye gerçekten sahipseniz hukuki sorunlar çok daha azalır.
Örneğin Getty’nin devasa bir görsel kütüphanesi var; başkası bununla eğitim yaparsa dava riski var, ama Getty kendi AI’ını eğitirse durum farklı.
News Corp’un Wall Street Journal, HarperCollins gibi yayın varlıklarıyla AI eğitmesi de benzer.
- Meta veya Google gibi yerlerin ek verilere erişimi olduğu için, herkese yetecek kadar bol olmasa da onlar için veri yeterliydi; bu yüzden sentetik veri kullanımına yönelik araştırmaların daha az ilerlediğini düşünüyorum.
  Eskiden nesne algılayıcıları eğitirken Blender 3D modelleri, parametre ayarlama script’leri ve kamera kalibrasyonu ile bindirme yönünü çıkarmak için mevcut makine öğrenmesi modellerini kullandım; gerçek nesneleri tanımada çok iyi çalıştı.
  Oyun motorlarıyla araç eğitimi konusunda benzer işler yapan insanlar da tanıyorum.
  Doğruluğu ciddi biçimde artıran şaşırtıcı taktik ayrıntılar var; örneğin 3D modelin yüzey dokusu gibi alakasız unsurları eğitim setinde düzgün biçimde rastgeleleştirmek gerekiyor.
  Eğitim sırasında nesnelere rastgele fraktal desenler giydirirseniz, nesne algılayıcı gerçek ortamdaki bozuculara karşı daha sağlam hâle geliyor.
- “Eyalet hukuku”nu çok iyi yorumlayan bir LLM yapmak istiyorsanız, belirli bir eyaletin tüm yasa ve düzenleme materyallerini indirip hukuk uygulayıcıları ve avukatlar ölçütünde ilk %5 seviyesine gelecek şekilde eğitmenin önünde ne engeller olduğuna bakmak da mümkün.
  Bu durumda zaten “internet”e mutlaka ihtiyaç yok.
  Yeterli büyüklükte ve kalitede, alana özgü bir veri kümesi yeterli; ortaya çıkan sonuç da şimdiden ürkütücü olabilir.
  “Eyalet hukuku” LLM’i sadece bir örnek; mantık, hangi alanda olursa olsun alana özgü uzmana ihtiyaç varsa eğitilebilir noktasına varıyor.
- Eğitim verisinin gerçekten tükenmenin eşiğinde olduğunu düşünmüyorum. Gereken şey bilgi; ille de o metnin davranış biçimi değil.
  LLM’ler, haberlere konu olmamış ünlü memler gibi eski internet kullanıcılarının bildiği şeyleri iyi hatırlayamıyor.
  4chan gibi verileri taklit ettirmeden hatırlatmak mümkünse, bunları eğitimde kullanmak tamamen anlamsız olmayabilir.
  Film senaryoları, şarkı sözleri, ünlü YouTube videolarının altyazıları, hatta televizyon programları neden olmasın?
- İnsanların akıl yürütmek ya da ne bildiğini bilmek için trilyonlarca tokena ihtiyacı yok.
  Bunun bir kısmı evrimden gelmiş olabilir; ama temel dil yeteneği ve temel dünya modellemesi gibi evrimden gelen kısımların internet verisiyle zaten bir ölçüde yakalandığını düşünüyorum.
  Mevcut ön eğitim insandan çok daha fazla veri kullanıyor; resim çizmek için Getty’nin tüm görsellerini görmeniz gerekmediği gibi, özfarkındalık ya da kendini geliştiren modeller için de durum böyle olacaktır.
  Herhangi bir alanda uzman seviyesine ulaşmak için internet verisi olsun başka veri olsun, yalnızca sonraki token tahminini öğrenmek çözüm değil.
- İlaç ve enerji arama gibi sektörler öne çıkıyor. Bu alanlarda veri siloları bizzat rekabet avantajının özü.
  Veri kümesini açıp rekabet koşullarını eşitlemek için bir neden yok; kapalı tutarsanız olası keşifleri tekelleştirebilirsiniz.
  Açık veri internetin temeli, ama bazı sektörler keşifleri onlarca yıl boyunca sıkı biçimde gizleme düzeni üzerine kurulu.
Ilya’nın 2012’de sinir ağı ölçekleme makalesine öncülük eden Quoc Le’nin fotoğrafıyla sunuma başlaması hoşuma gitti. O makale, o dönemde derin öğrenmeye girmemi sağlayan şeydi
Yorumları nispeten mütevazı ve yayımlanmış önceki çalışmalara dayanıyor; ama şu anda büyük işler yaptığı ve hayal gücünün de geniş olduğu açık görünüyor
Artık “kedi çuvaldan çıktı” ve yapay zekanın geleceğini muhtemelen yeni nesil liderler yönetecek; tek umudum insancıl olmaları
- Olabildiğince insancıl olmalarını ummalıyız, ama yine de insan olduklarını unutmamak gerek
- Yeni nesil yapay zeka liderlerinin insancıl olma ihtimalinin kelimenin tam anlamıyla 0’a yakın olduğunu düşünüyorum
Onun “çıkarım arttıkça daha öngörülemez hale gelir” ifadesinin inanılmaz derecede ölçülü bir ifade olduğunu düşünüyorum
Çıkarımı bir anlamda neredeyse öngörülemezlikle aynı şey olarak düşünmek gerekir; daha somut olarak, yararlı çıkarım tanımı gereği öngörülemezdir
Bu çerçeveleme, hizalama gibi sorunlarda önemlidir
- Bana sanki tam tersiymiş gibi geliyor. “İrrasyonel” kelimesi çoğu zaman kaprisli, öngörülemez ve tehlikeli anlamında da kullanılır
  Akıl yürütme çok öngörülebilir bir şey olarak görülür; aynı olgu kümesinden rasyonel biçimde çıkarım yapan iki kişinin benzer sonuçlara varması beklenir
  Ilya’nın söylemek istediği şey, çok zeki birinin daha az zeki birine “öngörülemez” görünebilmesi gibi bir şeye daha yakın sanırım
  Öngörülemez olan aklın kendisi değil; yeterince hızlı ve kaliteli çıkarım yapıldığında, sonradan bakınca mantıklı gelse bile kimsenin önceden tahmin edemediği bir sonuca ulaşılabilir
- Buradaki önemli kelime “öngörülemez”; “şaşırtıcı”, “doğrulanamaz” ya da “irrasyonel” değil
  Bu sunumda öngörü, bir insanın 0,1 saniyede yaptığı sezgi ile ilişkilendiriliyor
  Güçlü bir çıkarım modeli, tanımı gereği sezgisel olmayan yanıtlara ulaşmak zorundadır. Sezgisel olsaydı, uzun bir çıkarım zinciri olmadan aynı yanıta çok daha hızlı ulaşırdı
  Buradaki “çıkarım”, matematiksel anlamdaki ispatla aynı değil. Matematikte sezgisel sonuçlar bile çok özel bir ispat gerektirebilir
- Verdiği satranç yapay zekası örneğinin en uygun örnek olmadığını düşünüyorum
  İnsan oyuncu yapay zeka kadar ileri hamleleri hesaplayamadığı için bir hamleyi anlamakta zorlanabilir; ama yine de satranç yapay zekasının aynı kurallar altında aynı hedefi optimize ettiğinden neredeyse emin olabiliriz
  Çıkarım modellerinde hizalama verili değildir
  Tamamen farklı kurallar ve maliyet fonksiyonları altında çıkarım yapıyor olabilirler; daha açık uçlu sorularda insanların anlamadığı çıktılar verdiklerinde bunun dahice bir fikir mi yoksa hizalanmamış düşünce mi olduğunu söylemek kolay değildir
- Çözümü bulma ile doğrulamanın zaman karmaşıklığını düşününce bu tam olarak uymuyor
- Gerçekten bunu kastettiğinden emin miyiz? Modelden daha fazla çıkarım elde etme sürecinin öngörülemez olduğunu kastediyor olabilir; çıkarımın kendisinin öngörülemez olduğunu söylememiş de olabilir
Bu haftaki DeepMind podcast’inde Oriole Vinyals bölümü, bu sunumla benzer konuları, yani LLM’lerin mevcut durumunu ve öğrenmenin önündeki yolu ele alıyordu ve çok daha ilginçti: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
Petrol benzetmesi gerçekten yerinde. Mr Worldcoin ve benzerlerinin net serveti 3 sent daha artsın diye birkaç gölü daha kaynatıp kurutmanın kesinlikle değeceği söyleniyor gibi
- Petrol benzetmesini anlıyorum ama o sıçramayı anlamadım. Hangi göller kaynıyor?
Bazı tanınmış makine öğrenmesi uygulayıcılarının Transformer’daki “nöronları” hâlâ gerçek biyolojik nöronlara benzetmesine şaşırıyorum
Gerçek nöronlar; spike’lara, iyon gradyanlarına, karmaşık dendrit yapılarına ve incelikli biyokimyasal süreçlerin yönettiği sinaptik plastisiteye dayanır
Bunlar, Transformer’ın basit, türevlenebilir doğrusal katmanlarında ve noktasal doğrusal olmayanlıklarında karşılığı olmayan unsurlar
Bu karşılaştırmayı destekleyen güvenilir bir sinirbilimci ya da biyolog var mı, yoksa bu yalnızca makine öğrenmesi topluluğunun alışkanlığı olarak sürdürülen bir benzetme mi, merak ediyorum
- 2012’den önce ne olduğunu hatırlamak gerek. SVM’ler, rastgele ormanlar gibi şeyler vardı ve beyne hiç benzemiyorlardı
  Sinir ağları eskiydi, ama 2012 derin öğrenme devriminin başlangıcıydı
  Bu ölçüte göre bakınca beyin ve sinir ağları, benzer özelliklere sahip bağlantıcılık türleridir; birbirleriyle karşılaştırmak ve birinden ilham alıp diğerine uygulamak gayet mantıklıdır
- Bir gezegenin yörüngesini tahmin etmek için gezegenin tüm atomlarını simüle etmeniz gerekmez
  Matematiksel nöronlar tamamen farklı çalışsa bile gerçek nöronlarla benzer bir işleve sahip olabilir
- Ebeveyn düğümleri ve çocuk düğümleri olan bir veri yapısına ağaç demekten çok mu farklı?
- Yanıtlara bakınca basit sorunun cevabı “hayır”a yakın görünüyor
  Ben de ciddi bir karşılaştırma yapılıp yapılmadığını merak ediyorum; yapıldıysa okumak isterim
- Sunumda yeterince kayıt düşülmemesini savunmaya çalışmıyorum; ama “tüm modeller yanlıştır, bazıları yararlıdır” şeklindeki eski deyişin burada geçerli olduğunu düşünüyorum
Dünyadaki bilginin büyük kısmı yalnızca ampirik deneylerle açılabilecek şekilde kilitli ve hesaplama bu deneyleri daha verimli hale getirmeye ancak pratik olarak yardımcı olabilir
Bir müdahale için rastgele kontrollü deneyi gerçekten yürütmeniz gerekir; bunun için de gerçek dünyada zaman ve atomlar gerekir
Sunumun tamamı ilginç: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- Vücut ağırlığı ile beyin ağırlığı ilişkisi slaydında insan soyundaki ölçekleme farkını vurguladı
  Ama ilginç olan, aynı slaydın aynı noktada insan dışı soylar için sert bir üst sınırı da göstermesiydi; o ise bu kısımdan bahsetmedi
LLM ile düzeltilmiş bir transkript var. Orijinal YouTube altyazılarında Gemini Flash 8B kullanılmış: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Gemini’nin zamanla metni düpedüz yutmasını nasıl engellediğini merak ediyorum
  Ses transkripsiyonu düzeltme, bir iki sayfadan kısa parçalara bölüp vermediğiniz sürece hiçbir LLM’de iyi sonuç almanın zor olduğu bir alandı
  Acaba ayrı bir araç kullanıp kullanmadığını da merak ediyorum

Ilya Sutskever’in NeurIPS konuşması: seq2seq’e 10 yıl sonra bakış [Video]

2014 seq2seq makalesine 10 yıl sonra bakış

Dönemin temel fikri ve uygulaması

Ölçekleme, bağlantıcılık ve ön eğitim çağı

Ön eğitim sonrasının yönü

Süperzekâ, akıl yürütme ve niteliksel olarak farklı sistemler

Soru-cevap bölümünde öne çıkan başlıklar

İlgili okumalar

1 yorum

Hacker News yorumları