Andrej Karpathy – AGI’ye Hâlâ 10 Yıl Var
(dwarkesh.com)- Andrej Karpathy, “ajanların yılı” değil “ajanların on yılı” olacağını savunuyor; yapay zeka sektöründeki aşırı iddialı tahminlere karşı çıkarak yaklaşık 10 yıllık kademeli iyileştirmelerin gerekli olacağını öngörüyor
- Mevcut LLM’lerde sürekli öğrenme, çok modlu yetenekler, bilgisayar kullanma becerisi gibi temel bilişsel işlevler eksik ve bu sorunların çözülmesinin yaklaşık 10 yıl süreceği tahmin ediliyor
- Evrimin hayvanlara verdiği yerleşik donanımın aksine LLM’ler, internet verilerini taklit ederek oluşan “ruha benzer varlıklar”; yani farklı türde bir zekâ ve hayvanlarla doğrudan karşılaştırılmaları uygun değil
- RL (pekiştirmeli öğrenme) oldukça verimsiz, ancak alternatif yöntemler de yeterince gelişmiş değil. LLM’lerin model çöküşü ve unutma sorunları nedeniyle insan beyninin yaptığı gibi bilgiyi doğal biçimde sürekli özümseme ya da geliştirme konusunda sınırlamaları var
- Ön eğitim, “berbat bir evrim”; 15 trilyon token’ı milyarlarca parametreye aşırı derecede sıkıştırarak internet belgelerinin yalnızca silik bir anısını bırakma süreci
- AGI’nin sonunda sıradışı bir kopuş değil, günlük hayattaki %2’lik GSYİH büyüme patikasının parçası olacağı; bunun hesaplamanın kademeli ölçeklenmesi olarak görülmesi gerektiği savunuluyor (süper zekâ tartışmaları dahil)
AGI’nin geliş zamanı ve yapay zekâ ilerleme hızı
- Andrej Karpathy, “Yapay zeka ajanları çağı bu yıl değil, 10 yıllık bir süreçtir” vurgusunu yapıyor.
- Bugün Claude, Codex gibi çeşitli yapay zeka ajanları faydalı şekilde kullanılıyor olsa da sürekli öğrenme, çok modlu işleme, karmaşık bilgisayar kullanımı gibi alanlarda hâlâ yetersizler
- AGI’nin gerçekten insan çalışan ya da stajyer gibi çalışabilmesi için zekâ artışı, kalıcı hafıza, çoklu yeteneklerin kazanılması gibi zor problemlerin çözülmesi gerekiyor
- Yapay zeka sektöründeki ilerleme tahminleri konusunda Karpathy, sahada geçirdiği 15 yılı aşkın deneyime dayanarak zor problemlerin aşılabilir ama çok zor olduğu, bu nedenle yaklaşık 10 yıl gerekeceği tahmininde bulunuyor
Erken dönem yapay zeka araştırmalarındaki yön değişimleri
- AlexNet öncesi derin öğrenme niş bir konuydu, ancak 2012’de AlexNet tüm alanı sinir ağı eğitimi yönüne çeviren ilk dramatik paradigma kayması oldu
- 2013 civarında Atari derin pekiştirmeli öğrenmesi yanlış bir yöndü; OpenAI’nin ilk dönemindeki oyun merkezli yaklaşım da bir hataydı
- Oyunların AGI’ye götüreceği fikrine şüpheyle yaklaşıyor, gerçek dünya etkileşiminin gerekli olduğunu düşünüyordu
- OpenAI’nin Universe projesi çok erkendi ve ödüller çok seyrek olduğu için öğrenme mümkün değildi
- LLM’lerin üzerine kurulu ajanlar doğru yol; önce ifade gücü kazanılıp sonra ajanlar inşa edilmeli
- Büyük dil modelleri üzerinde bilgisayar kullanan ajanları eğitmeye dönük mevcut yaklaşım makul görülüyor
- Ajanik görevlerin mümkün olması için önce ön eğitim ve LLM çalışmalarıyla temsil gücü elde edilmeli
- Genel olarak yapay zeka alanı perceptron/nöral ağ → ajanlar (RL) → LLM/temsil öğreniminin güçlenmesi akışıyla evrildi
İnsan öğrenimi ile hayvan evrimi arasındaki fark
- Hayvanlarda (ör. zebra) karmaşık davranışlar evrim yoluyla genetik olarak içkindir; yapay zeka araştırmaları ise gerçek evrim sürecini taklit etmek yerine ağırlıklı olarak internet verileri üzerinden taklitçi öğrenme (pre-training) kullanır
- Bugünün LLM’leri evrimle ortaya çıkan organizmalardan yapısal olarak farklıdır. Canlılarda donanım (sinir ağı) doğuştan gelirken, yapay zeka daha çok yazılımsal bir “hayalet”e benzetiliyor
- İnsan beyni ile yapay zeka arasındaki benzerlikler yalnızca sınırlı ölçüde referans alınmalı; pratik amaçlar (kullanışlılık) merkezli yaklaşmak daha gerçekçi
Bağlam içi öğrenme vs ön eğitim
- Ön eğitim, internet üzerindeki muazzam bilginin sıkıştırılmasının sonucu; modelin hatırladığı bilgi bulanık ve parçalı
- Gerçek sorular için gereken bilgi, context window içinde bir “çalışma belleği” gibi daha doğrudan kullanılabiliyor
- Bağlam içi öğrenme çalışma belleği, ön eğitim ise uzun süreli belleğin silik bir biçimi
- KV cache içindeki her şey, sinir ağının doğrudan erişebildiği çalışma belleği
- Ağırlıklardaki her şey ise bir yıl önce okunan bir şeyin soluk hatırası
- Bağlam içi öğrenmenin içsel olarak gradyan inişini uyguluyor olma ihtimali
- Doğrusal regresyon çalışmalarında sinir ağı ağırlıklarının gradyan inişi mekanizmasına benzerlik gösterdiği bulundu
- Örüntü tamamlama öğrenilerek sinir ağı içinde küçük devreler ve algoritmalar başlatılıyor
- Ön eğitimde token başına 0,07 bit vs bağlam içi öğrenmede token başına 320 kilobayt
- Bağlam içi öğrenme, token başına bilgi asimilasyonunda 35 milyon kat daha yüksek
- Sıkıştırma oranındaki bu dramatik fark, öğrenme biçimlerinin temelden farklı olduğunu yansıtıyor
İnsanlar ile LLM’ler arasındaki bilişsel farklar
- Hipokampus, amigdala gibi beyin bölgelerinin yokluğu
- Transformer’lar kortikal dokuya karşılık geliyor ve prefrontal kortekse benzer akıl yürütme yeteneklerine sahip
- Ancak hipokampus (hafıza), amigdala (duygu) gibi kritik beyin bölgeleri kopyalanmış değil
- Sürekli öğrenme mekanizmasının eksikliği
- İnsanlarda gün içindeki bağlamsal bilgi (context window), uyku gibi süreçlerde iç ağırlıklara damıtılıyor (distillation)
- LLM’ler ise her oturuma 0 token ile yeniden başlıyor ve böyle bir damıtma aşaması yok. Yani benzer bir uzun süreli hafıza/sürekli öğrenme mekanizması bulunmuyor
- Pekiştirmeli öğrenme “korkunç”
- Doğru cevabı veren rollout’taki tüm token’lar yukarı ağırlıklandırılıyor (ve bu çok gürültülü)
- Tüm yörünge yalnızca nihai ödüle bakılarak, “bir pipetten denetim emmek” gibi değerlendiriliyor
- İnsanlar her parçayı karmaşık değerlendirme süreçleriyle inceler, ancak LLM’lerde bunun eşdeğeri yok
Süreç temelli denetimin sınırları
- LLM hakemlerin oyuna getirilebilmesi
- Ödül ataması için LLM kullanıldığında düşmanca örneklerin bulunması neredeyse kaçınılmaz
- “dhdhdhdh” gibi anlamsız bir çıktının %100 ödül aldığı örnekler görüldü
- Örnek dışı genelleme bölgelerindeki kırılganlık
- Eğitim sırasında görülmemiş girdiler için LLM hakemler uç puanlar verebiliyor
- Tekrarlı eğitimle iyileştirme mümkün olsa da 1 trilyon parametreli bir model için sonsuz sayıda düşmanca örnek mevcut
- Sentetik veri ve inceleme gereksinimi
- Çözüm incelemesi ve sentetik örnek üretimiyle meta öğrenme yapan yaklaşımlar deneniyor
- Ancak frontier LLM laboratuvarı ölçeğinde tam genellikte çalışan ikna edici bir yöntem henüz yok
İnsan öğrenmesi vs LLM öğrenmesi
- İnsanlar pekiştirmeli öğrenmeyi neredeyse hiç kullanmaz
- Pekiştirmeli öğrenmenin büyük bölümü basket atışı gibi motor görevlerde görülür
- Problem çözme gibi bilişsel işlerde RL kullanılmaz
- Kitap okumak, sentetik veri üretimi için bir istem gibidir
- İnsanlar kitap okuyup bilgiyi manipüle ederek öğrenir
- LLM’ler ise yalnızca metin dizilerini açar ve sonraki token tahminiyle öğrenir
- Model çöküşü sorunu
- LLM örnekleri tek tek mantıklı görünse de dağılım sessizce çöker
- ChatGPT’nin yalnızca 3 şakayı tekrar etmesi gibi, olası çıktı uzayının tam genişliği korunmaz
- İnsanlar da zamanla çökebilir, ancak henüz aşırı uyum göstermemiş çocuklar şaşırtıcı şeyler söyleyebilir
Ezber ile genelleme arasındaki denge
- LLM’ler ezberleme konusunda aşırı derecede iyidir
- Tamamen rastgele dizileri bile bir iki tekrar sonrası baştan sona ezberleyebilir
- İnsanlar ise rastgele sayı dizilerini ezberden okuyamaz
- Ezberleme yeteneği bir hata değil, özelliktir
- İnsanlar yalnızca genellenebilir bileşenleri öğrenmeye zorlanır
- LLM’ler ön eğitim belgelerinin anılarıyla dikkat dağıtır
- Bilginin bilişsel çekirdekten çıkarılması gerekir
- Yaklaşık 1 milyar parametreli bir bilişsel çekirdek öngörülüyor
- Bilgi çıkarılıp yalnızca algoritmalar ve stratejiler bırakılmalı
- Bunun, ön eğitim veri setinin arıtılması ve daha küçük modellere damıtılmasıyla çözülebileceği düşünülüyor
Gelecekteki iyileştirme yönleri ve teknik görünüm
- Önümüzdeki 10 yılda mimari, optimizer, loss function, veri, yazılım, donanım gibi tüm alanların aynı anda ilerlemesi gerektiği, anlamlı başarının ancak böyle geleceği öngörülüyor
- Mevcut Transformer yapısı veya derin öğrenme yaklaşımı bir ölçüde sürecek olsa da sparse attention, genişlemiş hesaplama gücü ve büyük ölçekli veri ile destekleneceği tahmin ediliyor
- Bugüne kadarki ilerlemenin de tek bir etkenden çok birden fazla parçanın eşzamanlı iyileşmesine dayandığı vurgulanıyor
LLM’lerin bilişsel kusurları ve kodlama araçlarının kullanımı
- LLM’ler kod yazma yardımında sık kullanılsa da kendine özgü tasarım ve yöntem gerektiren yoğun kod yazımında ciddi sınırlamalara sahip
- Genelde üç yaklaşım birlikte kullanılıyor: (1) tamamen manuel yazım, (2) otomatik tamamlama kullanımı, (3) “ajan” tarzı kullanım
- Temel kod tekrar eden ve iyi örneklerin bol olduğu durumlarda LLM’lerle daha uyumlu; ancak özgünlük ve yapısal disiplin gerektiren kodlarda mevcut üsluba saplanma, gereksiz karmaşıklık üretme, konvansiyonları yanlış anlama gibi sorunlar belirginleşiyor
- Gerçek bir örnek olarak, PyTorch DDP container kullanımını istememesine rağmen LLM sürekli bunu önermiş ve bu durum kod stili ile uygulama yaklaşımını korumayı zorlaştırmış
nanochat geliştirme deneyimi
- LLM’ler benzersiz kod tabanlarına uygun değil
- Yalnızca kalıp kodlarda ve internette sık görülen şeylerde faydalı
- nanochat entelektüel olarak yoğun ve hassas düzenleme gerektiriyor; bu yüzden modeller durmadan yanlış anlıyor
- En iyi kullanım biçimi otomatik tamamlama
- vibe coding yalnızca belirli ortamlarda işe yarıyor
- otomatik tamamlama, ilk birkaç karakterle yüksek bilgi bant genişliği sağlıyor
- Rust gibi yeni dilleri öğrenmede faydalı
- Python referans uygulaması ve testler varsa güvenle vibe coding yapılabilir
- aşina olunmayan dillere veya paradigmalara erişilebilirliği artırıyor
Yapay zeka mühendisliği otomasyonunun gerçeği
- Mevcut modeller, yapay zeka araştırmasını otomatikleştirmede yetersiz
- Kodlama metin tabanlı olduğu için LLM’lere mükemmel ilk hedef
- Daha önce hiç yazılmamış kodlarda o kadar da iyi değiller
- Demo-ürün uçurumu
- 1980’lerden beri otonom sürüş demoları var, ama ürünleşmesi çok uzun sürdü
- "9’ların yürüyüşü" - her 9 belirli bir iş yükü demek; %90’dan %99,999’a kadar sürekli iyileştirme gerekiyor
- Zeka patlaması GDP eğrisinde görünmeyecek
- Bilgisayar, iPhone gibi dönüştürücü teknolojiler bile GDP’de seçilemiyor
- Her şeye fazla yayılıyorlar, yavaşça nüfuz ediyorlar ve aynı %2’lik üstel eğride ortalamaya karışıyorlar
Otonom sürüşten alınan dersler
- Otonom sürüş henüz tamamlanmış değil
- Waymo’nun bile çok az aracı var, operasyonu ekonomik değil
- Uzaktan operasyon merkezlerindeki insanlar döngünün içinde
- Güvenlik eşiği yüksek alanların ortak noktaları
- Yazılım mühendisliğinde de hata maliyeti yüksek (güvenlik açıkları vb.)
- Otonom sürüştekine benzer bir "9’ların yürüyüşü" gerekiyor
- Tesla’nın ölçeklenebilir yaklaşımı
- Waymo başlangıçta çok sayıda sensörle yola çıktı
- Tesla uzun vadede daha ölçeklenebilir bir stratejiyle avantajlı
Otonom sürüş ile bilgi emeği yapay zekasının karşılaştırması
- Bit alanı fiziksel dünyadan milyon kat daha kolay
- Bitler değiştirilebilir ve hızla yeniden düzenlenebilir
- Sektörün uyum sağlamasının çok daha hızlı olması bekleniyor
- Sermaye harcaması farkı
- Otonom sürüşte her kopya için tamamen yeni bir araba gerekiyor
- Yapay zeka modelleri ek örnekleri yalnızca çıkarım maliyetiyle sunabiliyor
- Toplumsal kabulün karmaşıklığı
- Hukuki, sigorta ve düzenleyici boyutların çözülmesi gerekiyor
- Waymo arabalarının üzerine koni koyan insanların bir eşdeğeri yapay zekada da olacak
Eureka Labs’in vizyonu
- Starfleet Academy inşa etmek
- Sınır teknolojileri için elit bir eğitim kurumu
- Yapay zeka dahil en yeni teknik bilgiyi sunmak
- AGI sonrası eğitim eğlence olacak
- AGI öncesi: para kazanmak için faydalı eğitim
- AGI sonrası: spor salonuna gider gibi okula gitmek, eğlence amaçlı eğitim
- Mükemmel AI tutor’u beklemek
- Korece özel ders deneyimi çıtayı belirledi
- Öğrencinin anlama düzeyini kavrayan, uygun zorluk sunan ve bilgiyi kusursuz aktaran bir sistem
- Mevcut yeteneklerle mümkün değil ama gelecekte olabilir
Eğitim materyali tasarım ilkeleri
- Fizikçi düşünme tarzı
- Sistemi birinci, ikinci, üçüncü dereceden terimlerle anlamak
- Modeller ve soyutlamalar kurmak
- "Küresel inek" varsayımının değeri
- Önce zorluğu gösterip sonra çözümü vermek
- Öğrenciye önce deneme fırsatı vermek
- Çözümü vermeden önce istemlerle motivasyon sağlamak
- micrograd örneği
- 100 satırda backpropagation’ın özünü gösteriyor
- Geri kalan her şey yalnızca verimlilik
- Her şey zincir kuralının özyinelemeli uygulanmasından ibaret
Etkili öğrenme stratejileri
- Derinlik öncelikli, ihtiyaç oldukça öğrenme
- Belirli bir proje üzerinden ödül alarak öğrenmek
- Genişlik öncelikli öğrenmeyle (okul tarzı) dönüşümlü gitmek
- Başkalarına açıklamak
- Anlayıştaki boşlukları bulup kapatmaya zorlar
- Bilgiyi işleyerek daha derin kavrayış sağlar
- Öğle yemeği sohbeti > makale
- Konferansta bira içerken duyduğunuz 3 cümle, bir makaleden daha net olabilir
> Ben bir şeyi yeniden açıklamayı seviyorum ve başkaları da bunu yapmalı. Çünkü o zaman bilgiyi işlemeniz gerekiyor ve açıklarken ne söylediğinizi gerçekten anladığınızdan emin olmanız gerekiyor.
# [Tam metin]
00:00:00 – AGI’ye hâlâ 10 yıl var
Dwarkesh Patel 00:00:00
Bugün Andrej Karpathy ile konuşuyoruz. Andrej, neden bunun "ajanların yılı" değil de "ajanların on yılı" olacağını söylüyorsunuz?
Andrej Karpathy 00:00:07
Öncelikle beni davet ettiğiniz için teşekkür ederim. Burada olmak güzel.
Az önce sözünü ettiğiniz "ajanların on yılı" ifadesi aslında daha önce ortaya atılmış bir söze verdiğim tepkiydi. Tam olarak kimin söylediğini bilmiyorum ama LLM’lerin evrimi bağlamında bu yılın "ajanların yılı" olacağına dair bir ima vardı. Bu ifade beni biraz tetikledi. Çünkü sektörde fazla abartılı tahminlerin havada uçuştuğunu düşünüyorum. Bana göre bunu "ajanların on yılı" olarak ifade etmek çok daha doğru.
Zaten erken aşamada ama çok etkileyici ajanlarımız var ve ben de Claude ya da Codex gibi şeyleri her gün kullanıyorum. Ama hâlâ yapılması gereken muazzam miktarda iş olduğunu hissediyorum. Bence önümüzdeki 10 yıl boyunca bunlarla çalışacağız. Giderek daha iyi olacaklar, harika olacaklar. Ben sadece o örtük zaman çizelgesine tepki veriyorum.
Dwarkesh Patel 00:00:58
Bunun 10 yıl süreceğini düşünmenize ne sebep oluyor? Darboğaz nerede?
Andrej Karpathy 00:01:02
Onu gerçekten çalışır hâle getirmek. Ajanlardan söz ettiğimizde, AI laboratuvarlarının aklındaki şeyin — ve muhtemelen benim düşündüğüm şeyin de — birlikte çalışmak için işe alacağınız bir çalışan ya da stajyer gibi olması gerektiğini düşünüyorum. Mesela siz de burada çalışanlarla birlikte çalışıyorsunuz. Claude ya da Codex gibi bir ajanın bunu ne zaman yapmasını isterdiniz?
Şu anda elbette bu mümkün değil. Peki bunu mümkün kılmak için ne gerekiyor? Bugün neden kullanmıyoruz? Sebebi basit. Düzgün çalışmıyorlar. Yeterince zeki değiller, çok modlu yetenekleri yeterli değil ve bilgisayar kullanımı gibi şeyleri yapamıyorlar.
Az önce bahsettiğiniz pek çok şeyi yapamıyorlar. Sürekli öğrenme yetenekleri yok. Onlara bir şey söylediğinizde bunu hatırlamalarını bekleyemezsiniz. Bilişsel açıdan pek çok eksikleri var ve düzgün çalışmıyorlar. Bütün bu sorunları çözmek yaklaşık 10 yıl alacak.
Dwarkesh Patel 00:01:44
İlginç. Profesyonel bir podcaster ve uzaktan AI gözlemcisi olarak neyin eksik olduğunu görmek kolay. Sürekli öğrenmenin eksik olması ya da çok modlu yeteneklerin eksik olması gibi. Ama buna bir zaman çizelgesi koymanın iyi bir yolu yok. Biri bana sürekli öğrenmenin ne kadar süreceğini sorsa, bunun 5 yıllık mı, 10 yıllık mı, 50 yıllık mı bir proje olduğuna dair hiç sezgim yok. Neden 10 yıl? Neden 1 yıl ya da 50 yıl değil?
Andrej Karpathy 00:02:16
Burada biraz kişisel sezgime giriyoruz; sahadaki deneyime dayanarak akıl yürütüyorum. Yaklaşık 20 yıldır AI alanındayım. Gerçi herhalde 15 yıl olmuştur. O kadar da uzun değil. Buraya da konuk olan Richard Sutton bundan çok daha uzun süredir bu alanda. Benim yaklaşık 15 yıllık deneyimim var ve bu süre boyunca insanların tahminlerini gördüm, bunların nasıl gerçekleştiğini izledim. Bir süre sektördeydim, araştırmada bulundum ve sonra tekrar sektöre döndüm. Bütün bunlardan geriye kalan genel bir sezgi var.
Benim hissim şu: sorunlar çözülebilir, üstesinden gelinebilir, ama hâlâ zorlar. Ortalama olarak düşündüğümde bana sadece 10 yıl gibi geliyor.
Dwarkesh Patel 00:02:57
Çok ilginç. Sadece tarihten değil, aynı zamanda çeşitli atılım anlarında orada bulunan insanların neler olacağını hissettiğini duymak istiyorum. Tahminlerinin aşırı karamsar ya da aşırı iyimser olduğu yönler nelerdi? İsterseniz tek tek bakalım.
Andrej Karpathy 00:03:16
Bu inanılmaz derecede büyük bir soru. Son 15 yılda olanlardan bahsediyoruz. Yapay zeka gerçekten olağanüstü bir alan. Tüm alanın bir anda tamamen farklı görünmeye başladığı, adeta birkaç tektonik kırılma yaşandı. Sanırım ben bunların iki ya da üçünü bizzat yaşadım. Ve bunun gelecekte de sürmeye devam edeceğini düşünüyorum. Neredeyse şaşırtıcı derecede düzenli aralıklarla geliyorlar.
Kariyerim başladığında, derin öğrenme üzerinde çalışmaya başladığımda, derin öğrenmeye ilgi duymam tamamen tesadüfen Toronto Üniversitesi'nde Geoff Hinton'ın hemen yanında olmam sayesinde oldu. Geoff Hinton tabii ki yapay zekanın vaftiz babası gibi bir figür. Bu tür sinir ağlarını eğitiyordu ve ben bunun hayranlık uyandırıcı ve ilginç olduğunu düşünüyordum. Ama o dönemde bu, yapay zekada herkesin yaptığı ana şey kesinlikle değildi. Sadece bir köşede duran küçük, niş bir konuydu. Muhtemelen ilk dramatik tektonik kırılma AlexNet ile geldi.
AlexNet herkesi yeniden yönlendirdi ve herkes sinir ağı eğitmeye başladı. Ama hâlâ görev bazlı, belirli görevlere özel bir yaklaşımdı. Elinizde bir görüntü sınıflandırıcı olurdu ya da bir sinirsel makine çevirisi sistemi olurdu, o kadar. İnsanlar ajanlarla çok yavaş biçimde ilgilenmeye başladı. “Tamam, görsel korteks benzeri kısmı hallettik, peki beynin diğer bölümleri ne olacak ve dünyayla etkileşebilen tam bir ajanı ya da tam bir varlığı nasıl elde ederiz?” diye düşünmeye başladılar.
Bence 2013 civarındaki Atari derin pekiştirmeli öğrenme dönüşümü, ajanlara yönelik ilk çabaların bir parçasıydı. Çünkü amaç yalnızca dünyayı algılayan değil, eylem alan, etkileşen ve çevreden ödül alan ajanlar üretmekti. O zamanlar ortam Atari oyunlarıydı.
Bunun yanlış bir yön olduğunu düşünüyorum. Hatta benim de parçası olduğum ilk dönem OpenAI'nin benimsediği yanlış bir yön. Çünkü o dönemin ruhu pekiştirmeli öğrenme ortamları, oyunlar, oyun oynama, oyun kazanma ve farklı türden oyunlar etrafında şekillenmişti; OpenAI de bunların çoğunu yapıyordu. Bunların hepsi biraz hataydı. Muhtemelen 2, 3, 4 yıl boyunca herkes oyunlara pekiştirmeli öğrenme uyguluyordu ve bunun tamamı biraz yanlış bir yöndü.
OpenAI'de yapmaya çalıştığım şey şu oldu — ben hep oyunların AGI'ye götüreceği fikrine biraz şüpheyle baktım. Bana göre muhasebeci gibi bir şey, gerçek dünyayla etkileşen bir şey istiyordunuz. Oyunların buna nasıl götüreceğini anlayamıyordum. Örneğin OpenAI'deki projem, Universe projesi kapsamında, klavye ve fare kullanarak web sayfalarını manipüle eden ajanlarla ilgiliydi. Gerçek dijital dünyayla etkileşebilen ve bilgi işi yapabilen bir şey inşa etmeyi gerçekten istiyordum.
Ama sonra bunun aşırı erken, fazlasıyla erken, üzerinde çalışmamamız gerekecek kadar erken bir girişim olduğu ortaya çıktı. Çünkü böyle bir ortamda rastgele el yordamıyla ilerleyip klavyeye abanarak ve fareye tıklayarak ödül almaya çalışırsanız, ödül sinyali o kadar seyrek oluyor ki öğrenme gerçekleşmiyor. Muazzam miktarda hesaplama kaynağı yakıyorsunuz ama asla sonuç alamıyorsunuz. Eksik olan şey, sinir ağlarındaki temsil gücüydü.
Örneğin bugün insanlar bilgisayar kullanan ajanları eğitiyor, ama bunu büyük dil modellerinin üzerinde yapıyorlar. Önce bir dil modeli edinmeniz gerekiyor, önce temsili elde etmeniz gerekiyor ve bunu ön eğitim ve LLM'lerle ilgili tüm çalışmalar aracılığıyla yapmanız gerekiyor.
Kabaca hissiyatım şu: insanlar bütünü çok erken elde etmeye birkaç kez üst üste çalıştı. İnsanların ajanları fazla erken kovalamaya çalıştığını söylemek isterim. Atari de, Universe de, hatta kendi deneyimim de buna dahildi. Aslında ajana ulaşmadan önce yapılması gereken bazı ön işler vardı. Şimdi ajanlar çok daha yetkin, ama muhtemelen hâlâ o yığının bazı parçalarını kaçırıyoruz.
İnsanların üzerinde çalıştığı üç ana kategorinin şunlar olduğunu söylemek isterim: göreve özel sinir ağları eğitmek, ilk tur ajanları denemek ve sonra LLM'leri ve diğer her şeyi bunun üstüne eklemeden önce sinir ağlarının temsil gücünü kovalamak.
Dwarkesh Patel 00:07:02
İlginç. Sutton'ın bakış açısını biraz daha güçlü savunmaya çalışacak olursam, insanlar her şeyi aynı anda alabiliyor, değil mi? Hatta hayvanlar bile her şeyi aynı anda alabiliyor. Hayvanlar belki daha iyi bir örnek, çünkü ellerinde dil gibi bir iskelet bile yok. Sadece dünyanın içine atılıyorlar ve hiçbir etiket olmadan her şeyi anlamak zorundalar.
O halde AGI vizyonu, duyusal veriye bakmak, bilgisayar ekranına bakmak ve sıfırdan ne olup bittiğini çözmek olmamalı mı? Eğer insan da benzer bir duruma konulsa ve sıfırdan eğitilmesi gerekse... bu, insanın büyümesi ya da bir hayvanın büyümesi gibi bir şey. Milyonlarca yıllık eğitimi yeniden yapmıyor olmak dışında, neden bu yapay zeka için vizyon olmasın?
Andrej Karpathy 00:07:41
Gerçekten çok iyi bir soru. Sutton senin podcast'ine çıkmıştı ve ben de o bölümü izledim, ayrıca bu konuda nasıl düşündüğüme dair bir yazı yazdım. Hayvanlarla benzetme kurma konusunda çok dikkatliyim. Çünkü hayvanlar çok farklı bir optimizasyon sürecinden çıktı. Hayvanlar evrimleşti ve beraberlerinde gömülü çok büyük miktarda donanımla geliyorlar.
Örneğin yazımdaki örnek zebraydı. Zebra doğuyor ve birkaç dakika sonra koşup annesini takip ediyor. Bu inanılmaz derecede karmaşık bir şey. Bu pekiştirmeli öğrenme değil. Bu gömülü. Evrimin açıkça ATCG üzerinden sinir ağlarımızın ağırlıklarını kodlamanın bir yolu var ve bunun nasıl çalıştığını bilmiyorum ama açıkça çalışıyor.
Beyin çok farklı bir süreçten çıktı ve ben oradan ilham alma konusunda çok çekingenim. Çünkü biz gerçekte o süreci yürütmüyoruz. Yazımda hayvan inşa etmiyoruz demiştim. Hayalet ya da ruh gibi bir şey inşa ediyoruz. İnsanlar buna her ne diyorsa, biz evrim yoluyla eğitim yapmıyoruz. İnsanları taklit ediyor ve internete koydukları veriler üzerinden eğitim yapıyoruz.
Sonunda bu tür ruhani varlıklara dönüşüyorlar. Tamamen dijitaller ve insanları taklit ediyorlar. Bu başka tür bir zeka. Zekanın uzayını hayal ederseniz, biz neredeyse başka bir noktadan başlıyoruz. Aslında hayvan inşa etmiyoruz. Ama zaman içinde onları biraz daha hayvan benzeri hale getirmek de mümkün ve bence gerekli.
Bir şey daha söyleyeyim: Sutton'ın çerçevesi çok... onun çerçevesi “biz hayvan yapmak istiyoruz” şeklinde. Eğer bunu çalıştırabiliyorsanız bence harika olur. Gerçekten muazzam olur. İnternet üzerinde çalıştırabileceğiniz ve her şeyi öğrenen tek bir algoritma olsa, bu inanılmaz olurdu. Ama bunun var olduğundan emin değilim ve hayvanların yaptığı şey de kesinlikle bu değil. Çünkü hayvanlarda evrim diye bir dış döngü var.
Öğrenme gibi görünen şeylerin büyük bölümü aslında öğrenmeden çok beynin olgunlaşmasına daha yakın. Hayvanlarda pekiştirmeli öğrenmenin çok az olduğunu düşünüyorum. Pekiştirmeli öğrenmenin büyük kısmı motor görevler gibi şeyler. Zihinsel görevler değil. O yüzden kabaca konuşursak insanların da RL'yi çok az kullandığını düşünüyorum.
Dwarkesh Patel 00:09:52
Son cümleyi tekrar eder misiniz? O zekanın büyük kısmının motor görev olduğu, ama... neydi?
Andrej Karpathy 00:09:54
Benim bakış açıma göre pekiştirmeli öğrenmenin büyük kısmı çok daha fazla motor benzeri şeylerle ilgili olurdu; basket potasına top atmak gibi basit görevler mesela. Ama insanların problem çözme gibi birçok zihinsel görevde pekiştirmeli öğrenme kullandığını düşünmüyorum. Bu, araştırma için böyle yapılmamalı demek değil, ama hayvanların yaptığı ya da yapmadığı şeyin tam olarak bu olduğunu düşünüyorum.
Dwarkesh Patel 00:10:17
Bunu sindirmek biraz zaman alıyor. İçinde çok fazla fikir var. Bakış açınızı anlamak için netleştirebileceğim bir soru sorayım. Evrimin, dünyayı anlayabilen bir şey inşa etmek anlamında, ön eğitimin yaptığına benzer bir iş yaptığını öne sürüyordunuz.
Fark şu ki evrim, insanlar söz konusu olduğunda 3 gigabaytlık DNA üzerinden düzenlenmek zorunda. Bu, model ağırlıklarından çok farklı. Kelimenin tam anlamıyla model ağırlıkları beyindir ve bu, spermle yumurtada açıkça bulunmaz. Dolayısıyla büyümesi gerekir. Ayrıca beynin tüm sinapslarına ilişkin bilgi, DNA’daki o 3 gigabaytın içine basitçe sığamaz.
Evrim, daha çok yaşam boyu öğrenme yapan bir algoritma bulmaya benziyor. Elbette yaşam boyu öğrenme, sizin işaret ettiğiniz gibi RL’ye benzemiyor olabilir. Bu, sizin söylediklerinizle uyumlu mu, yoksa katılmıyor musunuz?
Andrej Karpathy 00:11:17
Öyle düşünüyorum. Açıkça şaşırtıcı bir sıkıştırma yaşandığına katılıyorum. Nöral ağın ağırlıkları ATCG’de depolanmıyor, bu çok açık. Dramatik bir sıkıştırma var. Çevrim içi öğrenmenin bir kısmını devralan öğrenme algoritmaları kodlanmış durumda. Bu açıdan kesinlikle katılıyorum. Ama ben çok daha pratik bir zihniyete sahibim diyebilirim. Ben buna hayvan yapalım diye yaklaşmıyorum. Faydalı bir şey yapalım diye yaklaşıyorum. Baretimi takmış durumdayım ve sadece şunu gözlemliyorum: biz evrim yapmayacağız. Çünkü bunu nasıl yapacağımızı bilmiyoruz.
Ama internet belgelerini taklit ederek bu hayaletimsi, ruh benzeri varlıkları yaratabildiğimiz ortaya çıktı. Bu işe yarıyor. Evrimin yaptığı şeye bazı açılardan benzer biçimde, sizi çok sayıda yerleşik bilgi ve zekâya sahip bir şeye yükselten, pratikte mümkün bir versiyon bu. Bu yüzden ön eğitime berbat bir evrim diyorum. Sahip olduğumuz teknoloji ve kullanabildiklerimizle pratikte mümkün olan versiyon bu; ayrıca pekiştirmeli öğrenme gibi şeyler yapabileceğiniz bir başlangıç noktasına ulaşıyorsunuz.
Dwarkesh Patel 00:12:15
Diğer bakış açısını savunmak adına, bu Sutton röportajını yaptıktan ve üzerine düşündükten sonra, bence burada önemli bir nokta var. Evrim aslında bize bilgi vermiyor. Bize bilgiyi bulacak algoritmayı veriyor. Ve bu, ön eğitimden farklı görünüyor.
Belki de bakış açısı şu: ön eğitim, daha iyi öğrenebilen türde bir varlık inşa etmeye yardımcı oluyor. Meta-öğrenmeyi öğretiyor, dolayısıyla bir algoritma bulmaya benziyor. Ama eğer “evrim bize bilgi verir, ön eğitim de bize bilgi verir” derseniz, benzetme çökmeye başlıyor gibi geliyor.
Andrej Karpathy 00:12:42
Bu ince bir ayrım ve buna itiraz etmenizin doğru olduğunu düşünüyorum, ama temelde ön eğitimin yaptığı şey internete dair bir sonraki token tahmin edicisi elde etmek ve onu bir nöral ağ olarak eğitmek. Birbiriyle bağlantısız iki şey yapıyor. Birincisi, benim bilgi dediğim bütün bu şeyi edinmek. İkincisi ise gerçekten daha zeki hâle gelmek.
İnternetteki algoritmik örüntüleri gözlemleyerek, nöral ağın içinde bağlam içi öğrenme (in-context learning) gibi şeyler yapabilen bütün bu küçük devreleri ve algoritmaları başlatıyor. Bilgiye ihtiyaç yok, hatta istenmiyor bile. Bence bu, muhtemelen genel olarak nöral ağı engelliyor. Çünkü bazen onu bilgiye fazla bağımlı hâle getiriyor.
Örneğin ajanların iyi yapamadığı şeylerden biri, internette var olan veri manifoldunun dışına çıkmak. Eğer daha az bilgi ya da hafızaları olsaydı, muhtemelen daha iyi olabilirlerdi. Bence ileride yapmamız gereken şeylerden biri — ve bu araştırma paradigmasının bir parçası olacak — bazı bilgileri kaldırıp benim bilişsel çekirdek (cognitive core) dediğim şeyi korumanın yolunu bulmak. Bu, bilgiden sıyrılmış ama algoritmaları, zekâyı, problem çözmenin büyüsünü ve onun stratejilerini içeren zeki bir varlık.
Dwarkesh Patel 00:13:50
Burada çok ilginç şeyler var. Bağlam içi öğrenmeden başlayalım. Bu bariz bir nokta ama açıkça söyleyip üzerine düşünmeye değer olduğunu düşünüyorum. Bu modellerin en zeki göründüğü durumlar — onlarla konuşurken “vay, gerçekten karşı tarafta bana yanıt veren bir şey var” diye hissettiğim anlar — hata yaptıklarında “bir dakika, bu yanlış bir düşünme biçimi, geri dönelim” demeleri; bunların hepsi bağlam içinde oluyor. Gözle görebildiğiniz gerçek zekâ orada.
Bağlam içi öğrenme süreci, ön eğitim üzerindeki gradyan inişi tarafından geliştiriliyor. Kendiliğinden bağlam içi öğrenmeyi meta-öğreniyor, ama bağlam içi öğrenmenin kendisi gradyan inişi değil. Bu, insan olarak yaşam boyu zekâmızın işleri yapabilme yetisinin evrim tarafından koşullandırılması, ama yaşamımız boyunca öğrenmemizin başka bir süreç üzerinden gerçekleşmesiyle benzer.
Andrej Karpathy 00:14:42
Tam olarak katılmıyorum ama düşünce çizginizi sürdürün.
Dwarkesh Patel 00:14:44
Şey, benzetmenin nasıl çöktüğünü anlamak istiyorum.
Andrej Karpathy 00:14:48
Bağlam içi öğrenmenin gradyan inişi yapmadığını söylemekte tereddüt ediyorum. Açık gradyan inişi yapmıyor. Bağlam içi öğrenme, token penceresi içinde örüntü tamamlama. Çünkü internette muazzam miktarda örüntü olduğu ortaya çıktı. Sizin dediğiniz doğru. Model örüntüleri tamamlamayı öğreniyor ve bu da ağırlıklarda yer alıyor. Nöral ağın ağırlıkları örüntüleri keşfediyor ve örüntüleri tamamlamaya çalışıyor. Nöral ağın içinde gerçekleşen bir uyum var; bu büyülü ve doğrudan internetten çıkıyor. Çünkü çok fazla örüntü var.
Bağlam içi öğrenmenin arkasındaki mekanizmaya bakan ilginç makaleler olduğunu söyleyeyim. Bence bağlam içi öğrenme, nöral ağ katmanlarının içinde küçük gradyan inişi döngüleri çalıştırıyor olabilir. Özellikle hatırladığım bir makalede, bağlam içi öğrenme kullanılarak doğrusal regresyon yapılıyordu. Nöral ağa verilen girdi XY çiftleri. XY, XY, XY bir doğru üzerinde duruyor. Sonra siz X verdiğinizde Y bekliyorsunuz. Nöral ağ, bu şekilde eğitildiğinde doğrusal regresyon yapıyor.
Genelde doğrusal regresyon çalıştırdığınızda, XY’lere bakıp hatayı görür, ağırlıkların gradyanını hesaplar ve birkaç güncelleme yapan küçük bir gradyan inişi optimizatörünüz olur. Bu bağlam içi öğrenme algoritmasının ağırlıklarına baktıklarında, gradyan inişi mekanizmasıyla bazı benzerlikler buldukları ortaya çıktı. Hatta bence makale daha da güçlüydü; nöral ağın ağırlıklarını sabit kodlayıp attention ve nöral ağın diğer tüm iç yapıları üzerinden gradyan inişi yapacak şekilde ayarladılar.
Benim tek itirazım bu. Bağlam içi öğrenmenin nasıl çalıştığını kimse bilmiyor ama muhtemelen içeride biraz tuhaf bir gradyan inişi yapıyor olabilir. Bunun mümkün olduğunu düşünüyorum. Ben sadece sizin, bağlam içi öğrenmenin bunu yapmadığını söylemenize itiraz ediyorum. Ne yaptığını kimse bilmiyor ama muhtemelen ona benzer bir şey yapıyor. Ama bilmiyoruz.
Dwarkesh Patel 00:16:39
Öyleyse eğer bağlam içi öğrenme ile ön eğitim ikisi de gradyan inişine benzer bir şey uyguluyorsa, neden bağlam içi öğrenmede böyle sürekli öğrenmeye, gerçek zekâya ulaşılmış gibi hissediyoruz? Buna karşılık yalnızca ön eğitimde aynı hissi almıyoruz. Böyle bir iddia öne sürülebilir.
Aynı algoritmaysa, farklı olan ne olabilir? Bunu düşünmenin bir yolu, modelin eğitimde aldığı bilgi başına ne kadar bilgi depoladığıdır. Ön eğitim tarafında, örneğin Llama 3'e bakarsak, 15 trilyon token ile eğitildiğini düşünüyorum. 70B modele bakarsanız, bu ön eğitimde gördüğü token başına yaklaşık 0,07 bite denk gelir. Model ağırlıklarındaki bilgiyle, okuduğu token sayısı açısından karşılaştırınca yani. Öte yandan KV cache'e bakıp bunun bağlam içi öğrenmede ek token başına ne kadar arttığına bakarsanız, yaklaşık 320 kilobayt ediyor. Yani modelin token başına özümseyebildiği bilgi miktarında 35 milyon kat fark var. Bunun ilgili olup olmadığını merak ediyorum.
Andrej Karpathy 00:17:46
Bir ölçüde katılıyorum. Ben bunu genelde şöyle ifade ediyorum: sinir ağı eğitimi sırasında olan her şey, bilginin eğitim zamanında yaşananların silik bir hatırası olmasından ibaret. Çünkü sıkıştırma dramatik düzeyde. 15 trilyon token alıp bunu son durumda birkaç milyar parametreli bir sinir ağına sıkıştırıyorsunuz. Açıkça muazzam miktarda sıkıştırma oluyor. O yüzden ben buna internet belgelerinin silik bir hatırası diyorum.
Buna karşılık sinir ağının context window'unda olan her şey—tüm token'ları içeri verip tüm KV cache temsillerini kurmak—sinir ağının çok doğrudan erişebildiği şeyler. Bu yüzden KV cache'i ve test zamanında olanları çalışan belleğe daha çok benzetiyorum. Context window içindeki her şeye sinir ağı çok doğrudan erişebiliyor.
LLM'lerle insanlar arasında her zaman böyle neredeyse şaşırtıcı benzerlikler var. Bence bunlar şaşırtıcı, çünkü doğrudan insan beyni yapmaya çalışmıyoruz. Sadece bunun işe yaradığını keşfedip yapıyoruz. Ama bana öyle geliyor ki ağırlıklardaki her şey, 1 yıl önce okuduğunuz bir şeyin silik bir hatırası. Test zamanında bağlam olarak verdiğiniz her şeyse doğrudan çalışan bellekte. Bu, işlerin nasıl yürüdüğünü düşünmek için çok güçlü bir benzetme.
Örneğin bir LLM'e gidip bir kitap hakkında, içinde ne olduğunu sorarsanız, mesela Nick Lane'in kitabı, LLM size çoğu zaman kabaca doğru bir cevap verir. Ama ona kitabın bütün bölümünü verip sonra soru sorarsanız, çok daha iyi sonuç alırsınız. Çünkü artık modelin çalışan belleğine yüklenmiştir. Yani katıldığımı söylemenin uzun yolu bu ve sebebi de bu.
Dwarkesh Patel 00:19:11
Bir adım geri çekilip bakalım: Bu modellerle kopyalamakta en çok başarısız olduğumuz insan zekâsı kısmı ne?
Andrej Karpathy 00:19:20
Aslında epey çok şey. Bunu düşünmenin bir yolu şu; en iyi yol bu mu emin değilim ama ben neredeyse—yine söylüyorum, bu tür benzetmeler kusurlu—transformer sinir ağlarını tesadüfen bulduğumuzu düşünüyorum. Bunlar son derece güçlü ve çok genel. Ses, video, metin, ne isterseniz onun için transformer eğitebilirsiniz; örüntüleri öğrenir, çok güçlüdür ve gerçekten çok iyi çalışır. Bu bana neredeyse bunun bir tür kortikal doku parçası olduğunu düşündürüyor. Öyle gibi geliyor. Çünkü korteks çok esnek olmasıyla biliniyor. Beynin bir kısmını yeniden kablolayabiliyorsunuz. Görsel korteksi işitsel kortekse yeniden bağladıkları biraz ürkütücü deneyler vardı ve bu hayvan iyi öğrendi.
Bu yüzden bunun kortikal doku olduğunu düşünüyorum. Sinir ağında akıl yürütme ve planlama yaptığınızda, düşünce modeli için çıkarım izleri kullandığınızda, bu biraz prefrontal korteks gibi. Belki bunlar küçük onay işaretleri gibidir, ama hâlâ keşfedilmemiş çok sayıda beyin bölgesi ve çekirdeği olduğunu düşünüyorum. Örneğin modelleri reinforcement learning ile ince ayar yaparken biraz reinforcement learning yapan bazal gangliyon var. Peki hipokampus nerede? Onun neye karşılık geldiği net değil. Bazı kısımlar muhtemelen önemli değildir. Belki serebellum biliş ve düşünme için önemli değildir, dolayısıyla bazı parçaları atlayabiliriz. Ama örneğin hâlâ amigdala, bütün duygular ve içgüdüler var diye düşünüyorum. Muhtemelen gerçekten kopyalamadığımız, beynin çok eski başka çekirdekleri de var.
İnsan beyninin birebir analoğunu yapmayı hedeflememiz gerektiğini düşünmüyorum. Ben özümde daha çok bir mühendisim. Belki soruya cevap vermenin başka bir yolu da şu: Bunu stajyer olarak işe almazdım. Hâlâ eksik çok şey var. Hepimizin modellerle konuşurken sezgisel olarak hissettiği birçok bilişsel kusurla birlikte geliyor. Yani henüz tam olarak orada değil. Tüm beyin parçalarının kutucuğu işaretlenmiş değil diyebiliriz.
Dwarkesh Patel 00:21:16
Bu, sorunların ne kadar hızlı çözüleceğini düşünme sorusuyla ilgili olabilir. Bazen insanlar sürekli öğrenme hakkında şöyle diyor: “Bak, bu yeteneği kopyalamak kolay. Nasıl bağlam içi öğrenme ön eğitimin bir sonucu olarak kendiliğinden ortaya çıktıysa, daha uzun zaman ufuklarına yayılan sürekli öğrenme de model daha uzun ufuklarda, tek bir oturumdan daha uzun sürelerde bilgiyi hatırlamaya teşvik edilirse kendiliğinden ortaya çıkacak.” Yani içinde çok sayıda oturum bulunan bir dış döngü RL varsa, kendini ince ayar yapma ya da harici belleğe yazma şeklindeki bu sürekli öğrenme kendiliğinden ortaya çıkacak. Bunlar size makul geliyor mu? Bunun ne kadar makul olduğuna dair önceden güçlü bir fikrim yok. Ne kadar olası sizce?
Andrej Karpathy 00:22:07
Ben buna tam olarak katılamıyorum. Bu modeller açıldığında, pencereye 0 token ile başladıklarında, her zaman en baştan, daha önce bulundukları yerden yeniden başlıyorlar. O yüzden bu dünya görüşünde bunun nasıl göründüğünü bilmiyorum. İnsanlarla biraz benzetme kurarsak—bence kabaca somut ve düşünmeye değer olduğu için—ben uyanıkken, gün boyunca olanların bir context window'unu inşa ediyormuşum gibi hissediyorum. Ama uyuduğumda sihirli bir şey oluyor ve o context window'un kaldığını sanmıyorum. Bunu beynin ağırlıklarına damıtan bir süreç var. Bu da uyku sırasında oluyor ve benzeri şeyler.
Büyük dil modellerinde buna denk bir şey yok. Bana göre sürekli öğrenme hakkında konuşurken eksik olan şeye daha yakın olan da bu. Bu modeller yaşananları alıp bunları takıntılı biçimde analiz eden, üzerine düşünen, biraz sentetik veri üretme süreci yapıp sonra bunu yeniden ağırlıklara damıtan bir damıtma aşamasına gerçekten sahip değil. Ve belki kişi başına belli bir sinir ağı var. Belki LoRA'dır. Tam ağırlıklı bir sinir ağı değil de değişen ağırlıkların küçük, seyrek bir alt kümesidir sadece.
Ama çok uzun context'lere sahip bu tür bireyleri yaratmanın bir yolunu bulmak istiyoruz. Bu sadece context window'da kalmak değil, çünkü context window çok ama çok uzuyor. Muhtemelen bunun üzerinde çok gelişmiş bir sparse attention'ımız da olacak. Ama yine de insanların bu bilginin bir kısmını ağırlıklara damıtan bir sürece açıkça sahip olduğunu düşünüyorum. Bizde eksik olan bu. Ayrıca insanların çok gelişmiş bir sparse attention sistemine sahip olduğunu düşünüyorum ve bunun bazı ilk ipuçlarını görmeye başladığımızı da düşünüyorum. DeepSeek v3.2 az önce çıktı ve onların sparse attention kullandığını gördüm. Örneğin bu, çok ama çok uzun context window'larına sahip olmanın bir yolu. Bu yüzden bana öyle geliyor ki, evrimin düşünme için bulduğu birçok bilişsel hileyi çok farklı süreçlerle yeniden yapıyoruz. Ama sonunda bilişsel olarak benzer mimarilere yakınsayacağız.
Dwarkesh Patel 00:24:02
10 yıl sonra da hâlâ transformer benzeri bir şey olacağını düşünüyor musunuz? Ama çok daha fazla değiştirilmiş attention ve daha seyrek MLP vb. ile?
Andrej Karpathy 00:24:10
Ben buna zamansal öteleme değişmezliği açısından bakıyorum. 10 yıl önce neredeydik? 2015. 2015’te ağırlıklı olarak evrişimsel sinir ağlarımız vardı ve residual network daha yeni çıkmıştı. Şaşırtıcı derecede benzer ama yine de oldukça farklı. Transformer’lar henüz yoktu. Transformer’lara dair bu daha modern ayarlamalar da yoktu. Bence 10 yıl sonrasına dair öteleme eşdeğerliğiyle yapabileceğimiz çıkarımlardan biri şu: Hâlâ ileri ve geri geçiş ve gradyan inişiyle yapılan güncellemelerle devasa sinir ağları eğitiyor olacağız. Ama muhtemelen biraz farklı görünecek ve her şey çok daha büyük olacak.
Kısa süre önce birkaç yıl geriye, hatta 1989’a kadar gittim; benim için eğlenceli bir alıştırmaydı. Yann LeCun’un 1989’daki convolutional network’ünü yeniden üretiyordum. Bildiğim kadarıyla bu, gradyan inişiyle eğitilmiş ilk sinir ağıydı. Yani sayı tanıma için modern anlamdaki, gradyan inişiyle eğitilmiş bir sinir ağı. Ben de bunu nasıl modernleştirebileceğimi merak ediyordum. Bunun ne kadarı algoritma? Ne kadarı veri? Bu ilerlemenin ne kadarı hesaplama ve sistemlerden geliyor? Çok hızlı bir şekilde, 33 yıllık zaman yolculuğuyla öğrenmeyi yarı yarıya azaltabildim.
Yani algoritma tarafında 33 yıl ileri gidince, Yann LeCun’un 1989’da yaptığını ayarlayıp hatayı yarıya indirebildim. Ama daha fazla kazanım için çok daha fazla veri eklemem gerekti; eğitim setini 10 kat büyütmem gerekti ve daha fazla hesaplama optimizasyonu eklemem gerekti. Dropout ve diğer düzenlileştirme teknikleriyle çok daha uzun süre eğitmem gerekti.
Dolayısıyla bütün bunların aynı anda iyileşmesi gerekiyor. Muhtemelen çok daha fazla verimiz olacak, çok daha iyi donanıma sahip olacağız, donanımı çalıştırmak ve donanımdan alınabilecek verimi en üst düzeye çıkarmak için çok daha iyi kernel’lar ve yazılımlarımız olacak, ve daha iyi algoritmalarımız olacak. Bunların hiçbiri tek başına çok baskın görünmüyor. Hepsi şaşırtıcı biçimde eşit. Bu bir süredir böyle gidiyor.
Sorunuza dönersek, bunun algoritmik olarak bugün olanlardan farklı olmasını bekliyorum. Ama aynı zamanda çok uzun süredir devam eden bazı şeylerin de muhtemelen hâlâ orada olmasını bekliyorum. Muhtemelen yine gradyan inişiyle eğitilen devasa sinir ağları olacak. Benim tahminim bu.
Dwarkesh Patel 00:26:16
Her şeyi bir araya getirince hatayı sadece yarıya indirmiş olmanız şaşırtıcı. 30 yıllık ilerleme... Gerçi yarısı çok olabilir. Çünkü hatayı yarıya indirdiğinizde bu aslında...
Andrej Karpathy 00:26:30
Yarısı çok fazla. Ama beni şaşırtan şey, her şeyin genel olarak iyileşmek zorunda olmasıydı: mimari, optimizer, loss function. Ayrıca bunların hepsi genel olarak sonsuza dek iyileşiyor gibi. O yüzden tüm bu değişimlerin yaşamaya ve güçlü kalmaya devam edeceğini düşünüyorum.
Dwarkesh Patel 00:26:43
Evet. Aslında nanochat hakkında çok benzer bir soru soracaktım. Yakın zamanda kodladığınız için, chatbot yapma sürecinin tüm aşamaları zihninizde çok taze. GPT-2’den nanochat’e gelirken de “aa, meğer hiçbir şey alakasız değilmiş” gibi benzer bir düşünceniz olup olmadığını merak ediyorum. Bu deneyimden çıkan şaşırtıcı ders neydi?
Andrej Karpathy 00:27:08
nanochat’i yapmakla ilgili mi? nanochat benim yayımladığım repository. Dün müydü, yoksa evvelsi gün mü? Hatırlamıyorum.
Dwarkesh Patel 00:27:15
Uykusuzluğun neye yol açtığını görebiliyoruz sanırım...
Andrej Karpathy 00:27:18
Bu, baştan sona bir ChatGPT klonu yapmanın tüm pipeline’ını kapsayan en basit ve en eksiksiz repository olmaya çalışıyor. Yani sadece tek tek aşamalar değil, tüm aşamalar var ve bunlar epey fazla. Geçmişte bu tekil aşamaların hepsi üzerinde çalıştım ve algoritmik anlamda, bunların basit kodla nasıl yapılacağını gösteren küçük kod parçaları yayımladım. Ama bu tüm pipeline’ı kapsıyor. Öğrenme açısından, bundan kaçınılmaz olarak yeni bir şey öğrendiğimden emin değilim. Nasıl yapılacağını zaten kafamda kurmuştum. Bu daha çok mekanik olarak inşa etme ve insanların öğrenebileceği, faydalı bulabileceği kadar düzenli hâle getirme süreciydi.
Dwarkesh Patel 00:28:04
Birinin bundan öğrenmesi için en iyi yol ne olur? Tüm kodu silip baştan yeniden uygulamaya çalışmak mı, yoksa değişiklikler eklemeye çalışmak mı?
Andrej Karpathy 00:28:10
Güzel soru. Temelde bu, baştan sona tüm pipeline’ı geçen yaklaşık 8.000 satırlık kod. Muhtemelen bunu sağ monitöre koyardım. İki monitörünüz varsa sağa koyun. Baştan yapmak istiyorsanız, baştan başlayın. Kopyala-yapıştır yasak; referans almak serbest ama kopyala-yapıştır yasak. Muhtemelen ben de böyle yapardım.
Ama repository’nin kendisinin de oldukça büyük bir canavar olduğunu düşünüyorum. Bu kodu yazarken yukarıdan aşağı gitmiyorsunuz; parçalarla ilerliyor ve o parçaları büyütüyorsunuz, ama o bilgi orada yok. Nereden başlayacağınızı bilemezsiniz. O yüzden sadece son repository’ye değil, repository’nin nasıl yapıldığına da ihtiyaç var ve bu karmaşık bir parça büyütme süreci. Yani o kısım henüz yok. Muhtemelen bu haftanın ilerleyen günlerinde eklemek istiyorum. Belki bir video ya da öyle bir şey olur. Kabaca yapmaya çalıştığım şey bu. Kendiniz yapın ama kopyala-yapıştır yapmayın.
Bence neredeyse iki tür bilgi var. Yüksek seviyeli, yüzeysel bilgi var; ama bir şeyi sıfırdan yaptığınızda, anlamadığınız şeylerle yüzleşmek zorunda kalırsınız ve aslında anlamadığınızı bile bilmediğiniz şeylerle karşılaşırsınız.
Bu her zaman daha derin bir anlayışa götürür. İnşa etmenin tek yolu bu. Eğer yapamıyorsanız, anlamıyorsunuz demektir. Sanırım bu Feynman alıntısı. Ben buna her zaman çok güçlü biçimde inandım. Çünkü ortada doğru hizalanmamış bu küçük ayrıntılar var ve aslında bilgiye sahip değilsiniz. Sadece bilgiye sahip olduğunuzu sanıyorsunuz. O yüzden blog yazısı yazmayın, slayt hazırlamayın, öyle şeyler yapmayın. Kod yazın, düzenleyin ve çalıştırın. İlerlemenin tek yolu bu. Aksi hâlde bilgide eksik kalırsınız.
00:29:45 – LLM bilişsel engeli
Dwarkesh Patel 00:29:45
Bu repository’yi bir araya getirirken kodlama modellerinin neredeyse hiç yardımcı olmadığını tweet atmıştınız. Neden böyle olduğunu merak ediyorum.
Andrej Karpathy 00:29:53
Repository’yi biraz aşkın bir sürede yaptığımı söylemek istiyorum. Ayrıca şu anda insanların kodla etkileşim kurmasının üç ana sınıfı olduğunu söylemek istiyorum. Bazı insanlar LLM’leri tamamen reddediyor ve her şeyi sıfırdan yazıyor. Bu muhtemelen artık doğru yöntem değil.
Orta kısım benim bulunduğum yer: hâlâ pek çok şeyi sıfırdan yazıyorum ama artık bu modellerden kullanılabilir otomatik tamamlama alıyorum. Küçük bir parçayı yazmaya başlıyorum, o da otomatik olarak tamamlıyor ve tab ile geçebiliyorum. Çoğu zaman doğru oluyor, bazen yanlış oluyor ve düzenliyorum. Ama yine de yazdığınız şeyin mimarı sizsiniz. Sonra vibe coding var: “Merhaba, şunu ya da bunu uygula”, enter, ve modeli kendi haline bırakıyorsunuz. İşte bu da ajan.
Bence ajanlar çok belirli kurulumlarda çalışıyor ve belirli kurulumlarda kullanılacak. Ama bunların hepsi kullanılabilir araçlar; neyi iyi yaptıklarını, neyi iyi yapamadıklarını ve ne zaman kullanılmaları gerektiğini öğrenmeniz gerekiyor. Ajanlar örneğin boilerplate işler için epey iyiler. Sadece kopyala-yapıştır gibi boilerplate kodlarda, bu tür şeylerde çok iyiler. İnternette çok sık görülen şeylerde çok iyiler. Çünkü bu modellerin eğitim setlerinde bunun çok sayıda örneği var. Modelin çok iyi yapacağı şeylerin bazı özellikleri var.
Ama nanochat’in böyle bir örnek olmadığını söylemek isterim. Çünkü bu oldukça benzersiz bir depo. Benim yapılandırdığım biçimde çok fazla kod yok. Bu boilerplate kod değil. Entelektüel olarak yoğun bir kod ve her şeyin çok hassas biçimde yerleştirilmesi gerekiyor. Modellerin çok fazla bilişsel kusuru var. Bir örnek olarak, internetteki benim benimsemediğim tüm yaygın yöntemlere dair çok fazla ezbere sahip oldukları için kodu sürekli yanlış anladılar. Modeller örneğin—tüm ayrıntılara girmek ister miyim bilmiyorum ama—benim genel amaçlı kod yazdığımı sanmaya devam etti, oysa öyle değildi.
Dwarkesh Patel 00:31:49
Belki bir örnek?
Andrej Karpathy 00:31:51
8 GPU’nuz var ve hepsi forward ve backward çalıştırıyor. Aralarındaki gradyanları senkronize etmenin yolu PyTorch’un Distributed Data Parallel sarmalayıcısını kullanmak; backward sırasında otomatik olarak iletişimi başlatıyor ve gradyanları senkronize ediyor. Ben DDP kullanmadım. Çünkü kullanmak istemedim. Gerekli değildi. Onu attım ve optimizer adımının içine kendi senkronizasyon rutinimi yazdım. Modeller beni DDP sarmalayıcısını kullanmaya zorlamaya çalıştı. Bu konuda çok endişeliydiler. Bu fazla teknik oluyor ama ben o sarmalayıcıyı kullanmadım. Çünkü gerekli değildi ve ona benzer bir şeyin özel bir implementasyonuna sahiptim.
Dwarkesh Patel 00:32:26
Kendi çözümünüz olduğunu içselleştiremediler yani.
Andrej Karpathy 00:32:28
Bunu aşamadılar. Stili bozmaya sürekli çalıştılar. Aşırı derecede savunmacılar. Her türden try-catch bloğu üretiyorlar. Sürekli production codebase oluşturmaya çalışıyorlar ama benim kodumda pek çok varsayım var ve bu sorun değil. Orada tüm bu ek şeylere ihtiyacınız yok. O yüzden codebase’i şişirdiklerini, karmaşıklığı şişirdiklerini, sürekli yanlış anladıklarını ve defalarca kullanımdan kalkmış API’ler kullandıklarını düşünüyorum. Tam bir karmaşa. Net olarak faydalı değil. İçeri girip temizleyebilirsiniz ama net faydası yok.
Ayrıca istediğim şeyi İngilizce yazarak anlatmak bana zahmetli geliyor. Çünkü çok fazla yazı yazmak gerekiyor. İstediğim kod bölümüne gidip kodun görünmesi gereken yere geçersem ve ilk birkaç harfi yazmaya başlarsam, otomatik tamamlama bunu anlayıp bana kodu veriyor. Bu, ne istediğinizi belirtmenin çok yüksek bant genişlikli bir yolu. İstediğiniz koda işaret edip ilk birkaç parçayı yazıyorsunuz, model de tamamlıyor.
Demek istediğim şu: bu modeller yığının belirli katmanlarında iyiler. Modeli kullandığım iki örnek var ve bunların öğretici olduğunu düşünüyorum. Biri bir rapor ürettiğim zamandı. Bu daha boilerplate türündeydi, o yüzden bir kısmını kısmen vibe coding ile yaptım. Görev açısından kritik değildi, bu yüzden sorun olmadı ve iyi çalıştı.
Diğer kısım ise tokenizer’ı Rust ile yeniden yazarken oldu. Rust konusunda çok iyi değilim. Çünkü Rust benim için oldukça yeni. Bu yüzden Rust kodu yazarken biraz vibe coding vardı. Ama tamamen anladığım bir Python implementasyonum vardı, daha verimli bir sürüm yaptığımızdan emin oluyordum ve testlerim de vardı; bu yüzden böyle şeyleri yapmayı daha güvenli hissettim. Bunlar, aşina olmadığınız dillere veya paradigmalara erişimi artırıyor. Orada da çok faydalı olduklarını düşünüyorum. Çok fazla Rust kodu var ve modeller bunda epey iyiler. Ben bu konuda çok şey bilmiyorum, dolayısıyla modeller orada çok faydalı.
Dwarkesh Patel 00:34:23
Bu sorunun bu kadar ilginç olmasının nedeni, insanların AI patlaması ve süper zekâ seviyesine çok hızlı ulaşılmasıyla ilgili ana anlatısının, yapay zekânın AI mühendisliğini ve AI araştırmasını otomatikleştirmesi olması. Claude Code’a sahip olduklarını ve sıfırdan tam uygulamalar, CRUD uygulamaları oluşturabildiklerini görüyorlar; sonra da “Eğer OpenAI ve DeepMind içinde aynı yeteneğe sahip olsaydınız, küçük mimari ayarlamalar bulan paralel çalışan binlerce seni ya da bir milyon seni hayal et” diye düşünüyorlar.
Sizin bunun tam da asimetrik olarak daha kötü oldukları alan olduğunu söylediğinizi duymak çok ilginç. Bu, AI 2027 tarzı bir patlamanın yakında olup olmayacağını tahmin etmek açısından oldukça ilgili.
Andrej Karpathy 00:35:05
Bu iyi bir ifade biçimi ve zaman çizelgemin neden biraz daha uzun olduğunu anlıyorum. Evet, haklısınız. Daha önce hiç yazılmamış kodda o kadar iyi değiller. Belki bunu ifade etmenin bir yolu budur ve biz bu modelleri oluştururken ulaşmaya çalıştığımız şey de bu.
Dwarkesh Patel 00:35:19
Çok safça bir soru ama nanochat’e eklediğiniz mimari ayarlamalar bir yerde makalelerde var, değil mi? Hatta bir yerde depolarda da olabilir. “Şuna RoPE embedding ekle” dediğinizde, bunu yanlış yapmaları şaşırtıcı değil mi?
Andrej Karpathy 00:35:42
Zor. Biliyorlar ama tam olarak bilmiyorlar. Depoyu, sizin stilinizi, sizin kodunuzu, sizin bağlamınızı ve yaptığınız bazı özelleştirmelerin depo içindeki tüm varsayımlarla nasıl uyduğunu gerçekten nasıl entegre edeceklerini bilmiyorlar. Bir miktar bilgiye sahipler ama bunu bütünleştirip gerçekten anlayabilecekleri noktaya gelmiş değiller.
Pek çok şey sürekli iyileşiyor. Şu anda kullandığım son teknoloji model GPT-5 Pro ve bu çok güçlü bir model. Eğer 20 dakikanız varsa, tüm depoyu kopyalayıp GPT-5 Pro’ya, yani oracle’a gidiyor ve birkaç soru soruyorum. Çoğu zaman o kadar da kötü değil ve 1 yıl önce var olan şeye kıyasla şaşırtıcı derecede iyi.
Genel olarak modeller henüz orada değil. Bence sektör çok büyük bir sıçrama varmış ve bu inanılmazmış gibi davranmaya çalışıyor ama öyle değil. Bu, özensiz çıktı. Bununla gerçekten yüzleşmiyorlar; belki de yatırım toplamaya çalışıyorlar ya da öyle bir şey. Ne olduğunu bilmiyorum ama şu anda bu ara aşamadayız. Modeller inanılmaz. Yine de hâlâ çok iş gerekiyor. Şimdilik benim tatlı noktam otomatik tamamlama. Ama bazen, belirli kod türleri için LLM ajanına giderim.
Dwarkesh Patel 00:36:53
Bunun gerçekten ilginç olmasının bir başka nedeni daha var. Programlama tarihi boyunca birçok verimlilik artışı oldu—derleyiciler, linting, daha iyi programlama dilleri—bunlar programcı verimliliğini artırdı ama bir patlamaya yol açmadı. Bu, otomatik tamamlama sekmesine çok benziyor gibi geliyor ve bu diğer kategori de sadece programcının otomasyonu. Bunu daha çok daha iyi derleyiciler gibi tarihsel benzerlikler kategorisinde görmeniz ilginç.
Andrej Karpathy 00:37:26
Muhtemelen bu, başka bir düşünceye götürüyor. Benim için yapay zekanın nerede başlayıp nerede bittiğini ayırt etmek zor; çünkü yapay zekayı temelde, hesaplamanın oldukça köklü bir uzantısı olarak görüyorum. Bunu bir süreklilik olarak görüyorum. Özyinelemeli öz-iyileştirmeden ya da programcıları hızlandıran şeylerin en başından beri uzanan bir süreklilik: kod editörleri, sözdizimi vurgulama ya da tip denetimi gibi, veri tipi denetimi gibi — birbirimiz için yaptığımız bütün bu araçlar.
Hatta arama motorları bile. Arama motorları neden yapay zekanın bir parçası olmasın? Sıralama yapay zekadır. Bir noktada Google, daha ilk zamanlarında bile, Google arama motorunu yapan bir yapay zeka şirketi olarak kendini düşünüyordu. Bu tamamen makul.
Ben bunu diğer insanlara kıyasla çok daha fazla bir süreklilik olarak görüyorum. Benim için bir çizgi çekmek zor. Şimdi çok daha iyi otomatik tamamlama alıyoruz ve artık bu tür yinelemeli şeyler olan bazı ajanlar da elde ediyoruz, ama bazen raydan çıkıyorlar. Olan şey, insanların düşük seviyeli işleri giderek biraz daha az yapması. Assembly kodu yazmıyoruz, çünkü derleyiciler var. Derleyiciler, C gibi yüksek seviyeli bir dili alıp assembly kodunu yazıyor.
Kendimizi çok, çok yavaş bir şekilde soyutluyoruz. Ben buna "otonomi kaydırıcısı" diyorum; giderek daha fazla şey otomatikleşiyor — otomatikleştirilebilecek şeyler arasında — ve biz bunları adım adım daha az yapıyor, otomasyonun üzerindeki soyutlama katmanında kendimizi yükseltiyoruz.
00:40:05 – RL berbat
Dwarkesh Patel 00:40:05
RL hakkında biraz konuşalım. Bununla ilgili çok ilginç şeyler tweetlediniz. Kavramsal olarak, insanların yalnızca çevreyle etkileşime girerek zengin dünya modelleri kurabilmesini nasıl düşünmeliyiz? Ve bunu, bölümün sonundaki nihai ödülle neredeyse alakasız görünen bir şekilde yapıyorlar.
Birisi bir iş kurup 10 yıl sonra işin başarılı mı başarısız mı olduğunu öğrendiğinde, o kişinin çok fazla bilgelik ve deneyim kazandığını söyleriz. Ama bu, son 10 yılda olan her bir şeyin log-olasılığının yukarı ya da aşağı ağırlıklandırılması yüzünden değil. Çok daha amaçlı ve zengin bir şey oluyor. Bunun ML analojisi nedir ve şu anda LLM’lerle yaptığımız şeyle nasıl karşılaştırılır?
Andrej Karpathy 00:40:47
Belki bunu ifade etme biçimim şu olur: insanlar reinforcement learning kullanmıyor. Dediğim gibi. Başka bir şey yaptıklarını düşünüyorum. Reinforcement learning, ortalama bir insanın düşündüğünden çok daha kötü. Reinforcement learning berbat. Bunun işe yarıyor gibi görünmesinin tek nedeni, ondan önce sahip olduğumuz her şeyin çok daha kötü olmasıydı. Çünkü daha önce sadece insanları taklit ediyordunuz ve bu yüzden bütün bu sorunlar vardı.
Reinforcement learning’de, diyelim ki bir matematik problemi çözüyorsunuz. Çünkü bu çok basit. Bir matematik problemi veriliyor ve çözümü bulmaya çalışıyorsunuz. Reinforcement learning’de önce paralel olarak birçok şeyi denersiniz. Problem verildiğinde yüzlerce farklı deneme yaparsınız. Bu denemeler karmaşık olabilir. "Şunu deneyelim, bunu deneyelim, bu çalışmadı, şu çalışmadı" vb. olabilir. Sonra belki cevabı elde edersiniz. Şimdi kitabın arkasına bakıp "tamam, doğru cevap bu" dersiniz. Şunun, bunun ve ötekinin doğru cevaba ulaştığını, ama diğer 97 tanesinin ulaşmadığını görebilirsiniz. Reinforcement learning’in kelimenin tam anlamıyla yaptığı şey, gerçekten işe yarayanlara gidip süreçte yaptığınız her bir şeyi, her bir token’ı, "bunu daha fazla yap" diye yukarı ağırlıklandırmaktır.
Bunun sorunu şu: insanlar tahminleyicinizin yüksek varyansa sahip olduğunu söyler ama bu sadece gürültü. Gürültü. Bu, doğru cevaba neredeyse ulaşmış çözümün bütün küçük parçalarının yapılması gereken doğru şeyler olduğunu varsayıyor; ama bu doğru değil. Doğru cevaba ulaşana kadar yanlış sokaklara sapmış olabilirsiniz. Doğru cevabı aldığınız sürece, yaptığınız her bir yanlış şey "bunu daha fazla yap" diye yukarı ağırlıklandırılacak. Berbat. Gürültü.
Bütün bu işi yapıyorsunuz ve sonunda tek bir sayı alıyorsunuz: "Ah, doğruymuş." Buna dayanarak, tüm trajeyi yukarı ya da aşağı ağırlıklandırıyorsunuz. Benim sevdiğim ifade şu: denetimi pipetle içmek. Bir dakikalık bir rollout olabilecek bütün bu işi yaptınız ve nihai ödül sinyalinin denetim bitlerini pipetle içiyor, sonra bunu tüm traje boyunca yayıyor ve trajeyi yukarı ya da aşağı ağırlıklandırmak için kullanıyorsunuz. Bu düpedüz aptalca ve çılgınca.
İnsanlar bunu asla böyle yapmazdı. Birincisi, insanlar asla yüzlerce rollout yapmazdı. İkincisi, bir insan çözümü bulduğunda, "Tamam, şu kısımları iyi yaptığımı düşünüyorum, şu kısımları ise o kadar iyi yapmadım. Muhtemelen bunu ya da şunu yapmalıydım" gibi oldukça karmaşık bir gözden geçirme sürecine sahip olurdu. İnsanlar şeyler üzerine düşünür. Mevcut LLM’lerde bunu yapan hiçbir şey yok. Bunun eşdeğeri yok. Ama makalelerin ortaya çıktığını görüyorum. Bunu yapmaya çalışan makaleler çıkıyor. Çünkü bu, alandaki herkes için apaçık.
İlk imitation learning bu arada son derece şaşırtıcıydı, mucizeviydi, olağanüstüydü. İnsan taklidi üzerinden fine-tuning yapabilmeniz gerçekten inanılmazdı. Bu şaşırtıcıydı. Çünkü başlangıçta elimizde sadece base model vardı. Base model otomatik tamamlamadır. O zamanlar bu bana açık değildi ve bunu öğrenmem gerekti. Aklımı uçuran makale InstructGPT idi. Çünkü orada söylenen şey şuydu: önceden eğitilmiş bir modeli, yani otomatik tamamlamayı alıp, onu konuşmaya benzeyen metinlerle fine-tune ettiğinizde model çok hızlı biçimde uyum sağlıyor, son derece konuşkan hale geliyor ve pretraining’den gelen bütün bilgisini koruyor. Bu benim aklımı uçurdu. Çünkü üslup açısından, bunun bu kadar hızlı ayarlanabileceğini ve sadece bu tür veriler üzerinde birkaç fine-tuning döngüsüyle kullanıcıya bir asistan haline gelebileceğini anlamamıştım. Bunun işe yaraması benim için gerçekten mucizeviydi. Son derece etkileyiciydi. Bu 2-3 yıllık bir çalışmaydı.
Şimdi RL geldi. Ve RL, basit imitation learning’den biraz daha iyi işler yapmanızı sağlıyor. Çünkü bu tür ödül fonksiyonlarına sahip olabiliyorsunuz ve ödül fonksiyonu üzerinde hill climbing yapabiliyorsunuz. Bazı problemlerde sadece doğru cevap vardır ve uzman trajelerini taklit etmeden buna doğru hill climbing yapabilirsiniz. Bu yüzden bu etkileyici. Model ayrıca insanların asla aklına gelmeyecek çözümler de keşfedebilir. Bu da etkileyici. Ama yine de aptalca.
Daha fazlasına ihtiyacımız var. Dün Google’dan, bu yansıma ve gözden geçirme fikrini akılda tutmaya çalışan bir makale gördüm. Memory bank makalesi miydi? Bilmiyorum. O yönde birkaç makale gördüm. O yüzden LLM’ler için algoritmaların nasıl yapılacağına dair büyük güncellemenin o alandan geleceğini tahmin ediyorum. Sanırım bundan üç, dört ya da beş tane daha lazım, öyle bir şey.
Dwarkesh Patel 00:44:54
Canlı ifadeler üretmekte gerçekten çok iyisiniz. "Denetimi pipetle içmek" ifadesini gerçekten çok sevdim.
Sonuç temelli ödüllerin sorununun, elinizde bu devasa traje olması ve sondaki o tek nihai bitten ne yapmanız gerektiğine ve dünya hakkında öğrenmeniz gereken her türlü olası şeye dair her şeyi öğrenmeye çalışmanız olduğunu söylüyorsunuz. Bu kadar açık olduğuna göre, süreç temelli denetim neden alternatif olarak modeli daha yetkin hale getiren başarılı bir yöntem olamadı? Bu alternatif paradigmanın kullanılmasını engelleyen şey ne?
Andrej Karpathy 00:45:29
Süreç temelli denetim, ödül fonksiyonuna yalnızca en sonda sahip olmayacağımız anlamına geliyor. 10 dakikalık bir iş yaptıktan sonra size iyi mi kötü mü yaptığınızı söylemeyeceğiz. Her adımda ne kadar iyi gittiğinizi söyleyeceğiz. Buna sahip olmamamızın nedeni, bunu doğru yapmanın zor olması. Kısmi çözümler var ve krediyi nasıl tahsis edeceğimizi bilmiyoruz. Doğru cevabı alırsanız, bu sadece cevapla eşdeğerlik eşleşmesi oluyor. Bunu uygulamak çok basit. Süreç denetimi yapıyorsanız, kısmi krediyi otomatikleştirilebilir bir şekilde nasıl tahsis edersiniz? Bunu nasıl yapacağımız net değil.
Birçok laboratuvar bunu bu tür LLM hakemlerle yapmaya çalışıyor. LLM bunu yapmaya çalışıyor. LLM’e şu tür bir istem veriyorsunuz: "Hey, öğrencinin kısmi çözümüne bak. Cevap buysa, sence ne kadar iyi gidiyor?" Sonra da istemi ayarlamaya çalışıyorlar.
Bunun zor olmasının nedeni oldukça incelikli. Ödül atamak için ne zaman bir LLM kullansanız, bu LLM’ler milyarlarca parametreye sahip devasa yapılar ve kandırılabilirler. Bunlar üzerinde pekiştirmeli öğrenme yapıyorsanız, neredeyse garanti olarak LLM hakemler için adversarial örnekler bulursunuz. O yüzden bunu çok uzun süre sürdüremezsiniz. Belki 10 ya da 20 adım yaparsanız işe yarayabilir, ama 100 ya da 1.000 yapamazsınız. Bunun neden açık olmadığını anlıyorum, ama temel olarak model küçük çatlaklar bulacaktır. Devasa modelin her köşesinde bu tür sahte şeyleri bulacak ve onu kandırmanın bir yolunu keşfedecektir.
Aklımda özellikle öne çıkan bir örnek var; bu muhtemelen kamuya açıktı. Ödül için bir LLM hakem kullanıyorsanız, öğrenciden bir çözüm alıp öğrencinin iyi yapıp yapmadığını soruyorsunuz. Biz bu ödül fonksiyonu üzerinden pekiştirmeli öğrenmeyle eğitim yapıyorduk ve gerçekten iyi çalışıyordu. Sonra bir anda ödül aşırı yükseldi. Muazzam bir sıçramaydı ve mükemmel görünüyordu. Buna bakıp, "Vay, bu öğrencinin tüm bu problemlerde kusursuz olduğu anlamına geliyor. Matematiği tamamen çözdü" diye düşünüyorsunuz.
Ama modelden aldığınız tamamlanmalara baktığınızda, bunlar tamamen saçmalık. Fena başlamıyor, sonra bir anda "dhdhdhdh" oluyor. Sadece "Tamam harika, 2 artı 3’ü alıp bunu yapıyorsun, şunu yapıyorsun, sonra da dhdhdhdh" gibi. Buna bakınca, bu delilik. Nasıl 1 ya da %100 ödül alıyor? LLM hakeme baktığınızda, "dhdhdhdh"nin model için bir adversarial örnek olduğu ortaya çıkıyor ve ona %100 olasılık atıyor.
Bunun nedeni sadece bunun LLM için dağılım dışı bir örnek olması. Eğitim sırasında bunu hiç görmedi ve tamamen genelleme bölgesinde. Eğitim sırasında bunu hiç görmediğinde ve saf genelleme bölgesinde olduğunuzda, onu bozan bu tür örnekleri bulabiliyorsunuz.
Dwarkesh Patel 00:47:52
Yani temelde LLM’i bir prompt injection modeli olacak şekilde eğitiyorsunuz.
Andrej Karpathy 00:47:56
O bile değil. Prompt injection fazla süslü kalıyor. Adına ne diyorlarsa, adversarial örnekler buluyorsunuz. Bunlar açıkça yanlış, saçma cevaplar ama model bunların harika olduğunu düşünüyor.
Dwarkesh Patel 00:48:07
Bunun RL’yi daha yetenekli hale getirmenin darboğazı olduğunu düşündüğünüz ölçüde, bunu otomatik bir şekilde yapmak için LLM’i daha iyi bir hakem haline getirmeniz gerekecek. Modeli daha sağlam yapmak için GAN benzeri bir yaklaşım mı gerekir?
Andrej Karpathy 00:48:22
Laboratuvarlar muhtemelen bunların hepsini yapıyordur. Açık olan şu ki, "dhdhdhdh" %100 ödül almamalı. Tamam, "dhdhdhdh"yi alıp LLM hakemin eğitim setine koyuyorsunuz ve bunun %100 değil, %0 olduğunu söylüyorsunuz. Bunu yapabilirsiniz ama bunu her yaptığınızda yeni bir LLM elde ediyorsunuz ve hâlâ adversarial örnekleriniz oluyor. Sonsuz sayıda adversarial örnek var.
Belki bunu birkaç kez tekrarlarsanız, adversarial örnek bulmak giderek zorlaşır. Ama bundan %100 emin değilim. Çünkü bunun 1 trilyon parametresi falan var. Laboratuvarların bunu denediğine eminim. Hâlâ başka fikirlere ihtiyaç olduğunu düşünüyorum.
Dwarkesh Patel 00:48:57
İlginç. Bu başka fikirlerin nasıl görünebileceğine dair bir düşünceniz var mı?
Andrej Karpathy 00:49:02
Çözümleri gözden geçirme ve sentetik örnekleri dahil etme fikri var; bunlar üzerinde eğitim yaptığınızda daha iyi hale geliyor ve bir bakıma meta öğrenme yapıyorsunuz. Sanırım bunu başlatan birkaç makale var. Ben sadece özetleri okuma aşamasındayım. Çünkü bu makalelerin çoğu sadece bir fikirden ibaret. Birilerinin bunu frontier LLM laboratuvarı ölçeğinde, tam genellikte çalışır hale getirmesi gerekiyor. Çünkü bu makalelere baktığınızda ortaya çıkıyorlar ama biraz gürültü gibi kalıyorlar. Güzel fikirler ama bunun mümkün olduğunu ikna edici biçimde gösteren birini görmedim. Yine de LLM laboratuvarları oldukça kapalı yapılar, dolayısıyla şu anda ne yaptıklarını kimse bilmiyor.
00:49:38 – İnsanlar nasıl öğreniyor?
Dwarkesh Patel 00:49:38
Sentetik örnekler ya da kendi oluşturduğunuz sentetik problemler üzerinde eğitmenin bir yolunu kavramsallaştırabiliyorum. Ama insanların yaptığı başka bir şey var gibi görünüyor—belki bu uyku, belki de hayal kurma—illa sahte problemler üretmek değil, sadece düşünmek.
Hayal kurmanın, uykunun ya da sadece düşünmenin ML analojisinin ne olduğundan emin değilim. Yeni bir problem üretmedim. Açıkçası çok temel bir analoji, düşünme parçaları üzerinde ince ayar yapmak olurdu ama bunun pratikte o kadar iyi çalışmayacağını hissediyorum. Bunun analojisinin ne olduğuna dair bir fikriniz var mı?
Andrej Karpathy 00:50:17
Bence orada bazı yönleri kaçırıyoruz. Mesela kitap okumayı ele alın. Bugünkü LLM bir kitap okurken, bunun anlamı metin dizisini açmanız, modelin bir sonraki token’ı tahmin etmesi ve bundan bir miktar bilgi edinmesi. İnsanların yaptığı şey aslında bu değil. Bir kitap okurken, kitap dikkatinizi verip eğitilmeniz gereken bir açıklama gibi gelmiyor. Kitap, sentetik veri üretimi yapmak için bir istemler kümesi ya da kitap kulübüne gidip arkadaşlarınızla onun hakkında konuşmak için bir araç. O bilgiyi manipüle ederek gerçekten o bilgiyi kazanıyorsunuz. LLM tarafında bunun bir karşılığı yok. Onlar gerçekten bunu yapmıyor. Ön eğitim sırasında malzemeyi düşünüp onu zaten bildikleriyle uzlaştırmaya çalıştıkları, onun üzerine bir süre düşündükleri ve böylece işlemesini sağladıkları bir aşama olmasını isterdim. Bunların hiçbirinin bir karşılığı yok. Bunların hepsi araştırma konusu.
Bunun neden önemsiz olmadığını açıklayan çok incelikli—bence anlaşılması çok zor—nedenler var. Birini açıklayabilirsem: Neden sentetik olarak üretip bunun üzerinde eğitim yapamıyoruz? Modele kitap hakkında düşündüğü sentetik üretimler verdiğinizde, ona bakıp "Bu harika görünüyor. Neden bunun üzerinde eğitim yapamıyoruz?" diye düşünüyorsunuz. Deneyebilirsiniz ama bunu yapmaya devam ederseniz model çok daha kötü hale gelir. Bunun nedeni modelden aldığınız tüm örneklerin sessizce çökmesidir. Sessizce—tek tek örneklere baktığınızda bu açık değildir—bunlar olası düşünce uzayının çok küçük bir manifoldunu kaplar. LLM’ler üretildiklerinde, bizim "çökmüş" dediğimiz durumdadırlar. Çökmüş bir veri dağılımına sahiptirler. Bunu görmenin kolay yollarından biri ChatGPT’ye gidip "Bana bir şaka yap" demektir. Sadece 3 şakası var. Size mümkün olan şakaların tüm genişliğini vermiyor. Bildiği 3 şaka var. Bunlar sessizce çökmüş durumda.
Bu modellerden, insanlardan aldığımız türden zenginlik, çeşitlilik ve entropiyi elde edemiyoruz. İnsanlar çok daha gürültülü, ama en azından önyargılı değiller, istatistiksel anlamda. Sessizce çökmediler. Muazzam miktarda entropiyi koruyorlar. Peki çöküşe rağmen sentetik veri üretiminin işe yaramasını sağlarken entropiyi korumanın yolu ne? Bu bir araştırma problemi.
Dwarkesh Patel 00:52:20
Doğru anladığımdan emin olmak için soruyorum: Çöküşün sentetik veri üretimiyle ilişkili olmasının nedeni, veri dağılımında zaten bulunmayan sentetik problemler ya da düşünceler üretebilmek istememiz mi?
Andrej Karpathy 00:52:32
Demek istediğim şu: Elinizde bir kitabın bir bölümü var ve LLM'den bunun hakkında düşünmesini istiyorsunuz, size çok makul görünen bir şey verecektir. Ama 10 kez sorarsanız, hepsinin aynı olduğunu fark edersiniz.
Dwarkesh Patel 00:52:44
Yani aynı miktarda prompt bilgisi için "düşünme"yi sürekli ölçekleyip bundan getiri elde edemezsiniz, diyorsunuz.
Andrej Karpathy 00:52:54
Tek tek örnekler iyi görünüyor, ama bunların dağılımı oldukça korkunç. Kendi ürettiği şeyler üzerinde çok fazla eğitirseniz gerçekten çökecek olması bakımından da oldukça korkunç.
Bunun temel bir çözümünün olmayabileceğini düşünüyorum. Ayrıca insanların da zamanla çöktüğünü düşünüyorum. Bu benzetmeler şaşırtıcı derecede iyi. İnsanlar yaşamları boyunca çöküyor. Çocukların henüz aşırı uyum göstermemiş olmasının nedeni de bu. Sizi şoke edebilecek şeyler söylerler. Çünkü bunun nereden geldiğini görebilirsiniz, ama insanlar normalde böyle konuşmaz. Çünkü onlar henüz çökmedi. Ama biz çöktük. Aynı düşüncelere tekrar tekrar dönüyoruz. Giderek aynı şeyleri söylüyoruz, öğrenme oranı düşüyor, çöküş giderek kötüleşiyor ve sonra her şey daha da kötü oluyor.
Dwarkesh Patel 00:53:39
Rüyaların bu tür aşırı uyumu ve çöküşü önlemenin bir yolu olduğunu öne süren çok ilginç bir makaleyi gördünüz mü? Rüyaların evrimsel olarak uyum sağlayıcı olmasının nedeni, sizi günlük gerçeklikten çok farklı tuhaf durumlara sokmaları; böylece bu tür aşırı uyumu önlemeleri.
Andrej Karpathy 00:53:55
İlginç bir fikir. Kafanızın içinde bir şeyler üretip onlara dikkat ettiğinizde, sentetik veriniz üzerinde eğitildiğinizi düşünüyorum. Bunu çok uzun süre yaparsanız, yörüngeden çıkıyor ve fazla çöküyorsunuz. Hayatta her zaman entropi aramak gerekir. Başkalarıyla konuşmak harika bir entropi kaynağıdır, bu tür şeyler. Dolayısıyla belki de beyin, bu süreçte entropi miktarını artırmak için iç mekanizmalar geliştirmiştir. İlginç bir fikir bu.
Dwarkesh Patel 00:54:25
Bu çok iyi biçimlenmemiş bir düşünce, o yüzden sadece söyleyip tepkinizi almak istiyorum. Bildiğimiz en iyi öğrenenler olan çocuklar, bilgi hatırlamakta aşırı derecede kötüler. Aslında çocukluğun en erken aşamalarında her şeyi unuturlar. Belli bir yaştan önce olan her şey için adeta amnezi hastası gibisiniz. Ama yeni bir dili edinmekte ve dünyadan öğrenmekte son derece iyiler. Belki de ağaçlar yerine ormanı görebilmeyle ilgili bir unsur vardır.
Öte yandan tayfın karşı ucunda LLM ön eğitimi var; bu modeller kelimenin tam anlamıyla bir Wikipedia sayfasında sıradaki şeyin ne olduğunu kelime kelime tekrar edebilir. Ama bir çocuğun yapabildiği şekilde soyut kavramları gerçekten hızlı öğrenme yetenekleri çok daha sınırlı. Sonra yetişkinler bunun bir yerlerinde duruyor; çocukluk öğrenmesindeki esnekliğe sahip değiller ama çocukların daha zorlandığı biçimde olguları ve bilgileri ezberleyebiliyorlar. O tayfta ilginç bir şey olup olmadığını bilmiyorum.
Andrej Karpathy 00:55:19
Bence bunda çok ilginç bir şey var, yüzde 100. İnsanların, LLM'lere kıyasla ağaçlar yerine ormanı görme unsuruna çok daha fazla sahip olduğunu düşünüyorum. Aslında ezber konusunda o kadar iyi değiliz ve bu aslında bir özellik. Ezberde iyi olmadığımız için, daha genel anlamda örüntüler bulmaya zorlanıyoruz.
LLM'ler buna karşılık ezberde son derece iyi. Tüm bu eğitim kaynaklarından pasajlar ezberden okuyacaklar. Onlara tamamen anlamsız veri verebilirsiniz. Bir miktar metni hash'leyebilir ya da benzeri bir şey yapabilir, tamamen rastgele bir dizi elde edebilirsiniz. Bunun üzerinde eğitildiğinde, bir iki yinelemeden sonra aniden tamamını tekrar edebilir. Ezberler. Bir insanın rastgele sayılardan oluşan tek bir diziyi okuyup size aynen tekrar etmesinin bir yolu yok.
Bu bir hata değil, bir özellik. Çünkü sizi yalnızca genellenebilir bileşenleri öğrenmeye zorluyor. Buna karşılık LLM'ler, ön eğitim belgelerinden gelen tüm o anılar yüzünden dikkatleri dağılıyor ve bu muhtemelen belli bir anlamda onlar için çok dikkat dağıtıcı. Bu yüzden bilişsel çekirdekten söz ettiğimde, konuştuğumuz belleği çıkarmak istiyorum. Daha az belleğe sahip olmalarını, bu yüzden bazı şeylere bakmak zorunda kalmalarını ve sadece düşünmeye yönelik algoritmaları, deney fikrini ve davranışın tüm bilişsel yapıştırıcısını korumalarını tercih ederim.
Dwarkesh Patel 00:56:36
Bunun model çöküşünü önlemekle de bir ilgisi var mı?
Andrej Karpathy 00:56:41
Düşüneyim. Emin değilim. Neredeyse ayrı bir eksen gibi. Modeller ezberde fazla iyiler ve bir şekilde bunu kaldırmamız gerekiyor. İnsanlar bunda çok daha kötü ama bu iyi bir şey.
Dwarkesh Patel 00:56:57
Model çöküşüne çözüm ne? Denenebilecek çok naif şeyler var. Mesela logit'ler üzerindeki dağılımın daha geniş olması gerektiği gibi şeyler. Denenebilecek çok sayıda naif şey var. Naif yaklaşımların sonunda karşılaştığı sorun ne oluyor?
Andrej Karpathy 00:57:11
Güzel soru. Entropi üzerine bir düzenlileştirme olduğunu hayal edebilirsiniz, bu tür şeyler. Bunlar deneysel olarak pek iyi çalışmıyor gibi görünüyor. Çünkü şu anda modeller çökmüş durumda. Ama diyeceğim şu ki, onlardan istediğimiz görevlerin çoğu aslında çeşitlilik gerektirmiyor. Muhtemelen olan bitenin cevabı bu.
Sınır laboratuvarları modelleri faydalı hale getirmeye çalışıyor. Çıktı çeşitliliğinin pek de... Birincisi bunun üzerinde çalışmak ve bunu değerlendirmek çok daha zor ve benzeri nedenler var ama muhtemelen değerin büyük kısmını da bu yakalamıyor.
Dwarkesh Patel 00:57:42
Aslında bu aktif olarak cezalandırılıyor. RL'de çok yaratıcıysanız, bu iyi bir şey değil.
Andrej Karpathy 00:57:48
Evet. Ya da LLM'den çok fazla yazı yardımı alıyorsanız, bu muhtemelen kötüdür. Çünkü modeller sessizce size hep aynı şeyi verecek. Bir soruya cevap vermenin birçok farklı yolunu keşfetmeyecekler.
Muhtemelen bu çeşitlilik, birçok uygulamanın buna ihtiyaç duymaması nedeniyle modellerde yok. Ama sentetik veri üretimi sırasında ve benzeri durumlarda sorun haline geliyor. Yani modellerde bu entropinin korunmasına izin vermeyerek kendi ayağımıza sıkıyoruz. Belki de laboratuvarlar daha çok çaba göstermeli.
Dwarkesh Patel 00:58:17
Bunun çok temel bir sorun olduğunu, dolayısıyla çözmenin kolay olmayacağını ima ettiğinizi düşündüm. Buna dair sezginiz ne?
Andrej Karpathy 00:58:24
Bunun çok temel olduğundan emin değilim. Bunu söylemeyi amaçlayıp amaçlamadığımı da bilmiyorum. Bu tür deneyleri yapmadım ama muhtemelen entropiyi daha yüksek olacak şekilde düzenlileştirebileceğimizi düşünüyorum. Böylece modeli giderek daha fazla cevap vermeye teşvik edersiniz ama eğitim verisinden de fazla sapmasını istemezsiniz. Kendi dilini icat etmeye başlayacaktır. Aşırı derecede nadir kelimeler kullanmaya başlayacağı için dağılımdan fazla uzaklaşacaktır.
Yani bence dağılımı kontrol etmek sadece zor. Muhtemelen bu anlamda hiç de önemsiz değildir.
Dwarkesh Patel 00:58:58
Tahmin etmek gerekirse, optimal zekâ çekirdeği kaç bit olmalı? Bunu von Neumann sondasına koyacak olsaydınız, ne kadar büyük olurdu?
Andrej Karpathy 00:59:10
Bu, alanın tarihinde gerçekten ilginç bir nokta; çünkü bir dönem her şey tam anlamıyla ölçeklendirme takıntısıydı. “Ah, çok daha büyük modeller yapacağız, trilyon parametreli modeller.” Modeller bir kez boyutta büyüdü, şimdi ise küçüldü. En ileri modeller daha küçük. Yine de bence hâlâ fazlasıyla ezber yapıyorlar. Bu yüzden bir süre önce bir tahmin yaptım; bana göre neredeyse 1 milyar parametre düzeyinde bile çok iyi bir bilişsel çekirdek elde edebilirsiniz.
1 milyar parametreli bir modelle konuşsanız, 20 yıl sonra onunla çok verimli bir sohbet edebileceğinizi düşünüyorum. Düşünür ve insana çok daha benzer olur. Ama ona olgusal bir soru sorsanız, bunu araştırması gerekebilir; bilmediğini bilir, bakması gerektiğini anlar ve tüm makul şeyleri yapar.
Dwarkesh Patel 00:59:54
1 milyar parametre gerekeceğini düşünmeniz bana şaşırtıcı geliyor. Çünkü zaten 1 milyar parametreli ya da birkaç milyar parametreli modeller var ve onlar oldukça zeki.
Andrej Karpathy 01:00:02
Şey, en ileri modeller trilyon parametre civarında gibi. Ama çok fazla şey hatırlıyorlar.
Dwarkesh Patel 01:00:06
Evet ama 10 yıl sonra, bu gidişatı düşününce bu şaşırtıcı... gpt-oss-20b var. Bu, başlangıçta trilyonun üzerinde parametreye sahip olan GPT-4’ten çok daha iyi. Bu eğilim göz önüne alındığında, 10 yıl sonra bilişsel çekirdeğin hâlâ 1 milyar parametre olacağını düşünmeniz bana şaşırtıcı geliyor. “Ah, o on milyonlar ya da milyonlar düzeyine iner” demenizi bekleseydiniz buna şaşırmazdım.
Andrej Karpathy 01:00:30
Sorun şu. Eğitim verisi internet ve internet gerçekten korkunç. İnternet korkunç olduğu için elde edilebilecek muazzam kazanımlar var. Hatta internet dediğimizde, siz ve ben interneti düşünürken aklınıza Wall Street Journal gibi şeyler geliyor. Ama olay bu değil. Frontier laboratuvarlarında ön eğitim veri setine bakıp rastgele internet belgeleri gördüğünüzde, bunlar tam bir çöp. Bunun nasıl çalıştığını hiç anlamıyorum. Hisse senedi kodları, semboller, internetin her köşesinden gelen inanılmaz miktarda çamur ve çöp. Wall Street Journal makaleleri gibi şeyler değil; onlar son derece nadir. Bu yüzden internet o kadar korkunç ki, bunların hepsini sıkıştırabilmek için gerçekten büyük modeller yapmak zorundayız. Bu sıkıştırmanın büyük kısmı bilişsel işten çok bellek işi.
Ama bizim gerçekten istediğimiz şey bilişsel kısım ve belleği silmek. Demek istediğim, ön eğitim setini sadece bilişsel bileşene daraltabilmek için onu rafine etmeye yardımcı olacak zeki modellere ihtiyacımız var. O zaman veri seti çok daha iyi olur ve bunun üzerinde eğitebiliriz; bu yüzden bence bunu çok daha küçük bir modelle yapabilirsiniz. Ama muhtemelen doğrudan bunun üzerinde eğitilmeyecek; muhtemelen yine çok daha iyi bir modelden damıtılacak.
Dwarkesh Patel 01:01:35
Ama neden damıtılmış sürüm hâlâ 1 milyar olsun?
Andrej Karpathy 01:01:39
Bence damıtma inanılmaz iyi çalışıyor. Bu yüzden neredeyse tüm küçük modeller, eğer küçük bir model varsa, neredeyse kesinlikle damıtılmıştır.
Dwarkesh Patel 01:01:46
Doğru ama 10 yıl sonraki damıtma neden 1 milyarın altına inmiyor?
Andrej Karpathy 01:01:50
Ah, 1 milyardan küçük olması gerektiğini mi düşünüyorsunuz? Yani, lütfen, değil mi? Bilmiyorum. Bir noktada ilginç şeyler yapabilmek için en az 1 milyar ayar düğmesine ihtiyacınız olmalı. Siz daha küçük olması gerektiğini mi düşünüyorsunuz?
Dwarkesh Patel 01:02:01
Evet. Son birkaç yılda düşük asılı meyveleri toplayarak, trilyonun üzerindeki modellerden kelimenin tam anlamıyla 2 kat daha küçük modellere, sadece 2 yılda daha iyi performansla geçildiğini görünce, zekânın çekirdeğinin çok ama çok daha küçük olabileceğini düşündürüyor. Feynman’ın deyişiyle, aşağıda bolca yer var.
Andrej Karpathy 01:02:22
1 milyar parametreli bir bilişsel çekirdekten söz etmem bile zaten ana akım dışıymış gibi geliyor, ama siz benden de ileri gidiyorsunuz. Belki biraz daha küçük olabilir. Aslında modelin bir miktar bilgiye sahip olmasını istediğimi düşünüyorum. Her şeyi gidip araştırmasını istemiyorum. Çünkü o zaman kafasının içinde düşünemez. Sürekli çok fazla şeyi araştırıyor olur. Bilgi için bir tür temel müfredat olmalı, ama ezoterik bilgiye sahip olmamalı.
Dwarkesh Patel 01:02:48
Bilişsel çekirdeğin ne olabileceğini tartışıyoruz. Bir de frontier model boyutlarının zaman içinde ne olacağına dair ayrı bir soru var. Merak ediyorum, buna dair bir tahmininiz var mı? GPT 4.5’e kadar ölçeğin büyüdüğünü, şimdi ise küçüldüğünü ya da durakladığını görüyoruz. Bunun arkasında pek çok neden olabilir. İleriye dönük tahmininiz nedir? En büyük modeller büyür mü, küçülür mü, aynı mı kalır?
Andrej Karpathy 01:03:14
Çok güçlü bir tahminim yok. Laboratuvarlar sadece pragmatik davranıyor. FLOP bütçeleri ve maliyet bütçeleri var. Ön eğitimin, FLOP ya da maliyetin büyük kısmını harcamak istediğiniz yer olmadığı ortaya çıktı. Modellerin küçülmesinin nedeni bu. Biraz daha küçükler; ön eğitim aşaması daha küçük ama bunu pekiştirmeli öğrenme, ara eğitim ve sonrasında gelen tüm diğer aşamalarda telafi ediyorlar. Sadece her aşamada en yüksek etkiyi nasıl alabilecekleri konusunda pragmatik davranıyorlar.
Bu eğilimi tahmin etmek oldukça zor. Ben hâlâ toplanacak çok fazla düşük asılı meyve olduğunu düşünüyorum. Varsayılan beklentim bu. Burada zihnimde çok geniş bir dağılım var.
Dwarkesh Patel 01:03:51
Bu düşük asılı meyvelerin, son 2-5 yılda olan şeylerin türüne benzer olacağını mı bekliyorsunuz? nanochat ile nanoGPT arasındaki farklara ve sizin yaptığınız mimari ayarlamalara bakınca, bunun devam etmesini beklediğiniz gelişmelerin tadı bu mu? Devasa paradigma değişimleri beklemiyorsunuz yani.
Andrej Karpathy 01:04:11
Büyük ölçüde, evet. Veri setlerinin çok ama çok daha iyi olmasını bekliyorum. Ortalama veri setlerine baktığınızda, korkunç derecede kötüler. O kadar kötüler ki herhangi bir şeyin nasıl çalıştığını hiç anlamıyorum. Eğitim setindeki ortalama örneğe bakın: olgusal hatalar, yanlışlar, saçmalıklar. Bir şekilde büyük ölçekte yaptığınızda, gürültü yıkanıp gidiyor ve geriye biraz sinyal kalıyor. Veri setleri muazzam biçimde iyileşecek.
Her şey iyileşiyor. Donanımımız, donanımı çalıştıran yazılımlar ve donanımdan alabildiğimizi en üst düzeye çıkarmaya yönelik tüm kernel’ler. Nvidia donanımın kendisini yavaş yavaş ayarlıyor, Tensor Core’lar, bunların hepsinin olması gerekiyor ve olmaya da devam edecek. Tüm kernel’ler daha iyi olacak ve çipi sonuna kadar kullanacak. Tüm algoritmalar muhtemelen optimizasyonlarda, mimaride ve her şeyin nasıl yapıldığına dair tüm modelleme bileşenlerinde, ayrıca eğittiğimiz algoritmaların ne olduğunda iyileşecek. Tek bir şeyin baskın olmasını beklemiyorum. Her şey artı %20. Aşağı yukarı gördüğüm tablo bu.
01:06:25 – AGI, %2 GSYİH büyümesine dahil olacak.
Dwarkesh Patel 01:06:25
İnsanlar, tam AGI’ye ulaşma yolunda ne kadar ilerlediğimizi grafikleştirmek için çeşitli yöntemler önerdi. Bir tür çizgi çizebilirseniz, o çizginin AGI ile nerede kesiştiğine ve bunun x ekseninde ne zaman gerçekleştiğine bakabilirsiniz. İnsanlar bunun eğitim seviyesi olduğunu öne sürdü. Lise seviyesindeydik, sonra RL ile üniversite seviyesine geldik, sırada doktora var.
Andrej Karpathy 01:06:44
Ben bundan hoşlanmıyorum.
Dwarkesh Patel 01:06:45
Ya da ufuk uzunluğunu öneriyorlar. Belki 1 dakika süren görevleri yapabiliyorlar ve bunu otonom şekilde yapabiliyorlar. Sonra insanın 1 saatte yaptığı görevleri, insanın 1 haftada yaptığı görevleri de otonom şekilde yapabiliyorlar. Burada ilgili y ekseni hakkında ne düşünüyorsunuz? Yapay zekanın nasıl ilerlediğini nasıl düşünmeliyiz?
Andrej Karpathy 01:07:05
Buna iki cevabım var. Birincisi, neredeyse sorunun kendisini reddetmek istiyorum. Çünkü ben bunu hesaplamanın genişlemesi olarak görüyorum. Hesaplamadaki ilerlemeyi nasıl grafikleştiriyoruz diye konuştuk mu hiç, ya da 1970’lerden bu yana hesaplamadaki ilerlemeyi nasıl grafikleştiririz? Bu bakış açısından y ekseni nedir? Bu perspektiften bakınca sorunun tamamında biraz komik bir taraf var.
İnsanlar yapay zekadan, ilk AGI kavramından ve OpenAI başladığında bunun hakkında nasıl konuştuğumuzdan söz ettiğinde, AGI; ekonomik değeri olan tüm işleri insan performansında ya da onun üstünde yapabilen bir sistemdi. Tanım buydu. O zamanlar bu tanımdan oldukça memnundum ve hep de buna sadık kaldım. Sonra insanlar türlü türlü başka tanımlar uydurdu. Ama ben bu tanımı seviyorum.
İnsanların yaptığı ilk taviz, tüm fiziksel işleri denklemden çıkarmak oluyor. Çünkü artık sadece dijital bilgi işinden bahsediyoruz. Bu, orijinal tanıma göre oldukça büyük bir taviz. Orijinal tanım, insanların yapabildiği her işti. Ben nesneleri kaldırabiliyorum, vesaire. Yapay zeka bunu yapamıyor, bariz şekilde, ama bunu kabul edeyim. “Sadece bilgi işi” dediğimizde ekonominin ne kadarını dışarıda bırakıyoruz? Sayıyı bilmiyorum. İçgüdüsel tahminim, eğer illa tahmin edeceksem, yaklaşık %10 ila %20. Yani sadece bilgi işi; birinin evden çalışıp görevleri yerine getirebildiği işler ve benzerleri. Bu hâlâ gerçekten büyük bir pazar. Ekonominin büyüklüğü ne ve onun %10’u ya da %20’si ne ediyor? Hâlâ trilyonlarca dolardan söz ediyoruz; yalnızca ABD’de bile pazar payı ya da iş hacmi açısından. Yani bu hâlâ son derece devasa bir kategori.
Tanıma geri dönersek, benim aradığım şey bu tanımın ne kadar doğru olduğu. Ortada işler mi var, yoksa çok sayıda görev mi var? Eğer bunları iş olarak değil görev olarak düşünürseniz. Bu zor. Çünkü sorun şu: toplum, hangi işlerin otomasyona uygun olup olmadığına göre, işleri oluşturan görevler temelinde kendini yeniden düzenleyecek. Bugün, yapay zeka ile yer değiştirilebilecek işler hangileri? Yakın zamandaki iyi örneklerden biri Geoff Hinton’ın öngörüsüydü. Radyologların artık bir iş olarak kalmayacağı yönündeydi ve bunun birçok açıdan çok yanlış olduğu ortaya çıktı. Radyologlar hâlâ burada, iyi durumdalar ve büyüyorlar. Bilgisayarlı görü, görüntülerde tanımaları gereken pek çok şeyi tanımakta gerçekten, gerçekten çok iyi olsa da. Çünkü bu, hastayla ilgilenmeyi ve bütün bu bağlam içinde çok sayıda yüzeyi olan karmaşık bir işi içeriyor.
Bu tanıma göre, yapay zekanın henüz büyük bir etki yarattığını düşünmüyorum. Benim dikkat edeceğim işlerden bazıları, bazı özellikleri nedeniyle diğerlerinden daha erken otomasyona çok daha uygun. Mesela çağrı merkezi çalışanları sık sık gündeme geliyor ve bence bu doğru. Çağrı merkezi çalışanlarının işleri, bugün otomasyona uygun olan şeyler açısından çok sayıda basitleştirici özelliğe sahip. İşleri oldukça basit. Bir görevler dizisi ve tüm görevler birbirine benziyor. Bir insanla telefonda konuşuyorsunuz, 10 dakikalık bir etkileşim oluyor ya da her neyse, belki biraz daha uzundur. Benim deneyimime göre çok daha uzun ama. Sonra bir sistem içinde bazı işleri tamamlıyorsunuz, bazı veritabanı kayıtlarını değiştiriyorsunuz ya da benzeri şeyler. Yani sürekli bir şeyi tekrar ediyorsunuz ve işiniz bu.
Görev ufkunu —bir görevin tamamlanmasının ne kadar sürdüğünü— ele almak istiyorum, sonra da bağlamı çıkarmak istiyorum. Şirketin hizmetinin başka taraflarıyla ya da diğer müşterilerin başka bölümleriyle uğraşmıyorsunuz. Sadece veritabanı, siz ve hizmet verdiğiniz kişi varsınız. Daha kapalı, daha anlaşılır ve tamamen dijital. Dolayısıyla ben böyle şeylere bakardım.
Ama orada bile henüz tam otomasyon aramıyorum. Aradığım şey otonomi kaydırıcısı. İnsanların hemen yerini alacağımızı beklemiyorum. Hacmin %80’ini yapan yapay zekayı devreye sokacağız. Kalan %20’yi insanlara devredecekler ve insanlar, daha şablonlu çağrı merkezi işlerini yapan 5 yapay zeka ekibini denetliyor olacak. Ben, bu yapay zekaların bazılarını yönetmeyi mümkün kılan katmanlar sunan yeni arayüzler ya da yeni şirketler arardım. Bunlar henüz kusursuz değil. Sonra bunu tüm ekonomi genelinde beklerdim. Pek çok iş, çağrı merkezi çalışanlığından çok daha zor.
Dwarkesh Patel 01:11:02
Radyologlar konusunda, tamamen tahmin yürütüyorum ve bir radyoloğun gerçek iş akışının neleri içerdiğini hiç bilmiyorum. Ama uygulanabilir olabilecek bir benzetme şu olabilir: Waymo ilk kez devreye alındığında, ön koltukta oturan bir insan vardı ve gerçekten kötü bir şey olursa orada olması gerekiyordu. Bugün bile insanlar, işlerin iyi gittiğinden emin olmak için izlemeyi sürdürüyor. Yeni devreye alınan robotaksi sistemlerinde bile hâlâ içinde bir insan var.
Şimdi, bir işin %99’unu otomatikleştirsek bile, insanın yapması gereken son %1, geri kalan her şeyin darboğazı olduğu için aşırı değerli olabilir; buna benzer bir durumla karşı karşıya olabiliriz. Radyolog örneğinde, eğer Waymo’nun önünde oturan kişinin o son %1’i sağlayabilmesi için yıllarca özel eğitim alması gerekiyorsa, ücretinin muazzam biçimde artması gerekir. Çünkü geniş çaplı devreye alımın önündeki tek darboğaz odur. Bence radyologların ücretleri de benzer nedenle arttı; eğer son darboğaz sizseniz ve ikame edilemiyorsanız. Waymo sürücüsü ise başkalarıyla ikame edilebilir olabilir. Dolayısıyla %99’a ulaşana kadar ücretlerin yükseldiğini ve sonra son %1 de ortadan kalkınca sert biçimde düştüğünü görebilirsiniz. Acaba radyolojide ya da çağrı merkezi çalışanlarının ücretlerinde ya da benzer yerlerde buna benzer şeyler görüyor muyuz diye merak ediyorum.
Andrej Karpathy 01:12:17
İlginç bir soru. Şu anda radyolojide bunun görüldüğünü sanmıyorum. Radyolojinin iyi bir örnek olduğunu da düşünmüyorum. Geoff Hinton’ın neden radyolojiyi seçtiğini bilmiyorum. Çünkü bunun son derece karmaşık bir meslek olduğunu düşünüyorum.
Örneğin bugün çağrı merkezi çalışanlarına ne olduğuyla çok daha fazla ilgilenirdim. Çünkü daha şablonlu olan birçok kısmın bugün otomasyona uygun olmasını bekliyorum. Buna dair birinci elden erişimim yok ama çağrı merkezi çalışanlarında ne olduğuna dair eğilimlere bakardım. Bekleyeceğim başka bir şey de muhtemelen şu olurdu: belki yapay zekayı devreye alıyorlar ama sonra yine de 1-2 yıl beklerdim. Çünkü sonrasında geri adım atıp bazı insanları yeniden işe almalarını da potansiyel olarak beklerdim.
Dwarkesh Patel 01:13:00
Yapay zekayı benimsemiş şirketlerde bunun genel olarak zaten yaşandığına dair kanıtlar vardı. Bence bu oldukça şaşırtıcı.
Bana ayrıca gerçekten şaşırtıcı gelen bir şey daha vardı. AGI, değil mi? Her şeyi yapacak. Fiziksel işleri hariç tutalım ama tüm bilgi işini yapabilmesi gerekir. Safça bekleyeceğim şey, bu ilerlemenin danışmanların yaptığı küçük görevleri alıp bunları o kategoriden çıkarmak şeklinde gerçekleşmesiydi. Muhasebecilerin yaptığı küçük görevleri alıp bunları o kategoriden çıkarmak. Sonra da bunu tüm bilgi işleri boyunca yapıyor olmak.
Ama bunun yerine, mevcut paradigmayla AGI’ye giden yolda olduğumuza inanıyorsanız, ilerleme hiç de öyle görünmüyor. Danışmanlar ve muhasebeciler muazzam üretkenlik artışları elde ediyormuş gibi görünmüyor. Bu, programcıların işlerinde giderek daha fazla pay kapmasıyla çok benzer. Bu şirketlerin gelirlerine baktığınızda, genel sohbet gelirini dışarıda bırakırsanız—ki bu Google gibi şeylere benziyor—yalnızca API gelirine bakarsanız, kodlama baskın çıkıyor. Yani tüm bilgi işlerini yapabilmesi gereken bu “genel” şey ezici biçimde sadece kodlama yapıyor. AGI’nin dağıtılmasını bekleyeceğiniz oldukça şaşırtıcı bir yol.
Andrej Karpathy 01:14:13
Buradaki ilginç nokta şu. Kodlamanın bu LLM’ler ve ajanlar için mükemmel ilk alan olduğuna inanıyorum. Çünkü kodlama her zaman temelde metin etrafında çalıştı. Bilgisayar terminali ve metin; her şey metin tabanlı. LLM’ler, internette eğitilme biçimleri nedeniyle metni seviyor. Mükemmel bir metin işleyici ve orada tüm bu veri var. Kusursuz bir eşleşme.
Ayrıca kodu ve metni işlemek için önceden kurulmuş çok fazla altyapımız da var. Örneğin, Visual Studio Code ya da sevdiğiniz IDE kodu gösteriyor ve ajan buna bağlanabiliyor. Eğer ajanın yaptığı değişikliklere dair bir diff varsa, bir anda kod tabanındaki tüm farkları göstermek için diff kullanan bütün bu koda zaten sahibiz. Sanki kod için çok fazla altyapıyı önceden inşa etmişiz gibi.
Bunu bundan hiç fayda görmeyen şeylerle karşılaştırın. Örneğin, kodlama değil de slaytlar için otomasyon kurmaya çalışan insanlar var. Slaytlarla uğraşan bir şirket gördüm. Bu çok, çok daha zor. Daha zor olmasının nedeni slaytların metin olmaması. Slaytlar küçük grafiklerden oluşuyor, uzamsal olarak düzenleniyor ve görsel bileşenlere sahip. Slaytlar bu önceden kurulmuş altyapıya sahip değil. Örneğin, bir ajan slaytı değiştirirse, diff’i nasıl gösterirsiniz? Diff’e nasıl bakarsınız? Slaytlar için diff gösteren bir şey yok. Bunu birinin yapması gerekiyor. Bunların bazıları, metin işleyici olan yapay zekaya uygun değil; kod ise şaşırtıcı biçimde uygun.
Dwarkesh Patel 01:15:48
Bunun tek başına açıklayıcı olduğundan emin değilim. Ben şahsen, saf dil girdisi ve dil çıktısı olan alanlarda LLM’leri faydalı hale getirmeye çalıştım; örneğin transkriptleri yeniden yazmak ya da transkriptlere dayanarak klipler oluşturmak gibi. Yapılabilecek her şeyi yapmamış olmam çok olası. Birçok iyi örneği bağlama koydum ama belki de bir tür ince ayar yapmak gerekiyordu.
Ortak arkadaşımız Andy Matuschak, modelin aralıklı tekrar istemleri yazmada iyi olması için 50 milyar şey denediğini söyledi. Yine, bu çok dil girdisi, dil çıktısı olan bir görev ve bu LLM’lerin repertuvarının tam merkezinde olması gereken türden bir şey. few shot örnekleriyle bağlam içi öğrenmeyi denedi. Gözetimli ince ayar ve retrieval da denedi. Onu tatmin edecek kartlar üretmesini sağlayamadı.
Dolayısıyla, dil çıktısı alanlarında bile, kodlamanın dışında bu modellerden çok fazla ekonomik değer elde etmenin çok zor olması etkileyici. Bunu neyin açıkladığını bilmiyorum.
Andrej Karpathy 01:16:57
Bu mantıklı. Metin olan her şeyin önemsiz olduğunu söylemiyorum. Kodun epey yapılandırılmış olduğunu düşünüyorum. Metnin muhtemelen çok daha süslü olduğunu ve içinde çok daha fazla entropi bulunduğunu söylemek isterim. Bunu başka nasıl ifade edeceğimi bilmiyorum. Ayrıca kod zor, bu yüzden insanlar yalnızca basit bilgilerden bile LLM’ler sayesinde epey güçlenmiş hissediyor. Çok iyi bir cevabım olduğunu düşünmüyorum. Açıkçası metin bunu çok ama çok daha kolay hale getiriyor, ama bu tüm metnin önemsiz olduğu anlamına gelmiyor.
01:17:36 – ASI (süperzeka)
Dwarkesh Patel 01:17:36
Süperzeka hakkında ne düşünüyorsunuz? Bunun sıradan insanlardan ya da insan şirketlerinden niteliksel olarak farklı hissettireceğini düşünüyor musunuz?
Andrej Karpathy 01:17:45
Ben bunu toplumdaki otomasyonun ilerleyişi olarak görüyorum. Hesaplamadaki eğilimi dışa vurursanız, birçok şeyin kademeli otomasyonu olacak ve süperzeka bunun bir dışavurumu olacak. Zaman içinde giderek daha fazla özerk varlığın çok sayıda dijital işi yaptığını ve ardından bir süre sonra hatta fiziksel işleri bile yaptığını görmeyi bekliyorum. Temelde buna kabaca otomasyon olarak bakıyorum.
Dwarkesh Patel 01:18:10
Ama otomasyon, insanların zaten yapabildiği şeyleri kapsıyor; süperzeka ise insanların yapamadığı şeyleri ifade ediyor.
Andrej Karpathy 01:18:16
Ama insanların yaptığı şeylerden biri yeni şeyler icat etmek ve eğer bu anlamlıysa ben bunu da otomasyonun içine dahil ederim.
Dwarkesh Patel 01:18:20
Ama daha az soyut ve daha niteliksel olarak, bir şeyin... çünkü bu çok daha hızlı düşünebildiği için ya da çok fazla kopyası olabildiği için ya da bu kopyalar tekrar birleşebildiği için ya da çok daha akıllı olduğu için ya da yapay zekanın sahip olabileceği diğer pek çok avantajdan herhangi biri nedeniyle, böyle yapay zekaların var olduğu bir medeniyet insan medeniyetinden niteliksel olarak farklı mı hissettirecek?
Andrej Karpathy 01:18:51
Evet, bence öyle olacak. Temelde otomasyon olacak ama son derece yabancı görünecek. Gerçekten tuhaf görünecek. Dediğiniz gibi, tüm bunları bilgisayar kümelerinde çalıştırabilir ve çok daha hızlı yapabiliriz.
Dünya böyle göründüğünde beni endişelendirmeye başlayan senaryolardan bazıları, neler olup bittiğine dair kontrolün ve anlayışın kademeli olarak kaybı. Bence en olası sonuç anlayışın kademeli kaybı. Bu şeyleri yavaş yavaş her yere katman katman ekleyeceğiz ve onları anlayan insanlar giderek daha da azalacak. Sonra da neler olup bittiğine dair kontrolün ve anlayışın kademeli kaybı olacak. Bana göre tüm bunların nasıl ilerleyeceğine dair en olası sonuç bu gibi görünüyor.
Dwarkesh Patel 01:19:31
Bunu biraz daha açayım. Kontrol kaybı ile anlayış kaybının aynı şey olup olmadığı net değil. TSMC’nin, Intel’in yönetim kurulu—rastgele herhangi bir şirket adı—bunlar sadece itibarlı 80 yaşındaki insanlar. Neredeyse hiç anlayışları yok ve muhtemelen fiilen anlamlı bir kontrole de sahip değiller.
Daha iyi bir örnek ABD başkanı. Başkanın çok fazla gücü var. Mevcut görevdeki kişi hakkında olumlu bir şey söylemeye çalışmıyorum; ya da belki de çalışıyorum, ama gerçek anlayış düzeyi ile kontrol düzeyi çok farklı.
Andrej Karpathy 01:20:06
Bu adil. İyi bir itiraz. Sanırım ikisinin de kaybını bekliyorum.
Dwarkesh Patel 01:20:15
Nasıl? Anlayış kaybı açık, ama neden kontrol kaybı?
Andrej Karpathy 01:20:20
Bunun nasıl görüneceğini bilmediğimiz bir alana gerçekten derinden giriyoruz, ama bir bilimkurgu yazsaydım, her şeyi ele geçiren tek bir varlık yönünde değil, giderek daha özerk hale gelen ve birbiriyle rekabet eden birden fazla varlık yönünde giderdim. Bazıları başına buyruk hale gelir ve diğerleri onları alt eder. Bu, bizim devrettiğimiz tamamen özerk faaliyetlerin bir sıcak noktası gibi. Bunun böyle bir tada sahip olacağını hissediyorum.
Dwarkesh Patel 01:20:52
Bizden daha akıllı olmaları kontrol kaybına yol açan şey değil. Birbirleriyle rekabet etmeleri ve bu rekabetten çıkan her neyse onun kontrol kaybına yol açması.
Andrej Karpathy 01:21:06
Evet. Bunların çoğu insanlar için araç olacak ve insanlar adına hareket edecek ya da buna benzer bir şey yapacak. Dolayısıyla belki o insanlar kontrol ediyor olacak, ama muhtemelen toplum genelinde, istediğimiz sonuç anlamında, bir kontrol kaybı olacak. Hâlâ kabaca kontrolden çıkmış gibi görünen bireyler adına hareket eden varlıklara sahip olacaksınız.
Dwarkesh Patel 01:21:30
Bu, aslında daha önce sormam gereken bir soruydu. Şu anda yapay zeka mühendisliği ya da yapay zeka araştırması yaparken, bu modellerin birer ikameden ziyade daha çok derleyici kategorisine girdiğini hissettiğinizden bahsediyorduk.
Bir noktada, eğer AGI’ye sahipsek, onun sizin yaptığınız işi yapabilmesi gerekir. Sizin paralel çalışan bir milyon kopyanıza sahip olmanın yapay zeka ilerlemesinde muazzam bir hızlanmaya yol açacağını düşünüyor musunuz? Eğer bu olursa, gerçek AGI’ye sahip olduğumuzda bir zekâ patlaması görmeyi bekliyor musunuz? Bugünün LLM’lerinden bahsetmiyorum.
Andrej Karpathy 01:22:01
Evet, ama bu olağan işleyişin bir parçası. Çünkü biz zaten bir zekâ patlamasının içindeyiz ve on yıllardır öyleyiz. Bu, temelde sanayinin çok fazla yönünün üstel ağırlıklı toplamı olan GDP eğrisi. Her şey kademeli olarak otomatikleşiyor ve yüzyıllardır böyle. Sanayi Devrimi, fiziksel bileşenlerin ve araç yapımı gibi bazı alanların otomasyonuydu. Derleyiciler erken dönem yazılım otomasyonuydu, vesaire. Uzun zamandır özyinelemeli biçimde kendimizi geliştiriyor ve patlıyoruz.
Buna bakmanın başka bir yolu da şu: Dünya, biyomekanik ve benzeri şeyleri hesaba katmazsanız, oldukça sıkıcı bir yerdi ve birbirine çok benzer görünüyordu. Uzaydan bakınca, biz bu havai fişek olayının tam ortasındayız ama onu ağır çekimde izliyoruz. Bunun aslında zaten uzun süredir yaşandığını kesinlikle düşünüyorum. Yine söylüyorum, ben yapay zekâyı zaten uzun süredir devam eden şeylerden ayrı bir teknoloji olarak görmüyorum.
Dwarkesh Patel 01:23:00
Bunun süper üstel trendle süreklilik içinde olduğunu mu düşünüyorsunuz?
Andrej Karpathy 01:23:03
Evet. Beni çok ilgilendiren şey de buydu. Çünkü bir süredir GDP içinde yapay zekâyı bulmaya çalışıyordum. GDP’nin yükselmesi gerektiğini düşünüyordum. Ama bilgisayarlar ya da cep telefonları gibi çok dönüştürücü olduğunu düşündüğüm başka teknolojilere baktım. Bunları GDP’de bulamıyorsunuz. GDP aynı üstel eğri.
Hatta ilk iPhone’da App Store bile yoktu ve modern iPhone’un sahip olduğu pek çok süsü de taşımıyordu. Dolayısıyla iPhone’un çıktığı 2008’i büyük bir tektonik kırılma gibi görseniz bile, pratikte öyle değil. Her şey o kadar yayılmış ve o kadar yavaş yayılıyor ki sonunda her şey aynı üstel eğri içinde ortalamaya karışıyor. Bilgisayarlar da tamamen aynı. GDP’de onları “aa, artık bilgisayarlar var” diye seçemiyorsunuz. Böyle bir şey olmadı. Çünkü her şey fazla yavaş ilerliyor.
Yapay zekâda da tam olarak aynı şeyi göreceksiniz. Bu sadece daha fazla otomasyon. Daha önce yazamadığımız başka tür programları yazabilmemizi sağlıyor. Ama yapay zekâ hâlâ temelde bir program. Yeni bir tür bilgisayar ve yeni bir tür hesaplama sistemi. Ama tüm bu sorunlara sahip ve zaman içinde yayılacak, yine aynı üstel eğriye eklenecek. Hâlâ son derece dikleşen bir üstel eğrimiz olacak. Böyle bir ortamda yaşamak oldukça tuhaf olacak.
Dwarkesh Patel 01:24:10
Sanayi Devrimi’nden öncesinden bugüne kadar olan trende bakarsanız, %0 büyümeden 10 bin yıl önce %0,02 büyümeye ve bugün %2 büyümeye giden süper üstel bir yapı olduğunu mu söylüyorsunuz? Bu süper üstel. Eğer yapay zekâyı bunun üzerine yerleştirirsek, yapay zekânın bizi %20 büyümeye ya da %200 büyümeye taşıyacağını mı söylüyorsunuz?
Yoksa son 300 yıla baktığımızda, bilgisayarlar, elektrifikasyon, buhar makinesi, demiryolları gibi tek tek teknolojileri gördük ama büyüme oranı yine de tam olarak aynı kaldı, yani %2 mi diyorsunuz? Büyüme oranının artacağını mı söylüyorsunuz?
Andrej Karpathy 01:24:46
Büyüme oranı da kabaca sabit kaldı, değil mi?
Dwarkesh Patel 01:24:49
Sadece son 200-300 yılda. Ama insanlık tarihi boyunca patladı. %0’dan daha hızlıya, daha hızlıya, daha hızlıya gitti. Sanayi patlaması, %2.
Andrej Karpathy 01:25:01
Bir süredir GDP eğrisinde yapay zekâyı ya da yapay zekânın etkisini bulmaya çalışıyordum ve kendimi bunun yanlış olduğuna ikna ettim. İnsanlar özyinelemeli öz gelişimden ve laboratuvarlardan bahsettiğinde bile, bu olağan işleyişin bir parçası. Elbette özyinelemeli olarak kendimizi geliştireceğiz; zaten ediyorduk da.
LLM’ler, mühendislerin bir sonraki LLM turunu inşa etmek için çok daha verimli çalışmasını sağlıyor ve bileşenlerin çok daha fazlası otomatikleşiyor ve koordine ediliyor. Google Search’e erişimi olan tüm mühendisler de bunun bir parçası. IDE kullanan tüm mühendisler, otomatik tamamlama kullanan tüm mühendisler ya da Claude Code kullanan tüm mühendisler, vesaire, hepsi aynı genel hızlanmanın parçası. Fazlasıyla pürüzsüz bir süreç.
Dwarkesh Patel 01:25:41
Açık olmak gerekirse, büyüme oranının değişmeyeceğini söylüyorsunuz. Zekâ patlaması, internetin %2’lik büyüme yörüngesinde kalmamıza yardımcı olması gibi, sadece bizim de %2’lik büyüme yörüngesinde kalmamıza yardımcı olacak şekilde ortaya çıkacak.
Andrej Karpathy 01:25:53
Evet, benim beklentim aynı örüntüde kalacağımız yönünde.
Dwarkesh Patel 01:25:58
Karşı argümanı ortaya koyayım: Benim beklentim bunun patlayacağı yönünde. Çünkü gerçek AGI’nin — ve burada LLM kodlama botlarından değil, sunucularda insanların gerçek ikamesinden bahsediyorum — bu diğer verimlilik artırıcı teknolojilerden niteliksel olarak farklı olduğunu düşünüyorum. Çünkü bu, emeğin kendisi.
Bence çok ciddi emek kısıtlı bir dünyada yaşıyoruz. Bir startup kurucusuyla ya da herhangi biriyle konuşursanız ve neye daha fazla ihtiyaçları olduğunu sorarsanız, gerçekten yetenekli insanlara ihtiyaçları var. Bir şeyler icat eden, entegre eden ve uçtan uca şirketler kuran milyarlarca ek insan olsaydı, bu tek bir teknolojiden niteliksel olarak farklı hissettirirdi. Bu, sanki Dünya’ya 10 milyar ek insan gelmiş gibi olurdu.
Andrej Karpathy 01:26:44
Muhtemelen bu bir itiraz noktası. Bu konuda bir yöne ya da diğerine ikna olmaya oldukça açığım. Ama örneğin, hesaplama emektir. Hesaplama emekti. Bilgisayarlar geldiğinde pek çok iş ortadan kalktı. Çünkü bilgisayarlar artık insanların gerekli olmadığı pek çok dijital bilgi işlem işini otomatikleştiriyor. Yani bilgisayar emektir ve bu zaten açıldı.
Örneğin otonom sürüş de bilgisayarın emek yapmasıdır. O da zaten açılıyor. Bu da hâlâ olağan işleyişin bir parçası.
Dwarkesh Patel 01:27:13
Potansiyel olarak bunları çok daha hızlı üreten bir makine var. Tarihte, %0,2 büyümeden %2 büyümeye geçilen büyüme rejimi değişimlerinin örnekleri var. Bir sonraki otonom aracı, bir sonraki interneti ve her neyse onları üreten bir makine oldukça makul görünüyor...
Andrej Karpathy 01:27:33
Nereden geldiğinizi anlıyorum. Ama aynı zamanda insanların, “Kutunun içinde bir tanrımız var ve artık her şeyi yapabiliriz” varsayımında bulunduğunu hissediyorum; oysa öyle görünmeyecek. Bazı şeyleri yapabilecek. Bazı başka şeylerde başarısız olacak. Onu topluma kademeli olarak yerleştireceğiz ve sonunda yine aynı örüntüyle karşılaşacağız. Benim tahminim bu.
Kutunun içinde bir anda tamamen zekî, tamamen esnek, tamamen genel bir insana sahip olduğumuz ve bunu toplumun rastgele problemlerine dağıtabileceğimiz varsayımı… Bunun böyle süreksiz bir değişim yaratacağını sanmıyorum. Bunun sektörlerin geneline aynı türden kademeli yayılışına ulaşacağımızı düşünüyorum.
Dwarkesh Patel 01:28:14
Bu tür konuşmalarda sık sık yanlış anlaşılmaya yol açıyorum. Bu bağlamda zekâ kelimesini kullanmayı sevmiyorum. Çünkü zekâ, sanki sunucuda oturan tek bir süperzekâ varmış ve o da bu patlamayı yaratacak yeni teknolojileri ve icatları nasıl ortaya çıkaracağını ilahi biçimde biliyormuş gibi bir çağrışım yapıyor. Ben %20 büyümeyi hayal ederken kastettiğim bu değil. Ben, potansiyel olarak yüz milyonlarca çok zeki insan benzeri zihin hayal ediyorum ya da bunun için gereken tek şeyin bu olduğunu düşünüyorum.
Ama bunlardan yüz milyonlarca, milyarlarca olması; her birinin tek tek yeni ürünler üretmesi ve ekonomiye kendini nasıl entegre edeceğini bulması önemli. Çok deneyimli, zeki bir göçmen ülkeye gelse, ekonomiye nasıl entegre olacağını ayrıca çözmesine gerek kalmazdı. Bunu çözerdi. Şirket kurabilir, icat yapabilir ve dünyanın verimliliğini artırabilirdi.
Mevcut düzende bile, %10-20 ekonomik büyümeye sahip yerlerin örnekleri var. Çok sayıda insan varsa ve sermaye insanlara kıyasla daha azsa, Hong Kong, Shenzhen ya da başka bir yerde onlarca yıl boyunca %10’un üzerinde büyüme görebilirsiniz. Bunun nedeni, kaynakları kullanmaya ve bu yetişme dönemine hazırlıklı, gerçekten zeki çok sayıda insanın olması. Çünkü elimizde bu süreksizlik vardı ve bence yapay zeka da benzer olabilir.
Andrej Karpathy 01:29:33
Anlıyorum ama yine de bir tür süreksiz sıçramayı varsaydığını düşünüyorum. İleri sürmeyi bekleyen bir tür kilit açılımı varmış gibi. Birden veri merkezlerinde dahilerimiz olacak. Hâlâ, herhangi bir istatistikte bulamadığım, tarihsel emsali olmayan bir tür süreksiz sıçramayı varsaydığını düşünüyorum ve muhtemelen bunun gerçekleşmeyeceğini düşünüyorum.
Dwarkesh Patel 01:29:52
Demek istediğim, Sanayi Devrimi böyle bir sıçramaydı. %0,2 büyümeden %2 büyümeye geçildi. Ben sadece buna benzer bir sıçramayı daha göreceğimizi söylüyorum.
Andrej Karpathy 01:30:00
Biraz şüpheliyim. Sanırım bakmak lazım. Örneğin, Sanayi Devrimi öncesine ait bazı kayıtlar pek de iyi değil. Bu konuda biraz şüpheliyim ama güçlü bir görüşüm yok. Sen bunun son derece sihirli tekil bir olay olduğunu söylüyorsun. Muhtemelen onunla neredeyse aynı olacak, son derece sihirli başka bir olay daha olacağını söylüyorsun. Paradigmayı kıracak, vesaire.
Dwarkesh Patel 01:30:23
Aslında... Sanayi Devrimi’ndeki belirleyici şey, sihirli olmamasıydı. Sadece yakınlaşsaydınız, 1770’te ya da 1870’te göreceğiniz şey, tek bir çekirdek icat olmazdı. Ama aynı zamanda ilerleme çok daha hızlıydı ve ekonomiyi üstel yapının 10 katına çıktığı bir rejime taşıdı. Ben yapay zekada da benzer bir şey bekliyorum. Belirleyici icadın yapıldığı tek bir an olacağını sanmıyorum.
Andrej Karpathy 01:30:51
Kilidi açılan şey bir arz fazlası. Yeni bir enerji kaynağı gibi. Bir tür kilit açılımı var — bu durumda bir çeşit bilişsel kapasite — ve yapılacak bilişsel iş için bir arz fazlası var.
Dwarkesh Patel 01:31:02
Doğru.
Andrej Karpathy 01:31:03
Sen, bu arz fazlası eşiği aştığında bunun bu yeni teknolojiyle doldurulacağını öngörüyorsun.
Dwarkesh Patel 01:31:06
Belki buna bakmanın bir yolu şu: tarih boyunca büyümenin büyük kısmı, insanların fikirler üretmesi, sonra da insanların bu fikirleri hayata geçirip değerli çıktılar üretmek için bir şeyler yapmasından geldi. Bu sürenin büyük bölümünde nüfus patlıyordu. Büyümeyi de bu sürüklüyordu.
Son 50 yılda insanlar büyümenin durgunlaştığını savundu. Gelişmiş ülkelerin nüfusu da durakladı. Ben, çıktının süper üstel büyümesine yol açan nüfusun üstel büyümesine geri döneceğimizi düşünüyorum.
Andrej Karpathy 01:31:37
Söylemesi gerçekten zor. Bu bakış açısını anlıyorum. Ama sezgisel olarak o bakış açısını hissetmiyorum.
01:32:50 – Zekanın ve kültürün evrimi
Dwarkesh Patel 01:32:50
Bana Nick Lane’in kitabını tavsiye etmiştin. Ben de bundan yola çıkarak onu çok ilginç buldum ve kendisiyle röportaj yaptım. Zekâ ve evrim tarihi üzerine düşünmeye dair birkaç sorum var.
Son 20 yıldır yapay zeka araştırması yaptığın için, zekânın ne olduğu ve onu geliştirmek için ne gerektiği konusunda artık daha somut bir sezgin olmalı. Bunun sonucunda, evrimin buna bir şekilde kendiliğinden çarpıp ulaşmış olmasına daha mı çok şaşırıyorsun, daha mı az?
Andrej Karpathy 01:33:19
Nick Lane’in kitaplarını gerçekten çok seviyorum. Buraya gelirken onun podcast’ini dinliyordum. Zekâ ve onun evrimi konusunda, bu çok ama çok yeni bir şey. Bunun evrimleşmiş olmasına şaşırıyorum.
Orada var olabilecek tüm dünyaları düşünmek çok büyüleyici. Diyelim ki Dünya benzeri bin gezegen var; bunların nasıl göründüğünü düşünün. Nick Lane buraya geldi ve en erken evrelerin bazıları hakkında konuştu. Kabaca söylemek gerekirse, çok benzer yaşam biçimleri bekliyor ve onların çoğunda bakteri benzeri şeyler olacağını düşünüyor. Orada birkaç kopuş noktası var. Zekânın evrimi, sezgisel olarak bana oldukça nadir bir olay olması gerekiyormuş gibi geliyor.
Belki bunu bir şeyin ne kadar uzun süre var olduğuna bakarak değerlendirmeliyiz. Bakteriler 2 milyar yıl boyunca var olduysa ve hiçbir şey olmadıysa, ökaryotlara geçmek muhtemelen epey zordur. Çünkü bakteriler Dünya’nın evriminde ya da tarihinde oldukça erken ortaya çıktı. Hayvanlar ne kadar süredir var? Muhtemelen birkaç yüz milyon yıldır; koşan, sürünen ve benzeri çok hücreli hayvanlar. Bu muhtemelen Dünya’nın ömrünün %10’u. Belki de o zaman ölçeğinde o kadar da zor değil. Yine de bunun gelişmiş olması bana sezgisel olarak şaşırtıcı geliyor. Muhtemelen sadece hayvan benzeri yaşam formlarının hayvan benzeri şeyler yapmasını beklerdim. Kültür ve bilgi üreten ve biriktiren bir şey elde edebilmemiz bana şaşırtıcı geliyor.
Dwarkesh Patel 01:34:42
Bunun ardından birkaç ilginç soru var. Sutton’ın bakış açısını kabul edersek, zekânın özü hayvan zekâsıdır... Onun bir sözü şuydu: “Sincap seviyesine ulaştığınızda, AGI’ın büyük kısmını elde etmiş olursunuz.”
Biz, 600 milyon yıl önce Kambriyen Patlaması’ndan hemen sonra sincap zekâsına ulaştık. Bunu tetiklemiş görünen şey de 600 milyon yıl önceki Büyük Oksijenlenme Olayı idi. Ama zekâ algoritması, sincap zekâsını üretmek için orada zaten hemen hazırdı. Bu, hayvan zekâsının o kadar da zor olmadığını düşündürüyor. Ortamda oksijen olur olmaz, ökaryotlar ortaya çıktı ve algoritmayı da hemen elde ettiniz. Evrimin buna bu kadar hızlı bir şekilde tesadüfen ulaşmış olması bir kaza olabilir, ama bunun sonuçta oldukça basit bir şey olacağını ima edip etmediğini bilmiyorum.
Andrej Karpathy 01:35:31
Bunların herhangi biri hakkında konuşmak çok zor. Bir şeyi biraz da ne kadar süredir var olduğuna ya da ne kadar süredir bir darboğazda kalmış gibi göründüğüne dayanarak değerlendirebilirsiniz. Nick Lane, bakteriler ve arkelerdeki bu çok belirgin darboğazı açıklamakta çok başarılı. 2 milyar yıl boyunca hiçbir şey olmadı. Biyokimyada olağanüstü bir çeşitlilik var, ama hiçbir şey büyüyüp hayvan olmuyor. 2 milyar yıl.
İşaret ettiğin gibi, hayvanlar ve zekâ konusunda tam olarak buna denk bir şey görüp görmediğimizi bilmiyorum. Ayrıca belirli türden zekânın bağımsız olarak kaç kez ortaya çıktığını düşündüğümüze de bakabiliriz.
Dwarkesh Patel 01:36:07
Bu gerçekten araştırmaya değer çok iyi bir konu.
Andrej Karpathy 01:36:09
Bununla ilgili bir düşünce. Hominid zekâsı var, sonra kuş zekâsı var. Kargalar ve benzerleri son derece zeki, ama beyinlerinin ilgili bölümleri oldukça farklı ve ortak yönlerimiz çok fazla değil. Bu, zekânın birkaç kez ortaya çıktığının bir tür işareti. Öyleyse bu durumda daha sık olmasını beklersiniz.
Dwarkesh Patel 01:36:32
Önceki konuklardan Gwern ve Carl Shulman bu konuda gerçekten ilginç bir noktaya değinmişti. Onların bakış açısına göre, insanlarda ve primatlarda bulunan ölçeklenebilir algoritma kuşlarda da ortaya çıktı ve muhtemelen başka zamanlarda da. Ama insanlar, zekâdaki marjinal artışları ödüllendiren ve bu zekâ artışını gerçekleştirebilen ölçeklenebilir beyin algoritmalarına da sahip olan bir evrimsel niş buldu.
Örneğin, kuşların daha büyük beyinleri olsaydı, sadece gökten düşerlerdi. Beyin boyutlarına göre çok zekiler ama beyinlerinin büyümesini telafi eden bir niş içinde değiller. Muhtemelen gerçekten zeki... benzer olabilir.
Andrej Karpathy 01:37:28
Yunuslar gibi mi?
Dwarkesh Patel 01:37:28
Aynen, insanlarda ise araç kullanmayı öğrenmeyi ödüllendiren ellere sahibiz. Sindirimi dışsallaştırabiliyoruz ve beyne daha fazla enerji verebiliyoruz; bu da volanı harekete geçiriyor.
Andrej Karpathy 01:38:02
Yapacak şeyler de var. Yunus olsaydım bunun daha zor olacağını düşünüyorum. Ateşi nasıl yakarsınız? Suyun altında, suyun içinde yapılabilecek şeylerin evreni muhtemelen karasal ortamda yapılabileceklerden daha dardır, kimyasal olarak.
Bu nişler ve neyin teşvik edildiğine dair bu bakış açısına katılıyorum. Bunun hâlâ mucizevi olduğunu düşünüyorum. Daha büyük kaslara sahip hayvanlarda işlerin tıkanmasını beklersiniz. Zekâya geçiş gerçekten büyüleyici bir dönüm noktası.
Dwarkesh Patel 01:38:28
Gwern’in ifade ediş biçimi şu: bunun bu kadar zor olmasının nedeni, öğrenmenin o kadar önemli olması ki doğru devreyi doğrudan DNA’ya yeniden damıtmanın değmeyeceği şeylerle, öğrenmeye yetecek kadar bile önemli olmayan şeyler arasında çok dar bir çizgi bulunması. Yaşam boyu öğrenen bir algoritma kurmayı teşvik eden bir şey olması gerekiyor.
Andrej Karpathy 01:38:55
Bir tür uyarlanabilirliği teşvik etmeniz gerekiyor. Evrimin algoritmayı ağırlıklara gömemeyeceği kadar öngörülemez bir ortam istersiniz. Birçok hayvan bu anlamda önceden programlanmış durumda. İnsan ise doğduğunda bunu test zamanında çözmek zorunda. Neyin işe yarayacağını önceden kestiremediğiniz, gerçekten hızlı değişen bir ortam istiyorsunuz. Bunu test zamanında çözebilmek için zekâ ortaya çıkıyor.
Dwarkesh Patel 01:39:28
Quintin Pope’un, keskin bir sıçrama beklememesinin nedeninin insanların keskin bir sıçrama yaşamış olması olduğunu söylediği ilginç bir blog yazısı vardı. 60 bin yıl önce de bugünkü bilişsel mimariye sahip gibiydik. 10 bin yıl önce, tarım devrimi, modernite. O 50 bin yıl boyunca ne oldu? Nesiller boyunca bilgiyi biriktirebilecek bu kültürel iskeleti inşa etmek zorundaydık.
Bu, AI eğitimi yapma biçimimizde bedavaya var olan bir yetenek. Çoğu durumda kelimenin tam anlamıyla damıtılıyor. Modeli yeniden eğitirseniz, modeller birbirleri üzerinden eğitilebilir, aynı ön eğitim külliyatı üzerinde eğitilebilirler ve kelimenin tam anlamıyla sıfırdan başlamak zorunda kalmazlar. İnsanların bu kültürel döngüyü çalıştırması uzun zaman aldı ama LLM eğitme biçimimizde bunun adeta bedava geldiği hissi var.
Andrej Karpathy 01:39:45
Evet ve hayır. Çünkü LLM’ler aslında kültürün eşdeğerine sahip değil. Belki onlara çok fazla şey veriyoruz ve bunu inşa etmemeleri yönünde teşvik ediyoruzdur ya da buna benzer bir şey. Ama kültürün icadı, yazılı kaydın icadı, birbirine not iletmek; bence mevcut LLM’lerde bunların bir karşılığı yok. LLM’lerin şu anda gerçekten kültürü yok ve bunun engellerden biri olduğunu söylemek isterim.
Dwarkesh Patel 01:40:05
LLM kültürünün nasıl görüneceğine dair bir fikir verebilir misiniz?
Andrej Karpathy 01:40:09
En basit durumda bu, LLM’nin düzenleyebildiği dev bir karalama alanı olurdu. Bir şey okurken ya da bir göreve yardım ederken kendisi için bu karalama alanını düzenliyor olurdu. LLM neden başka LLM’ler için kitap yazamasın? Bu harika olurdu. Diğer LLM’ler neden bu LLM’nin kitabını okuyup ondan ilham almasın ya da sarsılmasın ve benzeri şeyler yapmasın? Bunların hiçbirinin eşdeğeri yok.
Dwarkesh Patel 01:40:29
İlginç. Böyle bir şeyin ne zaman gerçekleşmeye başlayacağını düşünüyorsunuz? Ayrıca, çok etmenli sistemler ve bir tür bağımsız AI uygarlığı ile kültürü hakkında ne düşünüyorsunuz?
Andrej Karpathy 01:40:40
Çok etmenli alanda iki güçlü fikir var ama ikisi de gerçekten ileri sürülmüş değil. Birincisi, kültür ve LLM’lerin kendi amaçları için giderek büyüyen bir bilgi repertuvarına sahip olması.
İkincisi ise self-play’in güçlü fikrine çok daha fazla benziyor. Bence son derece güçlü. Evrimde zekâyı ve evrimi ileri iten çok fazla rekabet var. AlphaGo’da daha algoritmik biçimde, AlphaGo kendi kendisiyle oynuyor ve Go’da gerçekten iyi olmayı böyle öğreniyor. Kendi kendisiyle oynayan LLM’nin eşdeğeri yok ama bunun da ortaya çıkacağını bekliyorum. Henüz kimse bunu yapmadı. Örneğin, bir LLM neden başka bir LLM’nin çözmeyi öğrendiği çok sayıda problem üretemesin? Sonra LLM sürekli daha da zor problemler sunmaya çalışır ve benzeri şeyler olur.
Bunu organize etmenin birçok yolu var. Bu bir araştırma alanı ama bu iki çok etmenli iyileştirmeden herhangi birinin ikna edici biçimde ortaya konduğunu görmedim. Hâlâ çoğunlukla tek bir bireysel etmenin alanındayız ama bu değişecek. Kültür alanında da organizasyonları dâhil etmek istiyorum. Bunu da ikna edici biçimde görmedim. Hâlâ erken aşamada olmamızın nedeni bu.
Dwarkesh Patel 01:41:53
LLM’ler arasındaki bu tür iş birliğini engelleyen temel darboğazı tanımlayabilir misiniz?
Andrej Karpathy 01:41:59
Bunu ifade etme biçimim şu olurdu: bu analojilerden bazıları çalışmamalı ama bir şekilde, şaşırtıcı biçimde, çalışıyorlar. Daha küçük modellerin ya da daha aptal modellerin birçoğu şaşırtıcı şekilde anaokulu çocuklarına, ilkokul öğrencilerine ya da lise öğrencilerine benziyor. Bir şekilde bunların işi devralabilecek kadar mezun olduğunu hâlâ söyleyemiyoruz. Benim Claude Code’um ya da Codex’im hâlâ ilkokul öğrencisi gibi hissettiriyor. Doktora düzeyindeki testleri çözebildiklerini biliyorum ama bilişsel olarak yine de anaokulu ya da ilkokul öğrencisi gibiler.
Kültür yaratabileceklerini sanmıyorum. Çünkü hâlâ çocuklar. Harika çocuklar. Bütün bunların kusursuz hafızasına sahipler. Çok iyi görünen her türlü saçmalığı ikna edici biçimde üretebiliyorlar. Ama yine de gerçekte ne yaptıklarını bilmediklerini ve bizim hâlâ toplamamız gereken tüm o küçük kutucukların genelinde gerçek anlamda bilişe sahip olmadıklarını düşünüyorum.
01:42:55 Otonom sürüş neden bu kadar uzun sürdü
Dwarkesh Patel 01:42:55
Tesla’da 2017’den 2022’ye kadar otonom sürüşü yönettiğinizden bahsettiniz. Ve havalı bir demodan şimdi binlerce aracın gerçekten otonom biçimde sürmesine kadar bu ilerlemeyi bizzat gördünüz. Bu neden 10 yıl sürdü? O süre boyunca ne oldu?
Andrej Karpathy 01:43:11
Neredeyse anında itiraz etmek istediğim bir şey var: bunun bitmeye yakınından bile geçmediği. Bunu ele alacağım birçok açıdan böyle. Otonom sürüş çok ilginç çünkü 5 yılımı buna verdiğim için sezgilerimin önemli bir kısmını kesinlikle oradan alıyorum. Otonom sürüşün, ilk demosu 1980’lere kadar giden bir tam tarihi var. CMU’nun 1986 demosuna bakabilirsiniz. Yolda kendi kendine giden bir kamyon var.
Hızlı saralım. Tesla’ya katıldığımda elimde Waymo’nun çok erken bir demosu vardı. Temelde 10 yıl önce, 2014 civarında ya da o sıralarda kusursuz bir sürüş sunuyordu. Yani 10 yıl önce kusursuz bir Waymo sürüşü. Palo Alto civarında beni gezdirmişlerdi çünkü orada çalışan bir arkadaşım vardı. Bunun çok yakın olduğunu düşünmüştüm ama sonra yine de çok uzun zaman aldı.
Bazı iş türleri ve mesleklerde, demo çok kolay ama ürün çok zor; arada çok büyük bir demo-ürün uçurumu var. Özellikle de başarısızlığın maliyetinin çok yüksek olduğu otonom sürüş gibi alanlarda. Pek çok sektörün, görevin ve işin muhtemelen böyle bir özelliği yok ama olduğunda zaman çizelgesini kesinlikle uzatıyor.
Örneğin yazılım mühendisliğinde bu özelliğin var olduğunu düşünüyorum. Pek çok vibe coding için böyle değil. Ama gerçekten production düzeyinde kod yazıyorsanız, bu özelliğin olması gerekir. Çünkü her türlü hata bir güvenlik açığına ya da benzeri bir şeye yol açabilir. Milyonlarca, yüz milyonlarca insanın kişisel kimlik numarası sızabilir. Bu yüzden yazılımda insanlar dikkatli olmak zorunda, tıpkı otonom sürüşte olduğu gibi. Otonom sürüşte işler ters giderse insanlar yaralanabilir. Daha kötü sonuçlar da olabilir. Ama yazılımda bunun sınırı neredeyse yok. Ne kadar korkunç bir şeye dönüşebileceği açısından.
Bu sistemlerin o özelliği paylaştığını düşünüyorum. Bunun uzun sürmesinin nedeni ve buna bakış şekli şu: buna 9'lar yürüyüşü diyebiliriz. Her bir 9 belli miktarda iş demek. Her bir 9 aynı miktarda iş. Bir demo elde edip bir şey zamanın %90'ında çalışıyorsa, bu sadece ilk 9'dur. Sonra ikinci 9, üçüncü 9, dördüncü 9, beşinci 9 gerekir. Ben Tesla'da yaklaşık 5 yıl geçirdiğimde, muhtemelen üç 9 ya da iki 9 kat ettik. Tam olarak neydi bilmiyorum ama tekrarlı 9'ların birkaçını geçtik. Hâlâ daha fazla 9 gerekiyor.
Bu yüzden bu tür şeyler bu kadar uzun sürüyor. Benim için gerçekten şekillendiriciydi; demo olan bir şeyi görmek. Demolardan pek etkilenmem. Ne zaman bir şeyin demosunu görsem, bundan aşırı derecede etkilenmem. Eğer bu, birinin göstermek için hazırladığı bir demoysa, daha da kötü. Onunla etkileşime girebiliyorsam biraz daha iyi. Ama o zaman bile bitmiş sayılmaz. Gerçek bir ürün gerekir. Gerçek dünyayla temas ettiğinde bütün bu zorluklarla karşılaşacaksınız ve yama gerektiren davranışların farklı cepleri ortaya çıkacak.
Bütün bunların nasıl açıldığını göreceğiz. Bu, 9'lar yürüyüşü. Her 9 sabit. Demolar cesaret verici. Yine de muazzam miktarda iş gerekiyor. Vibe coding yapmıyorsanız, burası önemli bir güvenlik alanı; bu da gayet güzel ve eğlenceli. Bu, o açıdan benim zaman çizelgesi görüşümü de pekiştiren şey.
Dwarkesh Patel 01:46:25
Bunu duymak çok ilginç. Yazılımda gereken güvenlik garantilerinin otonom sürüştekilerden çok da farklı olmadığını söylüyorsunuz. İnsanların sık sık söylediği şey, otonom sürüşün bu kadar uzun sürmesinin nedeninin başarısızlığın maliyetinin çok yüksek olması. İnsanlar ortalamada 400 bin milde bir ya da 7 yılda bir hata yapıyor. En az 7 yıl boyunca hata yapamayacak bir coding agent yayımlamanız gerekiyorsa, bunu dağıtıma almak çok daha zor olur.
Ama sizin demek istediğiniz, ciddi bir kodlama hatası yaparsa, 7 yılda bir kritik bir sistemi bozmak gibi bir şey...
Andrej Karpathy 01:46:56
Bunu yapmak çok kolay.
Dwarkesh Patel 01:46:57
Aslında duvar saati zamanı açısından bu 7 yıldan çok daha az olurdu. Çünkü sürekli bu şekilde kod üretiyor olurdu. Token açısından 7 yıl olurdu. Ama gerçek geçen zaman açısından...
Andrej Karpathy 01:47:09
Bazı açılardan bu çok daha zor bir problem. Otonom sürüş, insanların yaptığı binlerce şeyden sadece biri. Neredeyse tek bir dikey alan gibi, bence. Buna karşılık genel yazılım mühendisliğinden söz ettiğinizde, bu çok daha... çok daha geniş bir yüzey alanı.
Dwarkesh Patel 01:47:20
İnsanların bu benzetmeye getirdiği bir başka itiraz da şu: otonom sürüşte zamanın büyük kısmını alan şey, sağlam temel algı problemini çözmek, temsil oluşturmak ve biraz dağılım dışı bir şey gördüğünde genelleme yapabilecek sağduyuya sahip modellere ulaşmaktı. Yolda biri size böyle el sallıyorsa, bunun için özel olarak eğitilmiş olmanız gerekmez. Böyle bir şeye nasıl tepki verileceğine dair bir anlayışı olur.
Bunlar bugün LLM'ler ya da VLM ile bedavaya elde ettiğimiz şeyler ve bu yüzden bu çok temel temsil problemlerini çözmeniz gerekmiyor. Dolayısıyla artık AI'ı başka alanlara dağıtmak, mevcut modelle otonom bir arabayı başka bir şehre dağıtmaya benzeyecek; bu zor ama 10 yıllık bir iş değil.
Andrej Karpathy 01:48:07
Buna tamamen katılacağımdan %100 emin değilim. Bedavaya tam olarak ne kadar şey elde ettiğimizi bilmiyorum. Elde ettiğimiz şeyin ne olduğunu anlamada hâlâ çok fazla boşluk var. Tekil bir varlıktan daha genellenebilir bir zekâ elde ettiğimiz kesin. Oysa otonom sürüş çok özel amaçlı bir görev. Bir bakıma özel amaçlı bir görev inşa etmek muhtemelen çok daha zor, çünkü ölçekte yaptığınız daha genel bir şeyden çıkmıyor; eğer anlatabiliyorsam.
Ama benzetme yine de tam olarak oturmuyor. Çünkü LLM'ler hâlâ oldukça hatalı ve doldurulması gereken pek çok boşluğa sahip. Belirli bir anlamda kutudan çıktığı gibi sihirli genelleme elde ettiğimizi düşünmüyorum.
Dönmek istediğim diğer nokta, otonom araçların henüz bitmiş olmaya bile yaklaşmadığı. Dağıtımlar oldukça sınırlı. Waymo'nun bile çok az aracı var. Kabaca konuşursak, bence bunu böyle yapmalarının nedeni ekonomik olmaması. Gelecekte yaşayan bir şey inşa ettiler. Geleceği öne çekmek zorundaydılar ama bunu ekonomik olmayan bir şekilde yapmak zorundaydılar. Sadece bu araçların ve onların operasyonu ile bakımının marjinal maliyeti değil, bütün sermaye harcamaları da dahil olmak üzere tüm bu maliyetler var. Bunu ekonomik hâle getirmek onlar için hâlâ çok zahmetli olacak.
Ayrıca, bu araçlara baktığınızda kimse kullanmıyor gibi görünüyor ama ben bunun biraz aldatıcı olduğunu düşünüyorum. Çünkü bu araçlarla bir şekilde döngü içinde olan insanların bulunduğu çok sofistike uzaktan operasyon merkezleri var. Tüm kapsamını bilmiyorum ama tahmin ettiğinizden daha fazla insan döngüde. Bir yerlerde gökten ışınlanıyormuş gibi bağlanan insanlar var. Sürüşe tamamen dâhil olup olmadıklarını bilmiyorum. Bazen öyleler ama kesinlikle işin içindeler ve orada insanlar var. Bir bakıma insanı gerçekten sistemden çıkarmadık, onları sadece sizin göremediğiniz bir yere taşıdık.
Yine de gerçekten otonom sürüşü mümkün kılmak için yapılacak işler olduğunu düşünüyorum. Ama çevreden çevreye geçme konusunda, sizin söylediğinize katılıyorum. Gerçekten otonom sürüşü mümkün kılmak için hâlâ zorluklar var. Ama bunun kesinlikle gerçekmiş gibi hissettiren eşiği geçtiğine katılıyorum; tabii gerçekten uzaktan kumanda edilmiyorsa. Örneğin Waymo şehrin her bölgesine gidemiyor. Benim tahminim, bunun iyi sinyal alamadıkları şehir bölgeleriyle ilgili olduğu yönünde. Her neyse, bu yığının nasıl çalıştığı hakkında hiçbir şey bilmiyorum. Sadece tahmin yürütüyorum.
Dwarkesh Patel 01:50:23
Tesla'da 5 yıl boyunca otonom sürüşü yönettiniz sonuçta.
Andrej Karpathy 01:50:27
Özür dilerim, Waymo'nun ayrıntıları hakkında hiçbir şey bilmiyorum. Bu arada Waymo'yu seviyorum ve hep kullanıyorum. Sadece insanların bazen ilerleme konusunda biraz fazla saf olduğunu düşünüyorum ve hâlâ muazzam miktarda iş olduğunu düşünüyorum. Tesla bence çok daha ölçeklenebilir bir yaklaşım benimsedi ve ekip son derece iyi iş çıkarıyor. Bunun nasıl gelişeceği konusunda tahminlerde bulunmuş durumdayım. Waymo başlangıçta öne geçti çünkü çok sayıda sensörü paketleyebiliyorlardı. Ama Tesla'nın çok daha ölçeklenebilir bir strateji izlediğini düşünüyorum ve sonunda görüntü muhtemelen buna daha çok benzeyecek. Yani bunun hâlâ açılması gerekiyor ve henüz açılmış değil. Ama otonom sürüşten 10 yıl sürmüş bir şey diye bahsetmek istemiyorum. Çünkü henüz bitmedi, eğer demek istediğimi anlıyorsanız.
Dwarkesh Patel 01:51:08
Çünkü birincisi, başlangıç 1980 ve 10 yıl önce değil, ikincisi de bitiş henüz burada değil.
Andrej Karpathy 01:51:14
Bitiş henüz yakın bile değil. Çünkü otonom sürüşten söz ettiğimizde, bence genelde kastettiğimiz şey ölçekli otonom sürüş. İnsanların ehliyet almasına gerek kalmaması falan.
Dwarkesh Patel 01:51:22
Farklı benzetmeler olabilecek iki ayrı yaklaşım önermek istiyorum. Bu sorunun özellikle ilginç olmasının nedeni, yapay zekanın ne kadar hızlı dağıtıldığı ve erken aşamada ne kadar değerli olduğunun, potansiyel olarak şu anda dünyadaki en önemli soru olması. 2030’un nasıl görüneceğini modellemeye çalışıyorsanız, bu az çok anlamanız gereken bir soru.
Düşünebileceğiniz bir diğer şey de şu: Birincisi, otonom sürüşte gecikme gereksinimleri var. Gerçek modellerin ne olduğunu hiç bilmiyorum ama örneğin on milyonlarca parametre gibi bir şey olduklarını varsayalım. Bu, LLM kullanan bilgi işçiliği için gereken bir kısıt değil. Bilgisayar kullanımı ve benzeri şeylerde öyle olabilir tabii.
Ama diğer büyük konu, muhtemelen daha da önemli olanı, bu sermaye harcaması meselesi. Evet, modelin ek kopyalarını sunmanın ek bir maliyeti var ama bir oturumun işletme maliyeti oldukça düşük ve çıkarım ölçeklemesinin nasıl ilerlediğine bağlı olarak yapay zekanın maliyetini eğitim koşusunun kendisine amorti edebilirsiniz. Ama bu kesinlikle, modelin bir başka örneğini sunmak için tamamen yeni bir araba üretmek kadar büyük bir şey değil. Bu yüzden daha geniş çapta dağıtımın ekonomisi çok daha avantajlı.
Andrej Karpathy 01:52:37
Bence bu doğru. Bitler alanında kaldığınız sürece, bitler fiziksel dünyaya dokunmaktan milyon kat daha kolay. Bunu kesinlikle kabul ediyorum. Bitler tamamen değiştirilebilir ve çok yüksek hızlarda keyfi biçimde yeniden düzenlenebilir. Sanayide de çok daha hızlı uyum beklerdim. İlk konu neydi?
Dwarkesh Patel 01:52:59
Gecikme gereksinimleri ve bunun model boyutuna etkileri?
Andrej Karpathy 01:53:02
Kabaca doğru olduğunu düşünüyorum. Ayrıca, ölçekte bilgi işi hakkında konuşuyorsanız, pratikte bazı gecikme gereksinimleri olacağını düşünüyorum. Çünkü muazzam miktarda hesaplama üretmeniz ve bunu sunmanız gerekiyor.
Çok kısaca değinmek istediğim son boyut da geri kalan her şey. Toplum buna nasıl bakıyor? Hukuki etkileri neler? Hukuken nasıl işliyor? Sigorta açısından nasıl işliyor? Bunun katmanları ve boyutları neler? Waymo’nun üstüne trafik konisi koyan insanların eşdeğeri ne olacak? Tüm bunların eşdeğerleri olacak. Bu yüzden otonom sürüşün, ondan bir şeyler ödünç alabileceğiniz çok iyi bir benzetme olduğunu hissediyorum. Arabanın üzerindeki koninin eşdeğeri ne? Gizlenmiş uzaktan kumandalı operatörün eşdeğeri ne ve bunun tüm yönleri neler?
Dwarkesh Patel 01:53:53
Şu anda yapay zeka inşası hakkında ne düşünüyorsunuz? Bir ya da iki yıl içinde dünyada kullanılabilir hesaplamayı 10 kat artıracağız ve 10 yılın sonunda bunu 100 kattan fazla artırmış olacağız. Yapay zekanın kullanımı bazı insanların safça öngördüğünden daha düşük olacaksa, bu hesaplamayı gereğinden fazla inşa ettiğimiz anlamına mı geliyor, yoksa bu ayrı bir soru mu?
Andrej Karpathy 01:54:15
Demiryollarında olan şeye benziyor.](https://focus-economics.com/blog/…)
Dwarkesh Patel 01:54:18
Ne dediniz, affedersiniz?
Andrej Karpathy 01:54:19
Demiryolları mıydı yoksa?
Dwarkesh Patel 01:54:20
Evet, öyleydi.
Andrej Karpathy 01:54:21
Evet. Tarihsel bir emsal var. Ya da telekomünikasyon sektörü müydü? 10 yıl sonra gelecek interneti önceden paketleyip 90’ların sonunda telekom sektöründe tam bir balon yaratmak gibi.
Burada kulağa çok karamsar geldiğimin farkındayım. Aslında iyimserim. Bunun işe yarayacağını düşünüyorum. Yönetilebilir olduğunu da düşünüyorum. Karamsar gibi duyulmamın tek nedeni, Twitter zaman akışıma girdiğimde bana mantıklı gelmeyen bütün bu şeyleri görmem. Bunun var olmasının pek çok nedeni var. Dürüst olmak gerekirse büyük kısmı sadece finansman. Teşvik yapısı. Büyük kısmı finansman olabilir. Büyük kısmı sadece dikkat; internette dikkati paraya çevirmek ve benzeri şeyler. Bir sürü şey dönüyor ve ben sadece buna tepki veriyorum.
Ama genel olarak teknoloji konusunda hâlâ çok iyimserim. Bütün bunları çözeceğiz. Hızlı miktarda ilerleme oldu. Aşırı inşa olup olmadığını bilmiyorum. Benim anladığım kadarıyla, inşa edilmekte olan şeyi tüketebileceğimizi düşünüyorum. Mesela Claude Code ya da OpenAI Codex gibi şeyler 1 yıl önce bile yoktu. Doğru mu? Bunlar daha önce var olmayan mucizevi teknolojiler. ChatGPT vb. örneklerde gördüğümüz gibi, şimdiden muazzam bir talep olacak.
Dolayısıyla aşırı inşa olup olmadığını bilmiyorum. Ben sadece, insanların sürekli yanlış ifade ettiği çok hızlı zaman çizelgelerinin bazılarına tepki veriyorum. Yapay zeka alanında 15 yıldır çalışıyorum ve itibarı çok yüksek insanların bu meseleyi sürekli yanlış anladığını pek çok kez duydum. Bunun doğru şekilde kalibre edilmesini istiyorum ve bunların bir kısmının bu tür sorularla birlikte jeopolitik etkileri de var. İnsanların o alandaki konularda hata yapmasını istemiyorum. Teknolojinin ne olduğu ve ne olmadığı gerçeğine dayanmak istiyorum.
01:56:20 - Eğitimin geleceği
Dwarkesh Patel 01:56:20
Eğitim ve Eureka hakkında konuşalım. Yapabileceğiniz şeylerden biri bir başka yapay zeka laboratuvarı başlatıp sonra bu sorunları çözmeye çalışmak. Şu anda ne yaptığınızı ve bunun neden doğrudan yapay zeka araştırması olmadığını merak ediyorum.
Andrej Karpathy 01:56:33
Bunu ifade etme biçimim şu: Yapay zeka laboratuvarlarının yaptığı şeyler konusunda belli bir düzeyde determinizm hissediyorum. Orada yardımcı olabileceğimi hissediyorum ama benzersiz biçimde iyileştireceğimden emin değilim. Benim kişisel büyük korkum, bunların çoğunun insanlığın etrafında gerçekleşmesi ve insanlığın bunun sonucunda güçsüzleşmesi. Sadece inşa edeceğimiz tüm Dyson kürelerini değil, insanlara ne olacağını da önemsiyorum; üstelik yapay zeka bunları tamamen otonom bir şekilde inşa edecek. Gelecekte insanların iyi durumda olmasını istiyorum.
Orada, frontier laboratuvarındaki marjinal iyileştirmelerden çok daha benzersiz bir şekilde değer katabileceğimi hissediyorum. En çok korktuğum şey, WALL-E ya da Idiocracy gibi filmlerde tasvir edilene benzer bir şey. İnsanlığın bütün bunların kıyısında kaldığı bir durum. İnsanların bu gelecekte çok ama çok daha iyi durumda olmasını istiyorum. Bana göre bunu başarabileceğiniz yer eğitim.
Dwarkesh Patel 01:57:35
Peki orada ne yapıyorsunuz?
Andrej Karpathy 01:57:36
Bunu açıklamanın en kolay yolu, Starfleet Academy kurmaya çalıştığımızı söylemek. Star Trek izlediniz mi bilmiyorum.
Dwarkesh Patel 01:57:44
İzlemedim.
Andrej Karpathy 01:57:44
Starfleet Academy, frontier teknoloji, uzay gemisi inşası ve bu uzay gemilerinin pilotları olacak öğrencileri mezun etmek gibi konular için seçkin bir kurum. Ben de sadece teknik bilgi için, son derece güncel ve en iyisi olan seçkin bir kurum, bir tür okul hayal ediyorum.
Dwarkesh Patel 01:58:05
Size sormak istediğim soru kategorisi, teknik ya da bilimsel içeriği iyi öğretmeyi neyin açıkladığıyla ilgili. Çünkü siz bu işin dünyadaki ustalarından birisiniz. YouTube’da zaten yayımladığınız içerikler hakkında ne düşündüğünüzü ve Eureka için de bunun nasıl farklı olduğunu merak ediyorum.
Andrej Karpathy 01:58:25
Eureka konusunda, eğitimde beni çok büyüleyen bir şey şu: Yapay zeka işin içinde olduğunda eğitimin oldukça köklü biçimde değişeceğini düşünüyorum. Bir dereceye kadar yeniden kablolanması ve dönüştürülmesi gerekecek.
Hâlâ oldukça erken bir aşamada olduğumuzu düşünüyorum. Elimizde LLM’ler var ve pek çok kişi gidip sorulacak bariz şeyleri sormaya çalışacak. Şu anda prompt yazarak yapılabilecek tüm temel şeyleri yapın. Faydalı, ama bana hâlâ biraz özensiz geliyor. Bunu düzgün yapmak istiyorum ve yeteneklerin benim istediğim şey için henüz yeterli olmadığını düşünüyorum. Benim istediğim şey gerçek bir özel ders deneyimi.
Aklımdaki en belirgin örnek, yakın zamanda Korece öğreniyor olmamdı. Yani dil öğrenimi. İnternetten kendi başıma Korece öğrendiğim bir dönemden geçtim. Kore’de, Korece dinleyen başka insanlarla birlikte küçük bir sınıfın parçası olduğum bir dönemden geçtim ve bu gerçekten komikti. Öğretmen ve yaklaşık 10 kişi olarak Korece dinliyorduk. Sonra bire bir özel derse geçtim.
Beni büyüleyen şey şu oldu: gerçekten çok iyi bir öğretmenim olduğunu düşünüyorum ve bu öğretmenin benim için ne yaptığını, bu deneyimin ne kadar inanılmaz olduğunu ve sonunda yapmak istediğim şey için çıtanın ne kadar yüksek olduğunu düşünmek. Çok kısa bir konuşmadan hemen sonra, benim öğrenci olarak nerede olduğumu, neyi bilip neyi bilmediğimi anladı. Benim dünya modelimi anlamak için tam olarak ne tür soruları ya da hangi şeyleri yoklaması gerektiğini biliyordu. Şu anda hiçbir LLM bunu sizin için %100 yapamaz, yanına bile yaklaşamaz. Ama iyi bir öğretmen bunu yapar. Bir kez anladıktan sonra, o anki yetenek seviyemin tam parçasında ihtiyacım olan her şeyi gerçekten sundu. Sürekli doğru düzeyde zorlanmanız gerekir. Ne fazla zor ne de fazla basit bir şeyle karşılaşabilirsiniz ve öğretmen size tam uygun olanı vermekte gerçekten iyidir.
Öğrenmenin tek kısıtının ben olduğumu hissettim. Mükemmel bilgi bana her zaman veriliyordu. Tek kısıt bendim. Bu iyi hissettiriyordu. Çünkü var olan tek engel bendim. Bilgiyi bulamamak ya da doğru açıklanmaması gibi şeyler değildi. Sadece benim ezberleme kapasitem ve benzeri şeylerdi. İnsanlar için istediğim şey bu.
Dwarkesh Patel 02:00:27
Bunu nasıl otomatikleştirirsiniz?
Andrej Karpathy 02:00:29
Çok iyi soru. Mevcut yeteneklerle, etmiyoruz. Bu yüzden bu tür bir yapay zeka öğretmeni yapmanın aslında henüz doğru zamanı olmadığını düşünüyorum. Hâlâ faydalı bir ürün olacağını düşünüyorum ve pek çok insan bunu yapacak, ama çıta fazla yüksek ve yetenekler o seviyede değil. Bugün bile ChatGPT’nin son derece değerli bir eğitim ürünü olduğunu söylemek isterim. Ama benim için, onunla birlikteyken çıtanın ne kadar yüksek olduğunu görmek çok büyüleyiciydi. Neredeyse bunu yapmanın bir yolu yokmuş gibi hissettim.
Dwarkesh Patel 02:01:02
Ama siz bunu yapıyorsunuz, değil mi?
Andrej Karpathy 02:01:03
Gerçekten iyi bir öğretmene sahip olan herkes “Bunu nasıl yapacağız?” diye düşünüyor. Ben o yeteneğin gelmesini bekliyorum.
Bilgisayarlı görü üzerine yapay zeka danışmanlığı yaptım. Pek çok durumda bir şirkete kattığım değer, onlara yapay zeka kullanmamalarını söylemekti. Ben yapay zeka uzmanıydım, onlar problemi anlatıyordu, ben de “Yapay zeka kullanmayın” diyordum. Benim katma değerim buydu. Şimdi eğitimde de aynı hissi taşıyorum. Aklımdaki şey için henüz zamanı değil, ama zamanı gelecek. Şimdilik fiziksel ve dijital bileşenleri olan, biraz daha geleneksel görünen bir şey yapıyorum. Ama gelecekte bunun nasıl görünmesi gerektiği açık.
Dwarkesh Patel 02:01:43
Söylemekte rahat olduğunuz kadarıyla, bu yıl ya da gelecek yıl çıkmasını umduğunuz şey nedir?
Andrej Karpathy 02:01:49
İlk kursu yapıyorum. Gerçekten ama gerçekten çok iyi bir kurs yapmak istiyorum. Bu durumda yapay zeka için, insanların öğrenmeye gideceği bariz öncü adres olsun istiyorum. Bu benim aşina olduğum alan olduğu için, orada gerçekten çok iyi olmak adına çok iyi bir ilk ürün. Yani yaptığım şey bu. Kısaca bahsettiğiniz Nanochat, benim hazırladığım ders olan LLM101N’in bitirme projesi. Bunun gerçekten büyük bir parçası. Ama şimdi pek çok ara adım oluşturmam, sonra küçük bir TA ekibi işe almam ve tüm kursu inşa etmem gerekiyor.
Söylemek istediğim bir şey daha var: çoğu zaman insanlar eğitim hakkında düşünürken, benim bilginin yayılmasıyla ilgili daha yumuşak bileşenler diyeceğim şeyleri düşünüyorlar. Benim aklımda çok zor ve teknik bir şey var. Bence eğitim, bilgiye giden bir rampa inşa etmeye yönelik çok zor bir teknik süreç. Bence nanochat bilgiye giden bir rampa, çünkü çok basit. Tamamen sadeleştirilmiş bir full stack. Bu artefaktı birine verip incelemesini sağlarsanız, muazzam miktarda şey öğreniyor. Benim saniye başına eureka dediğim çok şey veriyor, yani saniye başına kavrayış. İstediğim şey bu: saniye başına çok sayıda eureka. Dolayısıyla benim için bu, bu rampayı nasıl çok verimli hale getireceğimizle ilgili teknik bir problem. İnsanların asla takılmaması ve her şeyin her zaman ne fazla zor ne de fazla basit olmaması; ilerlemek için tam doğru materyale sahip olmaları.
Dwarkesh Patel 02:03:25
Kısa vadede hayal ettiğiniz şey, öğretmenin sizin anlayışınızı yoklaması yerine, eğer kişinin kendini yoklayabilecek kadar öz farkındalığı varsa hiç takılmayacağı, değil mi? TA ile konuşmak, LLM ile konuşmak ve referans implementasyona bakmak arasında doğru cevabı bulabilir. Şimdiye kadar otomasyon ya da yapay zeka kritik parça gibi görünmüyor. Şu ana kadar asıl büyük alfa, sizin yapay zekayı açıklama becerinizin dersin kaynak materyali olarak kodlanmış olması. Temelde kurs dediğimiz şey bu.
Andrej Karpathy 02:04:00
Her zaman sektörde var olan yeteneklere göre kendinizi ayarlamak zorundasınız. Pek çok insan gidip sadece ChatGPT’ye sormak gibi şeylerin peşinden gidecek. Ama şu anda örneğin ChatGPT’ye gidip size yapay zeka öğretmesini isterseniz, bunun bir yolu yok. Size özensiz bir şey verecek. Yapay zeka şu anda nanochat’i asla yazmayacak. Ama nanochat gerçekten faydalı bir ara nokta. Ben tüm bu materyali üretmek için yapay zekayla birlikte çalışıyorum, dolayısıyla yapay zeka temelde hâlâ çok yardımcı.
Eskiden Stanford’da CS231n’i yapmıştım; sanırım Stanford’daki ilk derin öğrenme dersi buydu ve çok popüler olmuştu. O zaman 231n’i yapmakla şimdi LLM101N’i yapmak arasındaki fark oldukça belirgin. LLM’lerin şu an var oldukları hâliyle bana gerçekten güç verdiğini hissediyorum, ama döngünün içinde çok aktif biçimde ben varım. Materyali oluşturmama yardım ediyorlar ve ben çok daha hızlı ilerliyorum. Sıkıcı işlerin çoğunu onlar yapıyor, vesaire. Kursu çok daha hızlı geliştirdiğimi hissediyorum ve içine LLM katılmış durumda, ama içeriği yaratıcı biçimde oluşturabilecekleri noktada değiller. Bunu yapmak için hâlâ benim orada olmam gerekiyor. Zor taraf, kendinizi her zaman mevcut olana göre ayarlamak.
Dwarkesh Patel 02:05:04
Birkaç yıl sonra Eureka üzerinden erişilebilir olacak şeyi düşündüğünüzde, büyük darboğazın, kendi anlayışını bu tür rampalara dönüştürebilecek her bir alanda Karpathy’leri bulmak olacağı anlaşılıyor.
Andrej Karpathy 02:05:18
Bu zamanla değişecek. Şu anda muhtemelen yapay zeka ve insanlardan oluşan ekiplerle el ele çalışacak öğretim üyeleri işe almak söz konusu olacak. Muhtemelen son teknoloji kurslar üretmek için. Zamanla belki bazı TA’ler yapay zeka olabilir. Tüm kurs materyalini alıp sonra öğrenciye çok iyi bir otomatik TA sunabileceğinizi düşünüyorum. Daha temel soruları olduğunda ya da benzeri durumlarda. Ama kursun genel mimarisi ve doğru olup olmadığından emin olmak için öğretim üyelerine ihtiyaç olacağını düşünüyorum. Bunun nasıl evrileceğine dair ilerleyişi böyle görüyorum. Belki gelecekte bir noktada ben o kadar da faydalı olmayacağım ve yapay zeka, tasarımın çoğunu benim yapabileceğimden çok daha iyi yapacak. Ama yine de bunun gerçekleşmesinin zaman alacağını düşünüyorum.
Dwarkesh Patel 02:05:59
Farklı alanlarda uzmanlığı olan kişilerin kurslara katkı sunmasını mı hayal ediyorsunuz, yoksa nasıl öğretmek istediğinize dair anlayışınız düşünüldüğünde içeriği tasarlayan kişinin sizin olmasının vizyon için çok temel olduğunu mu hissediyorsunuz? Tıpkı Sal Khan’ın Khan Academy’deki tüm videoları bizzat seslendirmesi gibi. Böyle bir şey mi hayal ediyorsunuz?
Andrej Karpathy 02:06:20
Hayır, öğretim kadrosu işe alacağım. Çünkü uzmanı olmadığım alanlar var. Sonuçta öğrenci için en ileri düzey deneyimi sunmanın tek yolu bu. Öğretim kadrosu almayı bekliyorum ama ben muhtemelen bir süre daha yapay zekada kalırım. Mevcut yeteneklerle ilgili olarak, insanların muhtemelen beklediğinden daha geleneksel bir şey düşünüyorum.
Starfleet Academy’yi kurarken muhtemelen fiziksel bir kurum hayal ediyorum ve onun altında bir katman olarak dijital sunumu düşünüyorum. Birinin fiziksel olarak tam zamanlı gelip materyal üzerinde baştan sona çalıştığı ve anlayıp anlamadığınızın kontrol edildiği durumda elde edeceğiniz en ileri deneyim bu değil. O, fiziksel sunum. Dijital sunum ise internetteki birçok şey ve muhtemelen bir tür LLM asistanı. Biraz daha gösterişli ve onun altındaki bir katman ama en azından 8 milyar insana erişilebilir.
Dwarkesh Patel 02:07:08
Temelde bugün mevcut araçlar için üniversiteyi ilk prensiplerden yeniden icat ediyor ve materyalle gerçekten ilgilenme motivasyonu ve isteği olan insanları seçiyor gibisiniz.
Andrej Karpathy 02:07:26
Sadece eğitim değil, ciddi miktarda yeniden eğitim de gerekecek. Ben de orada yardımcı olmak istiyorum. Çünkü işler muhtemelen oldukça fazla değişecek. Örneğin bugün birçok insan, özellikle de yapay zekada, becerilerini geliştirmeye çalışıyor. Bununla ilgili öğretmek için gerçekten iyi bir kurs olduğunu düşünüyorum. Motivasyon açısından, AGI öncesi motivasyonu çözmek çok kolay. Çünkü insanlar para kazanmak istiyor. Bugün sektörde para kazanmanın yolu bu. AGI sonrası ise çok daha ilginç olabilir. Çünkü her şey otomatikleşirse ve kimsenin yapacak işi kalmazsa, neden biri okula gitsin ki?
Ben sık sık şunu söylüyorum: AGI öncesi eğitim faydalıdır. AGI sonrası eğitim ise eğlencelidir. Tıpkı insanların bugün spor salonuna gitmesi gibi. İnsanların ağır nesneleri hareket ettirmek için fiziksel gücüne ihtiyacımız yok çünkü bunu yapan makinelerimiz var. Yine de spor salonuna gidiyorlar. Neden spor salonuna gidiyorlar? Çünkü eğlenceli, sağlıklı ve karın kaslarıyla iyi görünüyorsunuz. Bunu yapmak insanlara çekici geliyor. İnsanlık için çok derin, psikolojik, evrimsel bir anlamda. Eğitim de aynı şekilde gelişecek. İnsanlar spor salonuna gider gibi okula gidecek.
Şu anda birçok insan öğrenmiyor çünkü öğrenmek zor. Materyal onları dışarı itiyor. Bazı insanlar bu engeli aşıyor ama çoğu insan için bu zor. Bu, çözülmesi gereken teknik bir problem. Korece öğrenirken özel hocamın benim için yaptığı şey, çözülmesi gereken teknik bir problem. Yönetilebilir, inşa edilebilir ve birilerinin bunu yapması gerekiyor. Bu, bir şeyi öğrenmeyi sıradan ve arzu edilir hale getirecek ve insanlar bunu eğlence için yapacak. Çünkü zahmetsiz olacak. Rastgele bir bilgi parçası için böyle bir hocanız olsaydı, herhangi bir şeyi öğrenmek çok daha kolay olurdu ve insanlar bunu yapardı. Bunu, spor salonuna gitmeleriyle aynı nedenle yaparlardı.
Dwarkesh Patel 02:09:17
Bu farklı geliyor... Yani AGI sonrasında bunu eğlence ya da kendini geliştirme için kullanıyorsunuz. Ama aynı zamanda bu eğitimin insanlığın AI üzerinde kontrolünü korumasıyla ilgili bir vizyonunuz varmış gibi de gelmişti. Bu farklı geliyor. Bazı insanlar için eğlence, bazıları içinse güçlenme mi? Ne düşünüyorsunuz?
Andrej Karpathy 02:09:41
Sanırım bu sonuçta biraz kaybedilmiş bir oyun, eğer bu ifade anlamlıysa. Uzun vadede öyle. Muhtemelen çoğu sektör insanının düşündüğünden daha da uzun vadede, bu kaybedilmiş bir oyun. İnsanlar o kadar ileri gidebileceğimizi düşünüyor ve biz insanın ne kadar ileri gidebileceğinin ancak yüzeyini kazıdık. Bunun nedeni sadece insanların çok kolay ya da çok zor materyal tarafından dışarı itilmesi. İnsanlar çok daha ileri gidebilir. Herkes beş dil konuşacak. Neden konuşmasın ki? Çok sıradan olacak. Herkes lisans düzeyindeki tüm temel müfredatı bilecek, vesaire.
Dwarkesh Patel 02:10:18
Şimdi vizyonu anlıyorum ve çok ilginç. Spor salonu kültürüyle mükemmel bir benzetme var. 100 yıl önce kimsenin kaslı olduğunu sanmıyorum. Hiç kimse gönüllü olarak bench press’te iki ya da üç plaka kaldırabilecek durumda olmazdı. Sistemli şekilde antrenman yapma, spor salonunda ağırlık kaldırma ya da maraton koşabilecek şekilde sistemli antrenman yapma fikri yüzünden şimdi bu çok yaygın. Bu, çoğu insanın kendiliğinden sahip olamayacağı bir kapasite. Benzer şeyleri, birçok farklı alanda öğrenme için de hayal ediyorsunuz; çok daha yoğun, daha derin ve daha hızlı.
Andrej Karpathy 02:10:54
Aynen öyle. Biraz insan doğasının kalıcılığına oynuyorum. Bütün bunları yapmanın arzu edilir olmaya devam edeceğini ve insanların binlerce yıldır yaptığı gibi buna hayranlık duyacağını düşünüyorum. Bunun doğru olmaya devam edeceğini düşünüyorum. Tarihte buna dair bazı kanıtlar var. Örneğin aristokratlara ya da Antik Yunan’a baktığınızda ve benzeri örneklerde, belli bir anlamda AGI sonrası olan küçük cep ortamları olduğunda, insanlar hem fiziksel hem de bilişsel olarak belirli şekillerde gelişmeye çok zaman harcadı. Bunun görünümü konusunda kendimi fena hissetmiyorum.
Eğer bu yanlışsa ve ben yanılıyorsam ve sonumuz WALL-E ya da Idiocracy benzeri bir geleceğe çıkarsa, Dyson kürelerinin olup olmamasını umursamam bile. Bu korkunç bir sonuç olur. Ben gerçekten insanlığı önemsiyorum. Herkesin belli bir anlamda süperinsan olması gerekiyor.
Dwarkesh Patel 02:11:52
Bu yine de... bu temelde, şey gibi... kültür dünyası gibi bir şey, değil mi? Temelde teknolojinin gidişatını dönüştüremeyeceğiniz ya da yalnızca kendi emeğiniz veya bilişinizle kararları etkileyemeyeceğiniz bir dünyadan söz ediyorsunuz. Belki AI sizden onay isteyeceği için kararları etkileyebilirsiniz ama ben bir şey icat ettiğim ya da yeni bir tasarım düşündüğüm için geleceği gerçekten etkiliyor olmuyorum.
Andrej Karpathy 02:12:21
Belki. Bence birçok şeyi anlarsak, döngünün içinde olacağımız ve işleri ilerletebileceğimiz bir geçiş dönemi olacak. Uzun vadede bu muhtemelen ortadan kalkacak. Biliş çağında powerlifting’in karşılığı neyse, bu bir spora dönüşebilir. Belki gerçekten bir şeyleri bilmenin olimpiyatını yaratmaya çalışacak kadar ileri giden insanlar olur. Mükemmel bir AI hocanız varsa muhtemelen aşırı derecede ileri gidebilirsiniz. Bugünün dahilerinin, insan zihninin yapabileceklerinin ancak yüzeyini kazıdığını hissediyorum.
Dwarkesh Patel 02:12:59
Bu vizyona bayıldım. Ayrıca ürün-pazar uyumu en yüksek kişinin ben olduğumu hissediyorum. Çünkü işim her hafta farklı konuları öğrenmeyi içeriyor ve bu beni çok heyecanlandırıyor.
Andrej Karpathy 02:13:17
Ben de benzerim. Örneğin birçok insan okuldan nefret ediyor ve oradan çıkmak istiyor. Ben ise okulu gerçekten seviyordum. Bir şeyler öğrenmeyi seviyordum, vesaire. Okulda kalmak istiyordum. Doktoraya kadar kaldım ve sonra artık kalmama izin vermediler, ben de sektöre gittim. Kabaca söylemek gerekirse, öğrenmeyi seviyorum; hem öğrenmenin kendisi için hem de öğrenmeyi seviyorum çünkü bu bir güçlenme biçimi, faydalı ve üretken.
Dwarkesh Patel 02:13:39
Ayrıca ince bir noktaya değindiniz, bunu açıkça ifade etmek istiyorum. Online kurslarla şimdiye kadar olan şey şu: neden bunlar zaten her insanın her şeyi bilmesini sağlamadı? Çünkü motive edici yükleri fazla. Çünkü belirgin bir ilerleme rampası yok ve tıkanmak fazla kolay. Bunun yerine buna — gerçekten iyi bir insan hoca gibi bir şeye — sahip olsaydınız, motivasyon açısından bu tam bir kilit açıcı olurdu.
Andrej Karpathy 02:14:10
Ben de öyle düşünüyorum. Materyalden kopmak kötü hissettiriyor. Gerçekten kötü hissettiriyor. Bir şeye zaman harcamışsınızdır ama sonuç alamazsınız ya da öğrendiğiniz şey ya fazla kolaydır ya da fazla zordur ve tamamen sıkıcı hâle gelir; bu da olumsuz bir ödül yaratır. Doğru seviyede olduğunda, öğrenmek iyi hissettirir. Oraya ulaşmak teknik bir problem. Bir süre daha bu, yapay zeka artı insan iş birliği olacak ve bir noktada da muhtemelen sadece yapay zeka olacak.
Dwarkesh Patel 02:14:36
İyi öğretmek hakkında birkaç soru sorabilir miyim? Merak ettiğiniz başka alanlardaki başka eğitimcilere, sizin yaptığınız türden YouTube eğitimlerini hazırlamalarını tavsiye edecek olsaydınız... Özellikle birinin teknik kavrayışını ona kod yazdırarak ya da benzeri yollarla test edemeyeceğiniz alanlar hakkında konuşmak ilginç olabilir. Ne tavsiye ederdiniz?
Andrej Karpathy 02:14:58
Bu oldukça geniş bir konu. Yarı bilinçli şekilde kullandığım 10-20 kadar ipucu ve numara vardır muhtemelen. Ama bunun büyük kısmı fizik geçmişimden geliyor. Fizik geçmişimden gerçekten ama gerçekten çok keyif aldım. Erken okul eğitiminde neden herkesin fizik öğrenmesi gerektiğine dair uzun bir görüşüm var. Çünkü erken okul eğitimi, sonradan sanayide çalışmak için bilgi ya da ezber biriktirmekle ilgili değil. Beyni boot etmekle ilgili. Ve fizik, beyni en iyi boot eden alan. Çünkü fizikte beynin yapmaya zorlandığı bazı şeyler sonradan son derece değerli oluyor.
Modeller ve soyutlamalar kurma fikri; bir sistemin büyük kısmını açıklayan birinci dereceden bir yaklaşımın olduğu ama ikinci, üçüncü, dördüncü terimlerin de bulunabileceğini ya da bulunmayabileceğini anlama becerisi. Çok gürültülü sistemleri gözlemliyor olabilirsiniz ama yine de soyutlanabilecek temel frekanslar vardır fikri. Bir fizikçi sınıfa girip de “küresel bir inek olduğunu varsayalım” dediğinde herkes buna güler, ama bu harika bir şeydir. Çünkü ineği birçok açıdan küre olarak yaklaşıklandırabilirsiniz ve bu, sektörler genelinde son derece genellenebilir, müthiş bir düşünme biçimidir.
Mesela gerçekten iyi bir kitap var, Scale. Biyolojiden söz eden bir fizikçi tarafından yazılmış bir kitap. Muhtemelen bunu da okunmasını önereceğim kitaplar arasına koyarım. Hayvanlarla ilgili gerçekten ilginç yaklaşıklar elde edebiliyor ve hayvanların ölçekleme yasalarını grafiğe dökebiliyorsunuz. Kalp atış hızlarına ve benzeri şeylere bakıyorsunuz; bunlar hayvanın boyutuyla ve benzeri özelliklerle uyuşuyor. Hayvanları hacim üzerinden tartışabilirsiniz. Isı yayılımları hakkında konuşabilirsiniz. Çünkü ısı yayılımı yüzey alanıyla artar, yani kareyle artar. Ama ısı üretimi ya da ortaya çıkışı küple artar. Dolayısıyla bana göre fizikçiler, dünyadaki problem çözümüne yaklaşmak için gereken bütün doğru bilişsel araçlara sahip.
Bu eğitim yüzünden ben de her şeyin birinci dereceden ya da ikinci dereceden terimlerini bulmaya çalışıyorum. Bir sistemi ya da herhangi bir şeyi gözlemlerken zihnimde fikirler ve bilgilerden oluşan birbirine dolaşmış bir ağ oluyor. Neyin önemli olduğunu bulmaya çalışıyorum. Birinci dereceden bileşen ne? Bunu nasıl sadeleştirebilirim? Bunu gösteren en basit şeyi nasıl elde edebilirim; önce onu gerçekten gösterip sonra başka terimleri nasıl ekleyebilirim?
Bunu iyi gösterdiğini düşündüğüm depolarımdan biri micrograd adını taşıyor. Buna aşina mısınız bilmiyorum. micrograd, backpropagation’ı gösteren 100 satırlık bir kod. Toplama ve çarpma gibi basit işlemlerden sinir ağları kurabiliyorsunuz. Sinir ağlarının LEGO blokları gibi. Hesaplama grafiğini inşa ediyor, forward pass ve backward pass yaparak gradyanları elde ediyorsunuz. Ve bu, bütün sinir ağı eğitiminin özü.
Yani micrograd, oldukça yorumlanabilir 100 satırlık Python kodundan oluşuyor ve rastgele sinir ağlarında forward ve backward yapabiliyor, ama verimli değil. Dolayısıyla micrograd, yani bu 100 satırlık Python, sinir ağlarının nasıl eğitildiğini anlamak için gereken her şey. Geri kalan her şey sadece verimlilik. Verimliliği elde etmek için muazzam miktarda iş gerekiyor. Tensor kullanmanız, batching yapmanız, stride kullanmanız, kernel yazmanız, bellek hareketini doğru şekilde orkestre etmeniz gerekiyor, vesaire. Bunların hepsi kabaca konuşursak sadece verimlilikle ilgili. Ama sinir ağı eğitiminin temel entelektüel parçası micrograd. 100 satır. Kolayca anlaşılabiliyor. Bu, gradyanları türetmek için zincir kuralının özyinelemeli uygulanmasından ibaret. Ve bu da herhangi bir türevlenebilir fonksiyonu optimize etmenizi sağlıyor.
Ben bu tür küçük dereceli terimleri bulup tabağa koyarak sunmayı ve keşfetmeyi seviyorum. Eğitimin entelektüel açıdan en ilginç şey olduğunu düşünüyorum. Çünkü elinizde birbirine dolaşmış bir anlayış ağı var ve siz bunu, her şeyin yalnızca kendinden öncekine bağlı olduğu bir rampa gibi yerleştirmeye çalışıyorsunuz. Bu bilgi dolaşıklığını çözmenin, bilişsel bir iş olarak inanılmaz derecede entelektüel açıdan ilginç olduğunu düşünüyorum. Ben kişisel olarak bunu yapmayı seviyorum; şeyleri belirli bir biçimde düzenlemeye çalışma konusunda bir takıntım var. Muhtemelen bu da bana yardımcı oluyor.
Dwarkesh Patel 02:18:41
Bu aynı zamanda öğrenme deneyimini çok daha motive edici hâle getiriyor. Transformer’lar hakkındaki eğitiminiz bigram ile başlıyor; kelimenin tam anlamıyla bir lookup table, yani “burada şu anki kelime var” ya da “burada önceki kelime var, burada sonraki kelime var.” Kelimenin tam anlamıyla sadece bir lookup table.
Andrej Karpathy 02:18:58
Özü tam olarak bu, evet.
Dwarkesh Patel 02:18:59
Bir lookup table’dan başlayıp transformer’a gitmek gerçekten müthiş bir yöntem. Her parça motive edilmiş oluyor. Bunu neden ekleyelim? Sonrakini neden ekleyelim? Attention formülünü ezberleyebilirsiniz ama asıl mesele, her bir parçanın neden ilgili olduğunu, hangi problemi çözdüğünü anlamak.
Andrej Karpathy 02:19:13
Çözümü sunmadan önce acıyı gösterin; ne kadar zekice, değil mi? Öğrenciyi o ilerleyişin içinden geçirmek istiyorum. Bunu iyi, sürükleyici ve ilgi çekici yapan başka birçok küçük şey de var. Öğrenciye sürekli prompt verin.
İyi eğitimcilerin yaptığı buna benzer pek çok başka önemli küçük şey de var. Bunu nasıl çözerdiğiniz? Ben tahmin yürütmeden önce çözümü sunmayacağım. Bu israf olur. Bu biraz... küfretmek istemiyorum ama size ben çözümü vermeden önce bizzat deneme şansı tanımamak, size karşı kötü bir davranış olur.
Dwarkesh Patel 02:19:51
Çünkü bunu kendi başınıza düşünmeye çalıştığınızda, eylem uzayının ne olduğunu, hedefin ne olduğunu ve sonra neden yalnızca bu eylemin o hedefi karşıladığını çok daha iyi anlıyorsunuz.
Andrej Karpathy 02:20:03
Kendi başınıza deneme fırsatınız oluyor ve ben çözümü verdiğimde ona minnet duyuyorsunuz. Eklenen her yeni bilgi başına edinilen bilgi miktarını maksimize ediyor.
Dwarkesh Patel 02:20:11
Neden çoğu zaman kendi alanında gerçek uzman olan insanlar, bunu öğrenmekte olan birine açıklamakta kötü oluyor?
Andrej Karpathy 02:20:24
Uzmanlık ve bilginin laneti. Bu gerçek bir olgu ve ben de ne kadar çaba gösterirsem göstereyim bundan muzdaribim. Bazı şeyleri doğal kabul ediyorsunuz ve daha yeni başlayan insanların yerine kendinizi koyamıyorsunuz. Bu çok yaygın ve benim de başıma geliyor.
Çok yardımcı olan bir şey var. Mesela biri yakın zamanda bana biyolojiyle ilgili bir makale göstermeye çalıştı ve benim hemen çok sayıda korkunç sorum oluştu. Yaptığım şey, makaleyi bağlam penceresine koyup sorular sormak için ChatGPT kullanmak oldu. Daha basit bazı şeyleri çözdüm. Sonra da başlığı, o makaleyi yazan ya da o çalışmayı yapan kişiyle paylaştım. Aklımdaki aptalca soruları görebilirlerse, bunun gelecekte daha iyi açıklamalarına yardımcı olabileceğini düşündüm.
Kendi materyallerim için de, insanlar hazırladığım şeylerle ilgili ChatGPT ile yaptıkları aptalca konuşmaları benimle paylaşsalar çok hoşuma giderdi. Çünkü bu, yeniden yeni başlayan birinin yerine kendimi koyabilmemde gerçekten çok yardımcı oluyor.
Dwarkesh Patel 02:21:19
Şaşırtıcı derecede iyi çalışan başka bir numara daha var. Biri bir makale yazdığında, blog yazısı yazdığında ya da sunum yaptığında, öğle yemeğinde onu nasıl anlatacaklarına dair anlatım ya da döküm çok daha anlaşılır olmakla kalmıyor, aslında daha doğru ve daha bilimsel de oluyor. Vakaların %100’ünde. İnsanların, bir şeyleri mümkün olan en soyut, jargonla dolu şekilde açıklama ve asıl fikri anlatmadan önce dört paragraf boyunca boğaz temizleme eğilimi taşıması anlamında. Ama biriyle bire bir iletişim kurduğunuzda, sanki onları sadece söylemek istediklerini söylemeye iten bir şey var.
Andrej Karpathy 02:22:07
Sadece söyleyin. O tweet’i gördüm, gerçekten çok iyi olduğunu düşündüm. Birçok kişiyle paylaştım. Bunu defalarca, defalarca hissettim.
En çarpıcı örnek, doktora yıllarımda araştırma yaparken yaşadığım bir şeydi. Birinin makalesini okuyorum ve ne yaptığını anlamaya çalışıyorum. Sonra daha sonra bir konferansta bira içerken onlarla karşılaşıyorum ve soruyorum, "Peki bu makale ne yapıyordu? Makale ne hakkındaydı?"
Onlar da o makalenin özünü mükemmel biçimde yakalayan ve fikri tamamen veren üç cümle söylüyorlar. Ve makaleyi okumama gerek kalmıyor. Ancak birayla ya da öyle bir şeyle masada otururken oluyor bu; "Ha evet, makale sadece şu fikri alıyor, bu fikri alıyor, sonra bu deneyi ve şunu deniyor" diyorlar. Bunu sohbet eder gibi kusursuz biçimde ifade etmenin bir yoluna sahipler. Neden bu özet kısmı değil?
Dwarkesh Patel 02:22:51
Aynen öyle. Bu, bir fikri açıklamaya çalışan birinin bunu nasıl daha iyi formüle etmesi gerektiği açısından geliyor. Öğrenci olarak, Karpathy gibi fikrin açıklamasını yapan kişi ortada yoksa diğer öğrencilere tavsiyeniz ne olur? Birinin makalesini ya da bir kitabı okuyorsanız, uzmanı olmadığınız ama ilgi duyduğunuz bir alandaki materyali öğrenmek için hangi stratejileri kullanıyorsunuz?
Andrej Karpathy 02:23:20
Dürüst olmak gerekirse, kendime özgü ipuçları ve numaralarım var mı bilmiyorum. Acı verici bir süreç. Bana her zaman oldukça yardımcı olan bir şey var—bununla ilgili küçük bir tweet atmıştım—ihtiyaç oldukça öğrenmek bence oldukça iyi. Derinlik öncelikli öğrenmek. Derinlik öncelikli, ihtiyaç oldukça öğrenmek—ödülü olan belirli bir projeyi gerçekleştirmeye çalışıyorsunuz—ile genişlik öncelikli öğrenme arasında biraz gidip gelmek gerektiğini hissediyorum; yani "hadi herhangi bir 101 dersi yapalım, burada da bir gün lazım olabilecek her şey var" gibi. Okulların çoğu bunu yapıyor—genişlik öncelikli öğrenme yapıyorlar, "bize güvenin, buna sonra ihtiyacınız olacak" türü şeyler. Tamam, size güveneceğim. İhtiyacım olacağı için öğreneceğim. Ama ben, bir şey yapmaktan ödül aldığınız ve ihtiyaç oldukça öğrendiğiniz türden öğrenmeyi seviyorum.
Aşırı derecede faydalı bulduğum başka bir şey daha var. Bu, eğitimin biraz daha özgeci tarafı. Bir şeyleri insanlara anlatmak, bir şeyi daha derin öğrenmenin harika bir yolu. Bu bana hep oluyor. Muhtemelen başkalarına da oluyordur. Çünkü bir şeyi gerçekten anlamıyorsanız, açıklayamayacağınızı fark ediyorsunuz. Deniyorsunuz ve "aa, bunu anlamıyorum" diyorsunuz. Bununla yüzleşmek çok sinir bozucu. Geri dönüp anlayıp anlamadığınızı kontrol edebilirsiniz. Anlayıştaki bu boşlukları doldurursunuz. Sizi onlarla yüzleşmeye zorluyor. Onları uzlaştırmaya zorluyor.
Bir şeyi yeniden açıklamayı seviyorum ve başkaları da bunu yapmalı. Çünkü o zaman bilgi üzerinde gerçekten işlem yapmanız ve açıklarken ne dediğinizi kesin olarak anlamanız gerekiyor.
Dwarkesh Patel 02:24:48
Bitirmek için tam yerinde bir yazı oldu. Andrej, harikaydı.
Andrej Karpathy 02:24:51
Teşekkürler.
1 yorum
Hacker News görüşleri
Bence yapay zeka gelişimini "sanki 9’ların yürüyüşüymüş gibi" görmek önemli. Her ek %9 için aynı miktarda çaba gerekiyor. %90’lık bir demo sürümü yaptıysan, şimdi ikinci %9’u, üçüncü %9’u ve sonrasını eklemeye devam etmen gerekiyor. Tesla’da 5 yıl çalışırken de bu tekrarlayan süreci defalarca yaşadım. Daha gidilecek çok yol var. Yapay zeka ilerlemesi, belli sabit benchmark’larda yetenekler üstel artıyormuş gibi görünse de, bir sonraki aşamaya geçmenin zorluğu da üstel arttığı için uzun vadede doğrusal iyileşme gibi görünüyor
Yakın zamanda Rich Sutton’ın röportajını izlediğimde, AGI’nin sadece fazladan %9’lar biriktirme meselesi olmadığını düşündüm. Röportajcı, dil anlayışı için dünyanın bir modelinin gerekli olduğunu varsayıyordu ama Sutton bu varsayımı doğrudan reddetti. Bu şüpheci tavra katılmak mümkün gibi geliyor
Bu bana maratonla ilgili eski bir deyişi hatırlatıyor. Maraton iki bölümden oluşur: ilk 20 mil ve hayatının en ağrılı, en yorgun hâlinde koştuğun son 10 km
Yazarın benzetmesini beğendim. Ama belli bir noktadan sonra yapay zeka gelişime kendisi de yardım etmeye başlayacak ve bu da onu eski alan-özel ML ya da diğer sistemlerden belirgin biçimde ayırıyor. Bu yüzden önümüzdeki 2 yıl içinde keskin bir hızlanma olmasını bekliyorum
Ben de sık sık bir işin ilk %90’ını bitirip sonra sıradaki %90’a geçtiğim hakkında şaka yaparım
Bu düşünce biçimi birçok yere uygulanabilir. Sözde Pareto verimliliği, yani 80/20 kuralı gibi, çabanın %20’si işin %80’ini tamamlar. Ama kalan %20’yi bitirmek zamanın çoğunu alır. Bu ilke yinelemeli olarak uygulanır. Son dönemde IT alanında da bu durum çok belirgin. Hızlı hareket etmek ve deney yapmak sürecin büyük kısmı için iyidir, ama bu sırada çok sayıda sorun birikir ve sonunda birilerinin toparlama ve gözden geçirme işini yapması gerekir. Her küçük sorun bir araya gelip büyük soruna dönüşür. Sistemin çalışma süresi %99,9 olsa bile yılda 9 saat kesinti olur ve 1 milyar olay içindeki 1 milyon vaka göz ardı edilemeyecek ölçektedir. Teknolojinin ölçeklenebilirliği sayesinde alan hızla büyüdü ama gölgesi de aynı ölçüde büyüdü. Ortalamanın üstünde bir seviyeye sadece çabayla kolayca ulaşılabilir ama birinin becerisi bazı alanlarda gerçekte ustalığın çok altında kalabilir. 100 milyon doları olan biri, servet mesafesi bakımından bir milyarderden çok evsize daha yakındır; sezgilerimiz eğriseldir
Yapay zeka araştırmacıları ve bilgisayar bilimcileri insan beyniyle yapay zekayı ve bilgisayarı karşılaştırmaya başladıklarında hep tuhaf hissediyorum. Sadece bilgisayar bilimi okumuş bizlerin biyoloji, nörobilim, evrim gibi alanlarda yeterince bilgi sahibi olduğumuzu neden düşündüğümüzü merak ediyorum. Bu tartışmalar ilginç ama aklımın bir köşesinde hep "şu an nörobilim hakkında konuşan iki CS mezununu dinlediğini unutma" düşüncesi oluyor
Yapay zeka alanında bu tür konuşmaları ve bu terminolojiyi tamamen kaldırmamız gerektiğini düşünüyorum. Halka sadece bitmeyen bir kafa karışıklığı veriyor. Gerçek LLM’nin özü, sadece bir sonraki token’ı tahmin etmek için matrisleri eğitmektir. Bunu açıklamak için AGI, Roko's basilisk ya da insan bilinci gibi şeyleri devreye sokmaya gerek yok
Bu varsayımın neden ortaya çıktığına cevap vermek gerekirse, sebebi "kibir"
Aslında mantıksal düşünürsen, "kusursuz küresel ve sürtünmesiz beyin" diye başlayan bir şaka da var
Ben de lisans yıllarımda benzer karşılaştırmalar yapardım; sonuçta beyin X yapıyorsa bilgisayar da yüzeysel olarak benzer bir X yapıyor olabilir ya da X’i Y ve Z gibi adımlarla yeniden üretebilir diye kavramsal bir modele yaslanıyorsun. Ama beynin son derece karmaşık, kimyasal bir makine olduğunu fark ettikten sonra bu tür kıyaslara daha şüpheyle yaklaşmaya başladım
Yapay zeka ve nörobilim, özellikle eski kuşak araştırmacılar arasında ciddi biçimde örtüşüyor. Örneğin Karpathy’nin danışmanı Fei-Fei Li, kedi beyninde görmeyi çalışırken bilgisayarlı görüye geçti; Demis Hassabis’in hesaplamalı nörobilim doktorası var; Geoff Hinton da psikoloji okudu. Reinforcement Learning and Decision Making (RLDM) konferansı, reinforcement learning ile nörobilimi ilişkilendirerek iki alandaki uzmanların bir araya gelmesini sağlıyor. Gerçekte ortalama bir yapay zeka araştırmacısının beyin hakkında sıradan bir bilgisayar bilimi mezunundan çok daha fazla şey bilmesi muhtemel, ama yine de araştırma yapacak düzeyde uzmanlıktan yoksun olabilir
Güncel LLM/AI’ın temel sınırı şu olabilir: Bunlar ağırlıklı olarak soyutlanmış verilere odaklanarak insanın mantıksal akıl yürütmesini üstlenen prefrontal korteksi taklit edecek şekilde eğitiliyor. Oysa insanın gerçek kararları, duygu ve sezgi merkezli limbik sistem etkinliğiyle veriliyor. Yani çoğu durumda biz "nedenini bilmeden önce bir şeyi yapıyoruz" ve ardından prefrontal korteks bunun hikâyesini uyduruyor. Sonuç olarak LLM’ler, insan gerçekliğini işleyiş biçiminden tamamen farklı bir konumdan sadece bazı sinirsel etkinlik kalıplarını taklit ediyor
Şu an bu mesajı okuyan herhangi birinin yaşamı boyunca AGI’nin ortaya çıkmayacağına tüm servetimle bahse girmeye hazırım. Hatta bu yazıyı ileride okuyacak gelecekteki okurların hayatları da dahil. Asıl ilginç soru, böyle bir bahsin nasıl doğrulanabileceği
Neden böyle düşündüğünü daha somut duymak isterim. Her gün Hacker News okurken AGI hakkında ciddi bir mantıksal temel olmadan bir sürü tahmin yapıldığını görmek beni şaşırtıyor. Ben gerçekten ne olacağını bilmiyorum
Bu bahsin gerçekten geçerli olabilmesi için, Polymarket gibi bir tahmin piyasasında gerçek para koymak gerekir. Ama önce AGI’nin somut tanımı üzerinde anlaşmak lazım. Karşı taraf tanımı kendine avantaj sağlayacak şekilde yaparsa bu bahsi kazanmak zorlaşır
Gerçekten servetini ortaya koymayı düşünüyorsan, bunun nakde çevrilmesi neredeyse imkânsız bir işlem olacağı için pratik çözüm tahmin piyasasına girmek. Polymarket’te AGI ile ilgili birçok bahis var
Belki de en gerçekçi yol doğrudan Nvidia hissesini shortlamak olur
Bu, escrow (taraflar arasında fon tutma düzeni) kullanma önerisi
Ben de bir şey ekleyeyim: Hâlâ "zekânın ne olduğu ve nasıl çalıştığı" konusunda şematik düzeyde bile bir anlayışa sahip olmadığımızı düşünüyorum. Bilinç ile zekânın nasıl bağlantılı olduğu bile belirsiz. Böyle bir durumda AGI ya da AI hakkındaki tartışmaların, hatta tahminlerin bile büyük kısmı zayıf temelli kalıyor. Zekânın ne olduğunu bile bilmezken yapay zekâyı tanımlamaya çalışmak başlı başına sorunlu
Zekâyı ya da bilinci tanımlamanın bu kadar zor olmasının nedeni, elimizde sadece tek bir örneğe (insan) tamamen bağımlı olmamız ve bunun üstüne temelsiz bir mistisizm bindirmemiz. İlgili yazı: https://bower.sh/who-will-understand-consciousness
Buna gerçekten tüm kalbimle katılıyorum. Omurgasızların bilincini bile modelleyemiyoruz ve "zihin" hakkında düzgün bir teorimiz yok. Sonuçta yapay zekanın yalnızca anlıyormuş gibi yaptığını, gerçek zekâdan ise çok uzak olduğunu düşünüyorum
Eğer röportaj kaydı doğruysa, Karpathy bu röportajın hiçbir yerinde AGI’nin 10 yıl içinde geleceğini söylemedi ve AGI’nin ne zaman ortaya çıkacağına dair somut bir iddiada da bulunmadı. Patel’in başlığı, gerçek içerikten farklı biçimde yanlış anlaşılmaya yol açıyor
vibe coding ile otomatik tamamlama özelliğini karşılaştırırsak, mevcut LLM modellerinde çok sayıda bilişsel kusur var. Örneğin kodun genel yazım biçimlerine fazla alışkın oldukları için benim tercih etmediğim yaklaşımları sürekli yanlış yorumluyorlar. Ayrıca ne istediğimi İngilizce olarak uzun uzun yazmak çok zahmetli; oysa istediğim kod konumuna gidip birkaç karakter yazınca otomatik tamamlama anında öneri veriyor. Buna karşılık modeller kod tabanını gereksiz yere karmaşıklaştırıyor, durmadan gereksiz kod ve eski API’ler kullanıyor; bu yüzden toplamda ne kadar faydalı olduklarından emin değilim
Bence ileride işsizliğin %50’ye ulaştığı bir dünyada bile hâlâ "bu gerçekten AGI mi" diye tartışıyor olacağız
AGI’nin hedef olması fikri başlı başına tuhaf geliyor. AI terimi de yanlış ve özüne uygun değil. LLM yapay zeka değildir; çok büyük bir LLM bile olsa değildir. Buna rağmen language model son derece faydalı ve potansiyel olarak devrim niteliğinde bir teknolojidir. LLM’ye AI demek hem değerini abartmak hem de küçümsemek oluyor. Yapay zeka olmaması hayal kırıklığı yaratmak zorunda değil; yine de etkileyici bir teknoloji
Nvidia şimdi en yüksek piyasa değerine sahip şirket olduğuna göre, AGI hakkındaki gerçek tartışma devasa sermayenin "hype train"i altında kaybolmuş durumda. İlgili şirket değerlemelerinin büyük kısmı, yakın gelecekte AGI’nin gerçekleşeceği inancına dayanıyor. AGI çok yakın görünürse mevcut liderlerin pazarı tamamen ele geçireceği düşünülüyor; çok uzak görünürse de yatırım ve harcama sürdürülemez görünebilir
Asıl şirket değeri belki de AGI beklentisinden çok, ofis işlerinin otomasyonu gibi yollarla şirketlerin orta sınıf maaşlarından tasarruf etmek için AI teknolojilerine büyük para harcamasına dayanıyordur
AGI olmasa bile AI tek başına devasa ekonomik değer yaratabilir
Evet. Buna 5-10 yıl içinde AGI anlatısı da eklenince, sanki uzay yarışı gibi Çin’le teknoloji savaşı gerekçesiyle "trilyonlarca dolar" yatırım gerektiği savunuluyor. 2024’te de bununla ilgili haberler çıkmıştı: https://www.cnbc.com/2024/02/09/openai-ceo-sam-altman-reportedly-seeking-trillions-of-dollars-for-ai-chip-project.html