- John Carmack’ın "Upper Bound 2025 sunumu" için hazırlık notlarının özeti ve slaytlar
- John Carmack, Id Software, Oculus, Keen Technologies gibi yerlerde çalıştıktan sonra şu anda pekiştirmeli öğrenme tabanlı AGI araştırmalarına odaklanıyor
- LLM’lerden uzak durup, hayvanlar gibi çevreyle etkileşerek öğrenen sürekli ve verimli öğrenme yaklaşımıyla ilgileniyor
- Klasik Atari oyunlarını temel alarak gerçek zamanlı kamera ve joystick girdileriyle öğrenen bir fiziksel RL sistemi kurdu
- Hız, gecikme, sürekli öğrenme, unutmayı önleme gibi RL sistemlerinin gerçeğe daha çok benzemesi için çözülmesi gereken teknik sorunları geniş kapsamlı biçimde ortaya koyuyor
- CNN mimarisi, ödül temsili, keşif stratejileri gibi konularda deneyime dayalı keskin içgörüler paylaşıyor ve yerleşik pratikleri sorguluyor
Quick Background
- Id Software kurucusu olarak Quake, GPU gelişimini hızlandırdı ve dolaylı olarak yapay zeka alanını etkiledi
- Armadillo Aerospace’te dikey kalkış ve iniş yapabilen roketler üzerine 10 yıl araştırma yürüttü
- Oculus’ta modern VR teknolojisinin temellerini attı
- Keen Technologies’i kurdu; pekiştirmeli öğrenmeye odaklanarak yapay zeka araştırmalarına yoğunlaşıyor
- Richard Sutton ile birlikte araştırma yapıyor ve pekiştirmeli öğrenmeye dair benzer bir felsefeyi paylaşıyor
Where I thought I was going
Not LLMs
- LLM’ler “öğrenmesiz bilgi” olarak görülüyor; bu, onun hedeflediği etkileşim temelli öğrenme anlayışıyla felsefi olarak farklı
- LLM’lerin RL’nin yerini alma ihtimali açık olsa da, hayvanlar gibi çevreden öğrenme biçimini daha çekici buluyor
Games
- Uzun yıllara dayanan oyun geliştirme deneyimi sayesinde oyunları deney ortamı olarak kullanıyor
- DeepMind’in Atari araştırmalarında olduğu gibi yalnızca piksel tabanlı girdilerle öğrenmenin mümkün olup olmadığını inceliyor
- Ancak çok büyük eğitim kare sayısı ve verimlilik sorunları hâlâ önemli bir problem
- Çok görevli, çevrim içi ve verimli öğrenme hâlâ çözülememiş durumda
Video
- Başlangıçta TV benzeri pasif video öğrenmesini düşündü, ancak sonunda oyun içi öğrenmenin kendisine odaklanmaya karar verdi
Missteps
- İşe çok düşük seviyeden (C++ CUDA) başladı, ardından PyTorch’a geçerek deney hızını artırdı
- Atari yerine önce Sega Master System ile başladı, ancak karşılaştırma verisi yetersiz olduğu için yön değiştirdi
- Video tabanlı öğrenmeyi şimdilik erteledi; çünkü yalnızca oyun içi öğrenmede bile yeterince zor problem var
Settling in with Atari
- Ticari oyunların çeşitliliği, araştırma önyargısını azaltma açısından avantaj sağlıyor
- ALE’nin doğrudan kullanılması öneriliyor (Gym gibi wrapper’lar sorun çıkarabiliyor)
- En yeni modeller çoğu oyunda yüksek skorlar elde etmiş olsa da, “Atari 100k” gibi veri açısından verimli öğrenme daha önemli
- Ortamın deterministik davranışı, sticky action gibi yöntemlerle aşılması gereken bir sorun
Reality is not a turn based game
- Gerçek dünya ajanı beklemez → asenkron işleme ve gecikmenin hesaba katılması gerekir
- Tek bir ortamda öğrenmenin başarısız olması, doğrudan algoritmanın kendisindeki soruna işaret edebilir
- Hız: yüksek hızda değerlendirilebilen politikalara ihtiyaç var (ör. CUDA graph kullanımı)
- Gecikme: RL algoritmalarının çoğu gecikmeye kırılgan → politika uygulama gecikmesini hesaba katan yapılara ihtiyaç var
Physical Atari
- Fiziksel ortamda çalışan bir Atari öğrenme sistemi kurdu
- Gerçek joystick hareketleri, ekranı gören bir kamera ve RL ajanı gerçek zamanlı olarak birlikte çalışıyor
- Farklı oyunları test ederken skor algılama, eylem gecikmesi, kontrol hataları gibi gerçek dünya sorunlarını hesaba kattı
- Joystick hareketleri kararsız, en zor kısım ise skor algılama
- Bazı oyunlar, skorun yeterince görünür olmaması nedeniyle kapsam dışı bırakıldı
Sparse rewards / Curiosity
- RL, ödülün seyrek olduğu ortamlarda zayıf kalıyor → içsel ödül ve yapay merak kullanımı önemli
- Oyunun kendi skorunun ödül yerine kullanılıp kullanılamayacağı da araştırılıyor
- Oyunlar arasında geçiş ve yeni oyunlara ilgiyi sürdürme gibi insan davranış kalıpları yeniden üretilmeye çalışılıyor
Sequential multi-task learning
- Sürekli öğrenme ortamlarında yıkıcı unutma sorunu hâlâ çok ciddi
- İnsanlar eski becerilerini koruyabilirken, mevcut modeller geçmişte oynanan oyunlara dönünce performansı sert biçimde kaybediyor
- Belleği koruma, öğrenme oranını ayarlama, ağırlık sparsity’si gibi yöntemlerle iyileştirme deneniyor
- Task ID kullanımı hile sayılıyor; geçişin örtük biçimde gerçekleşmesi gerekiyor
Transfer Learning
- Çok öğrenilmiş oyunlardan yararlanarak yeni oyunların daha hızlı öğrenilmesi gerekiyor
- OpenAI’nin Sonic challenge’ı sonuçta yeniden from scratch öğrenmeye döndü
- GATO gibi yaklaşımlarda negatif transfer görüldü
- “Yavaş öğren ki hızlı öğrenebilesin” stratejisi gerekli olabilir
- Yeni bir benchmark önerisi: birçok oyunu sıralı ve tekrarlı biçimde oynayıp skorları değerlendirmek
Plasticity vs generalization
- Genelleme bazı ayrıntıları yok saymaktır, plastisite ise yeni örüntüleri tanımaktır → ikisi birbiriyle çatışabilir
- Genellemenin teorik temeli zayıf; en fazla CNN’lerin inductive bias’ı düzeyinde açıklanabiliyor
- Pekiştirmeli öğrenmedeki değer fonksiyonu genellemenin bir ürünüdür ve son derece hassastır
Exploration
- Rastgele eylem seçiminin sınırları var → tek bir hata bile hayatta kalmayı belirleyebilir
- Eylem uzayını yapılandırma, confidence tabanlı politikalar gibi yaklaşımlar deneniyor
- Zaman ölçekli eylemler de ayrıca düşünülmeli → 60fps’de öğrenme oldukça zor
Recurrence vs frame stacks
- Atari’de frame stack etkili olsa da, recurrent yapılar beyne daha çok benziyor
- Transformer’lar batch eğitimde güçlü, ancak genel amaçlı recurrent çevrim içi öğrenme hâlâ tamamlanmış değil
Fonksiyon yaklaşımı merkezli öğrenme
- NN, aynı anda değer kestirimi, genelleme, olasılık ortalaması ve politika iyileştirmesi yapıyor
- Tüm ağırlık güncellemeleri bütün çıktı değerlerini etkiliyor
- Başlatma, aktivasyon fonksiyonu ve optimizer birleşimi performansı ciddi biçimde etkiliyor
Value representation
- Klasik DQN reward clamping, eğitimi istikrarlı hâle getirmede etkili
- Categorical temsil, MSE kullanımı, MuZero’nun value sıkıştırması gibi çeşitli yaklaşımlar var
- Oyunlara göre skor aralığının değişmesi, çok görevli öğrenmede sorun yaratıyor
Conv Nets
- CNN’ler hâlâ RL’nin temel mimarisi
- Büyük görüntü ağları RL’de performans düşüşü yaratıyor (ör. ConvNeXT)
- Kernel yapısını değiştirme, parametre paylaşımı, isotropic CNN gibi deneyler yapılıyor
- DenseNet, Dilated CNN gibi yapılarla verimli bilgi akışı hedefleniyor
- Biyolojik yapılara daha çok benzeyen CNN iyileştirmeleri deneniyor
1 yorum
Hacker News yorumu
Carmack'ın konuşmalarını ya da yazılarını her gördüğümde bunun her zaman ilgi çekici bir deneyim olduğunu vurgulamak isterim. Bu notlarda da bir mühendis olarak düşünce sürecini titizlikle kaydetme biçimi etkileyici. Araştırma yönü olarak gerçek zamanlı öğrenmeye odaklanması hakkında merakım vardı. Carmack'ın online learning'i gerçek zamanlı yürüttüğünü anlıyorum. Harika demolar ve optimizasyon deneyimini kullanabileceği eğlenceli bir meydan okuma, ancak son dönemdeki dersler ve araştırma akışına bakınca, gerçek zamanlı çıkarım ve öğrenmeyi mümkün kılacak hesaplama kaynakları hazır değilse sonuçların sınıra dayanabileceğini düşünüyorum. Beyin, Atari oyunlarını çözebilen tek örnek ve insan beyninin hesaplama kapasitesi bile hiçbir zaman net biçimde hesaplanmış değil. Bu bağlamda, neden özellikle gerçek zaman kısıtı koymak yerine öğrenme verimliliğine odaklanılmasın diye samimi bir sorum var. Elbette kısıtlar içinde çalışmanın büyük değeri var, ama zıplayan örümceklerin bile 100 bin nöronla karmaşık problemleri çözmesi gibi örnekler de olduğundan, tahmin etmek zor
Carmack'ın 90'ların başında yaptığı ilk 3D grafik ve gerçek zamanlı render araştırmaları sırasında, workstation tabanlı offline uzmanlar da muhtemelen benzer şeyler düşünüyordu. Carmack'ın en büyük gücü her zaman sınırlı kaynaklar içinde uç performans çıkarabilmesi oldu (
id Software, Oculus, Armadillo Aerospace vb.). Büyük organizasyonlara ya da mevcut teknolojiye bağlanınca performansın düştüğü izlenimi veriyor (Bethesda-id ve Meta'dan ayrılması da bence bununla ilgili). Carmack'ın gerçek zamana odaklanan tarzını anlıyorum ve mevcut yapay zeka patlamasında sadece hesaplama gücüyle yüklenilen yaklaşımları pek sevmeyeceğini düşünüyorum. Yatırımcı parasıyla LLM eğitimi gibi işlere gömülmüyor olması sevindirici. İdeal durumda, geçmişte olduğu gibi harika ekip arkadaşlarıyla birlikte ileri teknolojiyi kitlelere yaygınlaştıran bir yaklaşımla (ör. 3D grafiklerin yaygınlaşması) yenilik üretmesini isterimSunum notlarından bir cümleyi alıntılarsak, "Yakında bedene sahip AGI geleceğini düşünüyorsanız, dans eden insansı robotunuza bir joystick verin ve daha önce hiç görmediği bir video oyununu öğrenmesini sağlayın" denilerek bir reality check öneriliyor
İnsanların ve hayvanların muazzam ölçüde doğuştan gelen yetenekleri ve ön bilgileri olduğunu, bu yüzden yeni şeyleri öğrenmelerinin çok daha kolay yapılandığını vurgulamak isterim. Buradaki fark hesaplama gücünden çok, öğrenmenin başlangıç noktasının farklı olması
İnsan beyninin hesaplama kapasitesinin belirsiz olduğu görüşüne karşılık, aslında nöronların sinyal iletim hızısı ölçüldüğünde art arda bağlanan nöron sayısında bir üst sınır var (yaklaşık 100 adım) ve buradan hareketle insan bilişsel işlemenin düşünüldüğü kadar karmaşık olmayabileceği sonucu çıkıyor. Elbette çok fazla paralellik ve geri besleme döngüsü vardır, ama sonuçta AGI algoritması bulunursa 2025'in sıradan donanımında gerçek zamanlı çalışabilecek bir 'mini' sürümün çıkabileceğini düşünüyorum
İlgili doğrudan bağlantı derlemesi:
OpenAI içinden birinin ilginç bir yanıtı vardı, paylaşmak istiyorum: X bağlantısı
Açıkçası pek ilginç olmayan bir tepki. Dışarıdan gelen görüşleri yok sayan bu muğlak tavır, akademik güvensizlikten kaynaklanan tipik bir görüntü. Somut açıklama ya da gerekçe sunmadığı için tartışmaya katkı sağlamıyor. 'OpenAI içinden biri' ile 'John Carmack ve Richard Sutton' arasında seçim yapacaksam kimin tarafında olacağım belli
Carmack ilgili gönderiye bizzat yanıt verdi: Carmack yanıtı
Bazı insanlar tüm Twitter dizisini görüp değerlendirme yapıyor, giriş yapmamış olanlarsa yalnızca ilk tweet'i gördüğü için bu sadece küçümseyici bir tavır gibi algılanıyor
“Bir ders öğrenirler” deyip o dersin ne olduğunu söylememesi komik
they will learn the same lesson I didtweet'ini görünce, “Altman'a güvenmemeleri gerektiği mi kastediliyor?” diye bir şaka eklemek istiyorumCarmack'ın yapay zekaya odaklanmaya karar verdiğini duyduğumda gerçekten heyecanlanmıştım. Videonun yüklenmesini bekliyorum ama slaytlara bakınca Atari oyunu oynayabilen bir sistem yapmış gibi görünüyor. Eğlenceli bir proje gibi, ancak başka makaleler ya da sonuçlar da çıkacak mı merak ediyorum
Atari oyunları RL (pekiştirmeli öğrenme) araştırmalarında yaygın bir standart benchmark olarak kullanılıyor. Referans: Arcade Learning Environment. Amaç, farklı görevlere genellenebilecek algoritmalar geliştirmek
Atari oyunlarını bitiren ya da yüksek skor yapan ajanlar zaten çok, ama alanın hâlâ gidecek çok yolu var. Yüksek lisans tezimde az etkileşimle öğrenme yöntemlerini araştırdım; bunu gerçek robotlara uygularsanız, robotların bir davranışı öğrenmek için yüzlerce yıl yürümesi ve düşmesi gerekmesini önleyebilirsiniz. Birden fazla video oyununu öğrenip yeni oyunları da sezgisel olarak öğrenebilecek daha yüksek seviyede genelleme ilkelerini inceleyen örnekler hâlâ az
Bu projenin amacı sadece Atari oyunlarını 'bitirmek' değil, daha karmaşık oyunlara ya da fiziksel dünyaya uygulanabilecek genel bir metodoloji geliştirmek. Ancak araştırma içgörüleri açısından bakarsak, bu aşamada daha karmaşık oyunlar getirmektense Atari ortamını gerçek zamanlı vb. biçimlerde değiştirip test etmek daha verimli görünüyor
Bunu open source olarak yayımlamayı planlaması harika. Fiziksel kontrolcü ve kamerayla laptop GPU'sunda gerçek zamanlı oynaması tazeleyici, ama bunun kendi başına devrim niteliğinde olup olmayacağından emin değilim. Eğer örnek verimliliği ya da genelleme açısından mevcut çalışmalara göre belirgin biçimde daha iyiyse, bu gerçekten şaşırtıcı olur
Benim dileğim, oyunlardaki NPC'lerin daha akıllı hâle gelmesi
Slaytların girişinde de geçtiği gibi, keşke bu araştırma VR ortamında yapılsaydı diye düşünüyorum. JPEG kamera filtresi, fizik simülasyonu, gürültü ve robot simülasyon ortamına kadar VR içinde çok iyi uygulanabilecek bir beceri varsa, Carmack bu iş için doğru kişi. Gerçek robot kullanmak öğrenme süresi açısından devasa bir darboğaz
AGI'nin neden ille de fiziksel bir bedene sahip olması gerektiğini ve neden üstün bir zeka yaratınca arabamızı kullanmasını, evimizi temizlemesini beklediğimizi düşündürüyor. Hatta Dan Simmons'ın
Hyperionromanındaki gibi, AGI'nin buluta karışıp insanları büyük ölçüde umursamaması daha gerçekçi bir senaryo gibi geliyorBunun sonsuza kadar sürmesi gerekmiyor; insanlar da bedenlerinden ayrılabilse muhtemelen bunu isterdi. Kalıcı olarak fiziksel bir arayüze hapsolmak dezavantajlı olabilir
SF'de sık geçmesinin sebeplerinden biri de sanırım “AGI'nin bedenimdeki güç düğmesine basamaması” fikri
AGI hakkında tartışmak için önce 'kavram'ın ne olduğunun bile net olmadığını hissediyorum. Bir alandaki kavramı başka bir alanda kullanma düşünce süreci, beynin fikirleri birleştirip soyutlama yapma süreci nedir, bunu hâlâ bilmiyoruz
Bir deney örneği olarak, eğer OpenAI AGI'si gerçekten çok yakınsa neden Ive'ın yönettiği donanım girişimini satın almak için zaman ve para harcadıklarını sormak iyi olurdu. Robotik işine girebilirlerdi ya da gerçekten en iyi AGI'ye sahiplerse zaten sayısız şirket donanım/yazılım lisansı için kapılarına gelirdi ve bu tek başına sonsuz gelir yaratabilirdi
Sadece AGI yetmez. ChatGPT arayüzüne AGI koysanız bile gerçek dünyayı etkilemek için AGI'nin 'her yerde' olması gerekir
AGI geliştirmeye yaklaşan bir şirketin, devlet ya da askeri düzenlemelerden kaçınmak için bilgiyi bilerek gizli tutma ihtimali de yüksek. AGI'de ilk olmak riskli
AGI'nin ürün tasarımı bile yapabilecek bir yöne gittiğini ima etmek istiyorum
Carmack'ın seçtiği araştırmanın doğru olduğunu düşünüyorum. Şu anki gibi sadece dille eğitmenin ötesine geçmemiz gerekiyor. Yapay zekanın fizikselliğe ihtiyacı var
Yapay zekayı dil dışındaki farklı veri türleriyle ciddi biçimde eğitmek zaten birkaç yıldır devam ediyor. En yeni frontier modeller; metin, ses, video ve görüntüyü tek bir model içinde multimodal olarak eğitiyor (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 vb.). Tüm girdiler token'lara dönüştürülüp ortak bir embedding alanında işleniyor
Yapay zekanın fiziksel olana ihtiyaç duyduğu görüşü açısından, Carmack'ın geçmişte simülasyon ortamlarının yapay zeka geliştirmek için daha uygun olduğunu ve fiziksel ortamların pratikte verimsiz kaldığını özellikle vurgulamış olması ilginç
Nvidia da benzer görüşte. Jim Fan, “fiziksel Turing testi” ve embodied AI'nin geleceği hakkında konuşuyor. Jim Fan konuşma videosu. Orada da sağlam simülasyon ortamları çalıştırmak için muazzam hesaplama kaynakları gerektiğini vurguluyor
“Araştırma topluluğuna yeni katıldığım için buna dikkat ettim” ifadesi, makale gönderme olasılığına işaret ediyor gibi