Oyunun ötesinde gerçeğe kadar öğrenen yapay zeka: John Carmack’ın gerçeklik temelli pekiştirmeli öğrenme meydan okuması

(twitter.com/ID_AA_Carmack)

17 puan yazan GN⁺ 2025-05-24 | 1 yorum | WhatsApp'ta paylaş

John Carmack’ın "Upper Bound 2025 sunumu" için hazırlık notlarının özeti ve slaytlar
John Carmack, Id Software, Oculus, Keen Technologies gibi yerlerde çalıştıktan sonra şu anda pekiştirmeli öğrenme tabanlı AGI araştırmalarına odaklanıyor
LLM’lerden uzak durup, hayvanlar gibi çevreyle etkileşerek öğrenen sürekli ve verimli öğrenme yaklaşımıyla ilgileniyor
Klasik Atari oyunlarını temel alarak gerçek zamanlı kamera ve joystick girdileriyle öğrenen bir fiziksel RL sistemi kurdu
Hız, gecikme, sürekli öğrenme, unutmayı önleme gibi RL sistemlerinin gerçeğe daha çok benzemesi için çözülmesi gereken teknik sorunları geniş kapsamlı biçimde ortaya koyuyor
CNN mimarisi, ödül temsili, keşif stratejileri gibi konularda deneyime dayalı keskin içgörüler paylaşıyor ve yerleşik pratikleri sorguluyor

Slaytlar: https://docs.google.com/presentation/d/…
Hazırlık notları: https://docs.google.com/document/d/…

Quick Background

Id Software kurucusu olarak Quake, GPU gelişimini hızlandırdı ve dolaylı olarak yapay zeka alanını etkiledi
Armadillo Aerospace’te dikey kalkış ve iniş yapabilen roketler üzerine 10 yıl araştırma yürüttü
Oculus’ta modern VR teknolojisinin temellerini attı
Keen Technologies’i kurdu; pekiştirmeli öğrenmeye odaklanarak yapay zeka araştırmalarına yoğunlaşıyor
Richard Sutton ile birlikte araştırma yapıyor ve pekiştirmeli öğrenmeye dair benzer bir felsefeyi paylaşıyor

Where I thought I was going

Not LLMs

LLM’ler “öğrenmesiz bilgi” olarak görülüyor; bu, onun hedeflediği etkileşim temelli öğrenme anlayışıyla felsefi olarak farklı
LLM’lerin RL’nin yerini alma ihtimali açık olsa da, hayvanlar gibi çevreden öğrenme biçimini daha çekici buluyor

Games

Uzun yıllara dayanan oyun geliştirme deneyimi sayesinde oyunları deney ortamı olarak kullanıyor
DeepMind’in Atari araştırmalarında olduğu gibi yalnızca piksel tabanlı girdilerle öğrenmenin mümkün olup olmadığını inceliyor
Ancak çok büyük eğitim kare sayısı ve verimlilik sorunları hâlâ önemli bir problem
Çok görevli, çevrim içi ve verimli öğrenme hâlâ çözülememiş durumda

Video

Başlangıçta TV benzeri pasif video öğrenmesini düşündü, ancak sonunda oyun içi öğrenmenin kendisine odaklanmaya karar verdi

Missteps

İşe çok düşük seviyeden (C++ CUDA) başladı, ardından PyTorch’a geçerek deney hızını artırdı
Atari yerine önce Sega Master System ile başladı, ancak karşılaştırma verisi yetersiz olduğu için yön değiştirdi
Video tabanlı öğrenmeyi şimdilik erteledi; çünkü yalnızca oyun içi öğrenmede bile yeterince zor problem var

Settling in with Atari

Ticari oyunların çeşitliliği, araştırma önyargısını azaltma açısından avantaj sağlıyor
ALE’nin doğrudan kullanılması öneriliyor (Gym gibi wrapper’lar sorun çıkarabiliyor)
En yeni modeller çoğu oyunda yüksek skorlar elde etmiş olsa da, “Atari 100k” gibi veri açısından verimli öğrenme daha önemli
Ortamın deterministik davranışı, sticky action gibi yöntemlerle aşılması gereken bir sorun

Reality is not a turn based game

Gerçek dünya ajanı beklemez → asenkron işleme ve gecikmenin hesaba katılması gerekir
Tek bir ortamda öğrenmenin başarısız olması, doğrudan algoritmanın kendisindeki soruna işaret edebilir
Hız: yüksek hızda değerlendirilebilen politikalara ihtiyaç var (ör. CUDA graph kullanımı)
Gecikme: RL algoritmalarının çoğu gecikmeye kırılgan → politika uygulama gecikmesini hesaba katan yapılara ihtiyaç var

Physical Atari

Fiziksel ortamda çalışan bir Atari öğrenme sistemi kurdu
Gerçek joystick hareketleri, ekranı gören bir kamera ve RL ajanı gerçek zamanlı olarak birlikte çalışıyor
Farklı oyunları test ederken skor algılama, eylem gecikmesi, kontrol hataları gibi gerçek dünya sorunlarını hesaba kattı
Joystick hareketleri kararsız, en zor kısım ise skor algılama
Bazı oyunlar, skorun yeterince görünür olmaması nedeniyle kapsam dışı bırakıldı

Sparse rewards / Curiosity

RL, ödülün seyrek olduğu ortamlarda zayıf kalıyor → içsel ödül ve yapay merak kullanımı önemli
Oyunun kendi skorunun ödül yerine kullanılıp kullanılamayacağı da araştırılıyor
Oyunlar arasında geçiş ve yeni oyunlara ilgiyi sürdürme gibi insan davranış kalıpları yeniden üretilmeye çalışılıyor

Sequential multi-task learning

Sürekli öğrenme ortamlarında yıkıcı unutma sorunu hâlâ çok ciddi
İnsanlar eski becerilerini koruyabilirken, mevcut modeller geçmişte oynanan oyunlara dönünce performansı sert biçimde kaybediyor
Belleği koruma, öğrenme oranını ayarlama, ağırlık sparsity’si gibi yöntemlerle iyileştirme deneniyor
Task ID kullanımı hile sayılıyor; geçişin örtük biçimde gerçekleşmesi gerekiyor

Transfer Learning

Çok öğrenilmiş oyunlardan yararlanarak yeni oyunların daha hızlı öğrenilmesi gerekiyor
OpenAI’nin Sonic challenge’ı sonuçta yeniden from scratch öğrenmeye döndü
GATO gibi yaklaşımlarda negatif transfer görüldü
“Yavaş öğren ki hızlı öğrenebilesin” stratejisi gerekli olabilir
Yeni bir benchmark önerisi: birçok oyunu sıralı ve tekrarlı biçimde oynayıp skorları değerlendirmek

Plasticity vs generalization

Genelleme bazı ayrıntıları yok saymaktır, plastisite ise yeni örüntüleri tanımaktır → ikisi birbiriyle çatışabilir
Genellemenin teorik temeli zayıf; en fazla CNN’lerin inductive bias’ı düzeyinde açıklanabiliyor
Pekiştirmeli öğrenmedeki değer fonksiyonu genellemenin bir ürünüdür ve son derece hassastır

Exploration

Rastgele eylem seçiminin sınırları var → tek bir hata bile hayatta kalmayı belirleyebilir
Eylem uzayını yapılandırma, confidence tabanlı politikalar gibi yaklaşımlar deneniyor
Zaman ölçekli eylemler de ayrıca düşünülmeli → 60fps’de öğrenme oldukça zor

Recurrence vs frame stacks

Atari’de frame stack etkili olsa da, recurrent yapılar beyne daha çok benziyor
Transformer’lar batch eğitimde güçlü, ancak genel amaçlı recurrent çevrim içi öğrenme hâlâ tamamlanmış değil

Fonksiyon yaklaşımı merkezli öğrenme

NN, aynı anda değer kestirimi, genelleme, olasılık ortalaması ve politika iyileştirmesi yapıyor
Tüm ağırlık güncellemeleri bütün çıktı değerlerini etkiliyor
Başlatma, aktivasyon fonksiyonu ve optimizer birleşimi performansı ciddi biçimde etkiliyor

Value representation

Klasik DQN reward clamping, eğitimi istikrarlı hâle getirmede etkili
Categorical temsil, MSE kullanımı, MuZero’nun value sıkıştırması gibi çeşitli yaklaşımlar var
Oyunlara göre skor aralığının değişmesi, çok görevli öğrenmede sorun yaratıyor

Conv Nets

CNN’ler hâlâ RL’nin temel mimarisi
Büyük görüntü ağları RL’de performans düşüşü yaratıyor (ör. ConvNeXT)
Kernel yapısını değiştirme, parametre paylaşımı, isotropic CNN gibi deneyler yapılıyor
DenseNet, Dilated CNN gibi yapılarla verimli bilgi akışı hedefleniyor
Biyolojik yapılara daha çok benzeyen CNN iyileştirmeleri deneniyor

1 yorum

GN⁺ 2025-05-24

Hacker News yorumu

Carmack'ın konuşmalarını ya da yazılarını her gördüğümde bunun her zaman ilgi çekici bir deneyim olduğunu vurgulamak isterim. Bu notlarda da bir mühendis olarak düşünce sürecini titizlikle kaydetme biçimi etkileyici. Araştırma yönü olarak gerçek zamanlı öğrenmeye odaklanması hakkında merakım vardı. Carmack'ın online learning'i gerçek zamanlı yürüttüğünü anlıyorum. Harika demolar ve optimizasyon deneyimini kullanabileceği eğlenceli bir meydan okuma, ancak son dönemdeki dersler ve araştırma akışına bakınca, gerçek zamanlı çıkarım ve öğrenmeyi mümkün kılacak hesaplama kaynakları hazır değilse sonuçların sınıra dayanabileceğini düşünüyorum. Beyin, Atari oyunlarını çözebilen tek örnek ve insan beyninin hesaplama kapasitesi bile hiçbir zaman net biçimde hesaplanmış değil. Bu bağlamda, neden özellikle gerçek zaman kısıtı koymak yerine öğrenme verimliliğine odaklanılmasın diye samimi bir sorum var. Elbette kısıtlar içinde çalışmanın büyük değeri var, ama zıplayan örümceklerin bile 100 bin nöronla karmaşık problemleri çözmesi gibi örnekler de olduğundan, tahmin etmek zor
- Carmack'ın 90'ların başında yaptığı ilk 3D grafik ve gerçek zamanlı render araştırmaları sırasında, workstation tabanlı offline uzmanlar da muhtemelen benzer şeyler düşünüyordu. Carmack'ın en büyük gücü her zaman sınırlı kaynaklar içinde uç performans çıkarabilmesi oldu (id Software, Oculus, Armadillo Aerospace vb.). Büyük organizasyonlara ya da mevcut teknolojiye bağlanınca performansın düştüğü izlenimi veriyor (Bethesda-id ve Meta'dan ayrılması da bence bununla ilgili). Carmack'ın gerçek zamana odaklanan tarzını anlıyorum ve mevcut yapay zeka patlamasında sadece hesaplama gücüyle yüklenilen yaklaşımları pek sevmeyeceğini düşünüyorum. Yatırımcı parasıyla LLM eğitimi gibi işlere gömülmüyor olması sevindirici. İdeal durumda, geçmişte olduğu gibi harika ekip arkadaşlarıyla birlikte ileri teknolojiyi kitlelere yaygınlaştıran bir yaklaşımla (ör. 3D grafiklerin yaygınlaşması) yenilik üretmesini isterim
- Sunum notlarından bir cümleyi alıntılarsak, "Yakında bedene sahip AGI geleceğini düşünüyorsanız, dans eden insansı robotunuza bir joystick verin ve daha önce hiç görmediği bir video oyununu öğrenmesini sağlayın" denilerek bir reality check öneriliyor
- İnsanların ve hayvanların muazzam ölçüde doğuştan gelen yetenekleri ve ön bilgileri olduğunu, bu yüzden yeni şeyleri öğrenmelerinin çok daha kolay yapılandığını vurgulamak isterim. Buradaki fark hesaplama gücünden çok, öğrenmenin başlangıç noktasının farklı olması
- İnsan beyninin hesaplama kapasitesinin belirsiz olduğu görüşüne karşılık, aslında nöronların sinyal iletim hızısı ölçüldüğünde art arda bağlanan nöron sayısında bir üst sınır var (yaklaşık 100 adım) ve buradan hareketle insan bilişsel işlemenin düşünüldüğü kadar karmaşık olmayabileceği sonucu çıkıyor. Elbette çok fazla paralellik ve geri besleme döngüsü vardır, ama sonuçta AGI algoritması bulunursa 2025'in sıradan donanımında gerçek zamanlı çalışabilecek bir 'mini' sürümün çıkabileceğini düşünüyorum
İlgili doğrudan bağlantı derlemesi:
- Sunum slaytları
- Metin belgesi
OpenAI içinden birinin ilginç bir yanıtı vardı, paylaşmak istiyorum: X bağlantısı
- Açıkçası pek ilginç olmayan bir tepki. Dışarıdan gelen görüşleri yok sayan bu muğlak tavır, akademik güvensizlikten kaynaklanan tipik bir görüntü. Somut açıklama ya da gerekçe sunmadığı için tartışmaya katkı sağlamıyor. 'OpenAI içinden biri' ile 'John Carmack ve Richard Sutton' arasında seçim yapacaksam kimin tarafında olacağım belli
- Carmack ilgili gönderiye bizzat yanıt verdi: Carmack yanıtı
- Bazı insanlar tüm Twitter dizisini görüp değerlendirme yapıyor, giriş yapmamış olanlarsa yalnızca ilk tweet'i gördüğü için bu sadece küçümseyici bir tavır gibi algılanıyor
- “Bir ders öğrenirler” deyip o dersin ne olduğunu söylememesi komik
- they will learn the same lesson I did tweet'ini görünce, “Altman'a güvenmemeleri gerektiği mi kastediliyor?” diye bir şaka eklemek istiyorum
Carmack'ın yapay zekaya odaklanmaya karar verdiğini duyduğumda gerçekten heyecanlanmıştım. Videonun yüklenmesini bekliyorum ama slaytlara bakınca Atari oyunu oynayabilen bir sistem yapmış gibi görünüyor. Eğlenceli bir proje gibi, ancak başka makaleler ya da sonuçlar da çıkacak mı merak ediyorum
- Atari oyunları RL (pekiştirmeli öğrenme) araştırmalarında yaygın bir standart benchmark olarak kullanılıyor. Referans: Arcade Learning Environment. Amaç, farklı görevlere genellenebilecek algoritmalar geliştirmek
- Atari oyunlarını bitiren ya da yüksek skor yapan ajanlar zaten çok, ama alanın hâlâ gidecek çok yolu var. Yüksek lisans tezimde az etkileşimle öğrenme yöntemlerini araştırdım; bunu gerçek robotlara uygularsanız, robotların bir davranışı öğrenmek için yüzlerce yıl yürümesi ve düşmesi gerekmesini önleyebilirsiniz. Birden fazla video oyununu öğrenip yeni oyunları da sezgisel olarak öğrenebilecek daha yüksek seviyede genelleme ilkelerini inceleyen örnekler hâlâ az
- Bu projenin amacı sadece Atari oyunlarını 'bitirmek' değil, daha karmaşık oyunlara ya da fiziksel dünyaya uygulanabilecek genel bir metodoloji geliştirmek. Ancak araştırma içgörüleri açısından bakarsak, bu aşamada daha karmaşık oyunlar getirmektense Atari ortamını gerçek zamanlı vb. biçimlerde değiştirip test etmek daha verimli görünüyor
- Bunu open source olarak yayımlamayı planlaması harika. Fiziksel kontrolcü ve kamerayla laptop GPU'sunda gerçek zamanlı oynaması tazeleyici, ama bunun kendi başına devrim niteliğinde olup olmayacağından emin değilim. Eğer örnek verimliliği ya da genelleme açısından mevcut çalışmalara göre belirgin biçimde daha iyiyse, bu gerçekten şaşırtıcı olur
- Benim dileğim, oyunlardaki NPC'lerin daha akıllı hâle gelmesi
Slaytların girişinde de geçtiği gibi, keşke bu araştırma VR ortamında yapılsaydı diye düşünüyorum. JPEG kamera filtresi, fizik simülasyonu, gürültü ve robot simülasyon ortamına kadar VR içinde çok iyi uygulanabilecek bir beceri varsa, Carmack bu iş için doğru kişi. Gerçek robot kullanmak öğrenme süresi açısından devasa bir darboğaz
AGI'nin neden ille de fiziksel bir bedene sahip olması gerektiğini ve neden üstün bir zeka yaratınca arabamızı kullanmasını, evimizi temizlemesini beklediğimizi düşündürüyor. Hatta Dan Simmons'ın Hyperion romanındaki gibi, AGI'nin buluta karışıp insanları büyük ölçüde umursamaması daha gerçekçi bir senaryo gibi geliyor
- Bunun sonsuza kadar sürmesi gerekmiyor; insanlar da bedenlerinden ayrılabilse muhtemelen bunu isterdi. Kalıcı olarak fiziksel bir arayüze hapsolmak dezavantajlı olabilir
- SF'de sık geçmesinin sebeplerinden biri de sanırım “AGI'nin bedenimdeki güç düğmesine basamaması” fikri
AGI hakkında tartışmak için önce 'kavram'ın ne olduğunun bile net olmadığını hissediyorum. Bir alandaki kavramı başka bir alanda kullanma düşünce süreci, beynin fikirleri birleştirip soyutlama yapma süreci nedir, bunu hâlâ bilmiyoruz
- Nesneler tekrar tekrar ortaya çıktığında onlara isim verilir ve kavramlar da tekrar eden düşünce kalıplarıdır. Soyutlama, ilişki ve metafor; hepsi alanlar arasında örüntü taşımaya yarayan araçlar
Bir deney örneği olarak, eğer OpenAI AGI'si gerçekten çok yakınsa neden Ive'ın yönettiği donanım girişimini satın almak için zaman ve para harcadıklarını sormak iyi olurdu. Robotik işine girebilirlerdi ya da gerçekten en iyi AGI'ye sahiplerse zaten sayısız şirket donanım/yazılım lisansı için kapılarına gelirdi ve bu tek başına sonsuz gelir yaratabilirdi
- Sadece AGI yetmez. ChatGPT arayüzüne AGI koysanız bile gerçek dünyayı etkilemek için AGI'nin 'her yerde' olması gerekir
- AGI geliştirmeye yaklaşan bir şirketin, devlet ya da askeri düzenlemelerden kaçınmak için bilgiyi bilerek gizli tutma ihtimali de yüksek. AGI'de ilk olmak riskli
- AGI'nin ürün tasarımı bile yapabilecek bir yöne gittiğini ima etmek istiyorum
Carmack'ın seçtiği araştırmanın doğru olduğunu düşünüyorum. Şu anki gibi sadece dille eğitmenin ötesine geçmemiz gerekiyor. Yapay zekanın fizikselliğe ihtiyacı var
- Yapay zekayı dil dışındaki farklı veri türleriyle ciddi biçimde eğitmek zaten birkaç yıldır devam ediyor. En yeni frontier modeller; metin, ses, video ve görüntüyü tek bir model içinde multimodal olarak eğitiyor (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 vb.). Tüm girdiler token'lara dönüştürülüp ortak bir embedding alanında işleniyor
- Yapay zekanın fiziksel olana ihtiyaç duyduğu görüşü açısından, Carmack'ın geçmişte simülasyon ortamlarının yapay zeka geliştirmek için daha uygun olduğunu ve fiziksel ortamların pratikte verimsiz kaldığını özellikle vurgulamış olması ilginç
- Nvidia da benzer görüşte. Jim Fan, “fiziksel Turing testi” ve embodied AI'nin geleceği hakkında konuşuyor. Jim Fan konuşma videosu. Orada da sağlam simülasyon ortamları çalıştırmak için muazzam hesaplama kaynakları gerektiğini vurguluyor
“Araştırma topluluğuna yeni katıldığım için buna dikkat ettim” ifadesi, makale gönderme olasılığına işaret ediyor gibi
- Bu projenin bir ürün şirketi değil, araştırma amaçlı bir girişim olduğunu açıkça belirtiyor

Oyunun ötesinde gerçeğe kadar öğrenen yapay zeka: John Carmack’ın gerçeklik temelli pekiştirmeli öğrenme meydan okuması

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

Fonksiyon yaklaşımı merkezli öğrenme

Value representation

Conv Nets

İlgili okumalar

1 yorum

Hacker News yorumu