Richard Sutton ve Andrew Barto, 2024 Turing Ödülü’nü kazandı

(awards.acm.org)

1 puan yazan GN⁺ 2025-03-06 | 1 yorum | WhatsApp'ta paylaş

ACM, pekiştirmeli öğrenmenin kavramsal ve algoritmik temellerini atan Andrew G. Barto ve Richard S. Sutton’ı 2024 ACM A.M. Turing Award sahipleri olarak seçti
İkili, 1980’lerden itibaren ödül tabanlı öğrenmeyi genel bir problem çerçevesi olarak biçimselleştirdi ve ortam ile ödüllerin bilinmediği durumlarda da çalışan yaklaşımlar geliştirdi
Başlıca katkıları zamansal fark öğrenmesi, politika gradyanı yöntemleri, sinir ağı tabanlı fonksiyon temsili ve öğrenme ile planlamayı birleştiren ajan tasarımlarına uzandı
1998 tarihli Reinforcement Learning: An Introduction ders kitabı 75.000’den fazla kez atıf aldı; AlphaGo, ChatGPT’deki RLHF, robotik manipülasyon, ağ tıkanıklığı kontrolü ve çip tasarımı gibi alanları etkiledi
Turing Ödülü, Google desteğiyle 1 milyon dolar para ödülü veriyor; ACM, pekiştirmeli öğrenmenin hem yapay zeka gelişimine hem de beynin işleyişini anlamaya katkı sağladığını değerlendiriyor

Ödül sahipleri ve seçilme gerekçesi

ACM, Andrew G. Barto ve Richard S. Sutton’ı 2024 ACM A.M. Turing Award sahipleri olarak seçti
Seçilme gerekçesi, pekiştirmeli öğrenmenin kavramsal ve algoritmik temellerini geliştirmeleri
İkili, 1980’lerden itibaren yayımladıkları makalelerle pekiştirmeli öğrenmenin temel fikirlerini tanıttı; matematiksel temelini ve başlıca algoritmalarını inşa etti
Barto, University of Massachusetts, Amherst’te Information and Computer Sciences emeritus profesörüdür
Sutton, University of Alberta’da bilgisayar bilimi profesörü, Keen Technologies’de araştırmacı bilim insanı ve Amii (Alberta Machine Intelligence Institute) üyesidir
ACM A.M. Turing Award, “bilgisayar biliminin Nobel’i” olarak anılır ve Google, Inc.’in finansal desteğiyle 1 milyon dolar para ödülü verilir

Pekiştirmeli öğrenmenin çözdüğü problem

Yapay zeka genel olarak ortamı algılayan ve eyleme geçen ajanlar oluşturma alanıdır
Daha zeki ajanların daha iyi eylem yolları seçmesi gerekir; hangi eylemin diğerinden daha iyi olduğuna karar verme, yapay zekanın merkezinde yer alır
Ödül (reward), psikoloji ve nörobilimden gelen bir terim olup, ajanın eylemlerinin kalitesiyle ilişkili olarak verilen sinyali ifade eder
Pekiştirmeli öğrenme, bu ödül sinyaline dayanarak daha başarılı davranmayı öğrenme sürecidir
Alan Turing, 1950 tarihli “Computing Machinery and Intelligence” makalesinde “Makineler düşünebilir mi?” sorusunu ele alırken ödül ve cezaya dayalı bir makine öğrenmesi yaklaşımı önerdi
Arthur Samuel, 1950’lerin sonlarında kendi kendine oynayarak öğrenen bir dama programı geliştirdi; ancak sonraki onlarca yıl boyunca yapay zekanın bu kolunda kayda değer ilerleme çok sınırlı kaldı

Barto ve Sutton’ın teknik katkıları

1980’lerin başında Barto ve o dönemde doktora öğrencisi olan Sutton, psikoloji gözlemlerinden ilham alarak pekiştirmeli öğrenmeyi genel bir problem çerçevesi olarak biçimselleştirmeye başladı
İkili, Markov karar sürecinin (MDP) matematiksel temelinden yararlandı
- MDP’de ajan, olasılıksal bir ortamda kararlar alır
- Her geçişten sonra bir ödül sinyali alır ve uzun vadeli kümülatif ödülü en üst düzeye çıkarmayı hedefler
Standart MDP teorisi, tüm bilgilerin ajan tarafından bilindiğini varsayar; ancak pekiştirmeli öğrenme çerçevesi, ortamın ve ödüllerin bilinmediği durumları da ele alır
Bilgi gereksinimi düşük ve MDP çerçevesi genel olduğu için pekiştirmeli öğrenme çok çeşitli problemlere uygulanabilir
Barto ve Sutton, ortak araştırmaları ve sonraki iş birlikleriyle birçok temel pekiştirmeli öğrenme algoritması yaklaşımı geliştirdi
- En önemli katkıları, ödül tahmini probleminin çözümünde büyük ilerleme sağlayan zamansal fark öğrenmesidir (temporal difference learning)
- Politika gradyanı yöntemleri (policy-gradient methods) de başlıca yaklaşımlar arasındadır
- Öğrenilmiş fonksiyonları temsil etmek için sinir ağlarını kullanan yaklaşımı geliştirdiler
- Ortam bilgisini edinip planlamanın temeli olarak kullanan, öğrenme ile planlamayı birleştiren ajan tasarımları da önerdiler

Ders kitabı ve derin pekiştirmeli öğrenmeye uzanan etkisi

1998 tarihli Reinforcement Learning: An Introduction ders kitabı hâlâ alanın standart başvuru kaynağıdır ve 75.000’den fazla kez atıf almıştır
Bu kitap, binlerce araştırmacının o dönem yükselen bir alan olan pekiştirmeli öğrenmeyi anlamasına ve alana katkı vermesine yardımcı oldu; bugün bilgisayar bilimi araştırma faaliyetlerini de etkilemeye devam ediyor
Barto ve Sutton’ın algoritmaları onlarca yıl önce geliştirilmiş olsa da, son 15 yılda pekiştirmeli öğrenme ile derin öğrenme algoritmalarının birleşmesi gerçek uygulamalarda büyük ilerlemeler doğurdu
Bu birleşim derin pekiştirmeli öğrenme (deep reinforcement learning) tekniklerine yol açtı
Derin öğrenme algoritmaları, 2018 Turing Ödülü sahipleri Bengio, Hinton ve LeCun’un öncülük ettiği çalışmalar olarak tanıtılıyor

Uygulama örnekleri ve araştırmanın genişlemesi

Pekiştirmeli öğrenmenin öne çıkan örnekleri arasında, AlphaGo’nun 2016 ve 2017’de dünyanın en iyi insan Go oyuncularını yenmesi sayılır
ChatGPT de önemli başarılar arasındadır
- ChatGPT, iki aşamada eğitilmiş büyük bir dil modelidir
- İkinci aşamada, insan beklentilerini yakalamak için insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) kullanır
Robotik alanında, robot el içi manipülasyon ve fiziksel bir Rubik Küpü çözme örnekleri vardır
- Pekiştirmeli öğrenmenin simülasyonda yürütülse bile, oldukça farklı gerçek dünyada başarılı olabileceğini gösterdiler
Diğer uygulama alanları arasında ağ tıkanıklığı kontrolü, çip tasarımı, internet reklamcılığı, optimizasyon, küresel tedarik zinciri optimizasyonu, chatbot’ların davranış ve akıl yürütme yeteneklerinin iyileştirilmesi ve matris çarpımı algoritmalarının geliştirilmesi yer alır
Nörobilimden ilham alan teknikler yeniden nörobilimi de etkiliyor
- Barto’nun araştırmaları dahil olmak üzere son çalışmalar, yapay zekada geliştirilen belirli pekiştirmeli öğrenme algoritmalarının insan beynindeki dopamin sistemi ile ilgili birçok bulguyu en iyi açıklayan modeller olduğunu değerlendiriyor

ACM ve Google’ın değerlendirmesi

ACM Başkanı Yannis Ioannidis, Barto ve Sutton’ın çalışmalarının, bilgisayar biliminin köklü bir sorununa disiplinler arası yaklaşımlar uygulama potansiyelini gösterdiğini değerlendirdi
Bilişsel bilim, psikoloji ve nörobilim pekiştirmeli öğrenmenin gelişimine ilham verdi; pekiştirmeli öğrenme ise yapay zekadaki önemli ilerlemeler için bir temel ve beynin işleyişine dair daha derin içgörü sağladı
Ioannidis, pekiştirmeli öğrenmenin geride kalmış bir basamak değil, büyümeye devam eden bir alan olduğunu; bilişim ve çeşitli alanlarda ek ilerlemeler için potansiyel sunduğunu belirtti
Google Kıdemli Başkan Yardımcısı Jeff Dean, Alan Turing’in 1947’deki bir konuşmasında “İstediğimiz şey, deneyimden öğrenebilen bir makinedir” dediğini aktardı
Dean, Barto ve Sutton’ın öncülük ettiği pekiştirmeli öğrenmenin Turing’in ortaya koyduğu göreve doğrudan yanıt verdiğini; son onlarca yılda yapay zeka ilerlemesinin ana eksenlerinden biri olduğunu ve yapay zeka patlamasının merkezi sütunlarından biri olmayı sürdürdüğünü değerlendirdi

Ödül sahiplerinin özgeçmişleri

Andrew Barto, University of Massachusetts, Amherst’te Information and Computer Sciences bölümünde emeritus profesördür
- Kariyerine 1977’de UMass Amherst’te doktora sonrası araştırmacı olarak başladı
- Daha sonra Associate Professor, Professor ve Department Chair gibi görevlerde bulundu
- University of Michigan’dan matematik lisansı, Computer and Communication Sciences alanında yüksek lisans ve doktora dereceleri aldı
- UMass Neurosciences Lifetime Achievement Award, IJCAI Award for Research Excellence ve IEEE Neural Network Society Pioneer Award ödüllerini aldı
- IEEE Fellow ve AAAS Fellow’dur
Richard Sutton, University of Alberta’da computing science profesörü, Dallas merkezli yapay genel zeka şirketi Keen Technologies’de araştırmacı bilim insanı ve Amii baş bilim danışmanıdır
- 2017’den 2023’e kadar DeepMind Distinguished Research Scientist olarak görev yaptı
- 1998’den 2002’ye kadar AT&T Shannon Laboratory yapay zeka bölümünde Principal Technical Staff Member olarak çalıştı
- Barto ile iş birliği 1978’de University of Massachusetts at Amherst’te başladı; Barto, Sutton’ın doktora ve doktora sonrası danışmanıydı
- Stanford University’den psikoloji lisansı, University of Massachusetts at Amherst’ten Computer and Information Science alanında yüksek lisans ve doktora dereceleri aldı
- IJCAI Research Excellence Award, Canadian Artificial Intelligence Association Lifetime Achievement Award ve University of Massachusetts at Amherst Outstanding Achievement in Research Award ödüllerini aldı
- Royal Society of London, Association for the Advancement of Artificial Intelligence ve Royal Society of Canada üyesidir

1 yorum

GN⁺ 2025-03-06

Hacker News yorumları

Bunu görmek gerçekten sevindirici. Meğer eşimle ben Andy Barto çiftinin evini satın almışız.
Satın alma sürecinde teklif yarışı vardı ve “en iyi teklifinizi verin” dedikleri için, onun matematikçi olduğunu bilerek asal sayı olan bir tutar teklif ettim. Emeklerinin takdir edildiğini görmek harika.
- “İkimiz için de adil olsun, 2 dolar nasıl?” diye şaka yapsan iyi olurmuş.
- “Asal sayı olan tutar” dediğin $12345678910987654321 miydi?
- Müthiş hikâye. O asal tutarın ne kadar olduğunu merak ettim.
Harika ve fazlasıyla hak edilmiş. Pekiştirmeli öğrenme ders kitabının iki baskısını da ücretsiz PDF olarak yayımladılar.
1982’den beri ücretli bir yapay zeka uygulayıcısı olarak çalışıyorum ama pekiştirmeli öğrenme benim için kişisel olarak öğrenmesi zor bir konuydu; Sutton/Barto kitabı ve White hocaların Coursera pekiştirmeli öğrenme dersleri çok yardımcı oldu. Tavsiye ederim.
Kitabın örnek programları Common Lisp ve Python olarak sunuluyor: http://incompleteideas.net/book/the-book-2nd.html
Şimdi The Bitter Lesson’ı yeniden okumak için iyi bir zaman: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- Resmî URL burada: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- Gerçekten acı bir ders. Eskiden insan bilgisini bilgisayara kodlamak keyifliydi; bu sayede ne olup bittiğini anlayabiliyorduk.
  Artık her şey akıl yürütmesi zor devasa kara kutulara dönüşüyor. Ayrıca Moore Yasası kendi kendini gerçekleştiren bir kehanet hâline geldi. Yapay zeka, hesaplama gücü talebini büyük ölçüde artırdıkça çip üreticileri özel donanımlar yapıyor ve bu da bir volan gibi dönmeye devam ediyor.
- Yapay zeka araştırmasının amacının ne olduğuna göre biraz değişir. Amaç, yalnızca insan zihninin yapabildiği ya da gerekli olduğu düşünülen işleri iyi yapan makineler üretmekse, bu acı ders kesinlikle değerli.
  Ama amaç, makinelere X yapmayı öğretirken insanların X’i nasıl yaptığını da anlamaksa, giderek karmaşıklaşan istatistiksel yapılar sınırlı bilgi sağlar. Bir taraf tutmuyorum; sadece daha nüanslı bir yaklaşım gerekebilir demek istiyorum.
- Bilgisayarlı görüde de benzer bir akış vardı. İlk yöntemler görmeyi kenarlar, genelleştirilmiş silindirler, SIFT öznitelikleri bulma şeklinde ele alıyordu; bugünse bunlar terk edildi ve modern derin öğrenme sinir ağları yalnızca evrişimler ve belirli değişmezliklerle çok daha iyi sonuç veriyor.
  Görüde örüntü eşleştirmenin ölmeye başladığı o dönemde sahadaydım. Tamamen yok olmadı; o zaman öğrenilenler hâlâ başka yerlerde işe yarıyor.
- Klasik doğal dil işleme uygulayıcılarının almış olacağı acı dersi düşününce insanın içi ürperiyor. O yazı bugün hâlâ doğru.
Onların Reinforcement Learning: An Introduction kitabı, yapay zeka/makine öğrenmesi alanındaki en erişilebilir metinlerden biri; kesinlikle tavsiye ederim.
- Pekiştirmeli öğrenmeye girmeye çalıştım ama formüller ve yıldızlı çeşitli bölümler hep seviyemin çok üstünde gibi geldi.
- Arka planının ne olduğunu merak ediyorum. Ne yazık ki ben o kitabı pek erişilebilir bulmadım.
- O kitap okumaktan keyif alınacak türden. Şiddetle tavsiye ederim.
- Bahsettiğin kitap Reinforcement Learning: An Introduction mı? Yoksa başka kitap da mı yazdılar?
Dengeyi sağlamak için ödül fizikçilere verilmeliydi.
Sutton’ın bir insan ardıllığı savunucusu olduğunu ve tüm insanlık ölse de umursamayacak biri olduğunu hatırlamak gerekir. Güvenilecek ya da kutlanacak biri değil: https://www.youtube.com/watch?v=NgHFMolXs3U
- ACM ödülü onların mesleki akademik başarıları için veriliyor. Birinin özel hayatını didikleyip söylediği en tuhaf kısmı bulma ve bununla tüm yaşam boyu başarısını kötülükle kaplama takıntısını bırakmalıyız.
  A’dan hoşlanmıyorsunuz ve o kişi A’yı söyledi ya da yaptı diye, dünyayı değiştirebilecek B konusundaki soylu başarılarını herkesin geçersiz sayabilmesi aptalca ve tehlikeli. İnternet, konuyu iyi bilen insanların yargılarıyla basit antipatiyi aynı ağırlığa koyuyor. Bu yaklaşımın daha büyük ölçekte insanları birbirinden ayırmasına sinir oluyorum.
- Sutton’la hiç yüz yüze tanıştın mı? Tanıdığım en sıcak, düşünceli ve tutkulu hippilerden birine yakın biridir. Tüm insanların ölmesini istemiyor.
  Bağladığın konuşma da bu iddiayı desteklemiyor. Kaçırdıysam zaman damgası bırak lütfen. Konuşmada, insanlığın kendi kaderini tek başına kontrol etmeyecek hâle gelse bile bunun bir refah çağına yol açacağını söylüyor. 12:33’teki sonuç slaytında kelimesi kelimesine “insanlığın uzun vadeli geleceği için en iyi umut” maddesi var. Bu, “tüm insanlık ölse de umursamaz”ın tam tersi.
  Ardıllığa hazırlanıyor olmam, kızımın beni öldürmesini istediğim ya da beklediğim anlamına gelmez. Sağlıklı ve uzun bir emeklilik yaşayıp, evrenle simbiyotik bir ilişki içinde kızıma mümkün olduğunca iyi bir miras bıraktığımı bilerek huzur içinde uykuya dalmayı isterim.
- “Tüm insanlık ölse de umursamaz” ifadesi, onun konumuna dair sert ve yanıltıcı bir anlatım gibi görünüyor.
  Bana kalırsa o daha çok, insanların sonunda transhümanlar tarafından yerinin alınmasının kaçınılmaz olduğuna inanıyor. Kötü niyetten ziyade kaba bir bilimkurgu ütopyacılığı gibi görünüyor ve akademik başarılarını kutlamamak için bir sebep değil gibi.
- Böyle bir bakış açısını duyurmak ilginç, ama katılmadığınız görüşlere sahip diye neden birine güvenilmemesi ya da onun kutlanmaması gerektiğini anlamıyorum.
  Özellikle Sutton’ın herkesin ölmesini aktif olarak istediği iması çok zayıf temellere dayanıyor gibi görünüyor.
- Son slaytında kelimesi kelimesine “insanlığın uzun vadeli geleceği için en iyi umut” yazıyor. İddianın tam tersi.
Verdiğim derste onların pekiştirmeli öğrenme kitabını kullandım. Yazımı güzel ve ücretsiz erişime açık: http://incompleteideas.net/book/the-book-2nd.html
Cümleleri o kadar iyiydi ki okurken bazen asıl içeriği kaçırıyordum.
Andrew Barto ve Richard Sutton’ı Turing Award almalarından dolayı içtenlikle tebrik ederim. Öğrenciyken Reinforcement Learning: An Introduction bu alana giriş kapımdı.
Özellikle 6. bölüm Temporal Difference Learning, sıralı karar vermeye bakış biçimimi kökten değiştirdi. Bugün de okunmasını güçlü şekilde tavsiye ettiğim, zamana meydan okuyan bir klasik.
Uzun süredir beklenen bir ödül. Tek bir fikri baştan sona taşıyıp, onu dinamik programlama kitaplarının bir alt bölümü olmaktan çıkararak başlı başına bir alan hâline getirdiler.
Pekiştirmeli öğrenmenin, tüm bunların başladığı yerlerden biri olan oyunlarda çok daha fazla kullanılmasını isterdim. Gerçekten harika olurdu.
Hak edilmiş bir ödül. Pekiştirmeli öğrenme, sinir ağlarıyla birlikte sahip olduğu esneklik sayesinde zamanla daha da önemli hâle gelecek.
Ölçek büyüdükçe acı ders de o kadar acı gelmeyebilir.

Richard Sutton ve Andrew Barto, 2024 Turing Ödülü’nü kazandı

Ödül sahipleri ve seçilme gerekçesi

Pekiştirmeli öğrenmenin çözdüğü problem

Barto ve Sutton’ın teknik katkıları

Ders kitabı ve derin pekiştirmeli öğrenmeye uzanan etkisi

Uygulama örnekleri ve araştırmanın genişlemesi

ACM ve Google’ın değerlendirmesi

Ödül sahiplerinin özgeçmişleri

İlgili okumalar

1 yorum

Hacker News yorumları