- Pekiştirmeli Öğrenme (Reinforcement Learning) kavramının temel ilkelerini ve uygulamalarını ele alan, Stanford Üniversitesi'nin lisansüstü düzeyde bir dersi olup; otonom sistemlerin kendi başlarına karar vermeyi nasıl öğrendiği ilkesine odaklanır
- Robotik, oyunlar, tüketici modelleme, sağlık hizmetleri gibi çeşitli alanlardaki problemleri RL ile tanımlama ve çözme yöntemleri öğretilir
- Dersler, yazılı ödevler ve kodlama ödevleri aracılığıyla temel RL algoritmalarından derin pekiştirmeli öğrenmeye (Deep RL) kadar uygulama odaklı öğrenim sunulur
- Katılımcıların önceden Python, lineer cebir, olasılık-istatistik ve makine öğrenmesi temelleri konusunda bilgi sahibi olması gerekir; ödevler Gradescope üzerinden teslim edilir
- RL'deki keşif ve kullanım dengesi problemi, politika arama, offline RL, AlphaGo örneği gibi konuları içeren sistematik bir müfredatla, yapay zeka araştırması ve uygulama geliştirme için kritik yetkinliklerin güçlendirilmesi hedeflenir
Ders özeti ve işleyiş
- Yapay zekanın hedeflerine ulaşabilmesi için otonom olarak karar vermeyi öğrenen sistemlere duyulan ihtiyaç vurgulanır
- Pekiştirmeli öğrenme, bu tür sistemleri hayata geçirmek için güçlü bir paradigma olup çeşitli gerçek dünya uygulamalarında kullanılabilir
- Dersler Salı ve Perşembe günleri canlı olarak yapılır; kayıt videoları Canvas üzerinden sağlanır
- Soru-cevap için Ed Forum, ödev ve quiz yönetimi için Gradescope kullanılır
- Dersi Emma Brunskill verir ve çeşitli asistanlar destek olur
Önkoşullar
- Python programlama becerisi zorunludur; tüm ödevler Python ile yazılır
- Üniversite düzeyinde kalkülüs, lineer cebir ve olasılık-istatistik bilgisi gerekir
- Makine öğrenmesi temellerinin (ör. CS221, CS229) anlaşılmış olması beklenir
- Buna maliyet fonksiyonu tanımı, gradient descent optimizasyonu ve konveks optimizasyon kavramları dahildir
Öğrenme hedefleri
- Pekiştirmeli öğrenmeyi etkileşimsiz makine öğrenmesinden ayıran temel özellikleri tanımlamak
- Verilen bir uygulama problemini RL olarak formüle edip durum uzayı, eylem uzayı ve ödül modeli tasarlamak
- Politika arama, Q-learning, MDP planlama gibi temel algoritmaları uygulamak
- Pişmanlık (regret), örnek karmaşıklığı, hesaplama karmaşıklığı ve yakınsama gibi değerlendirme ölçütlerini anlamak
- Keşif ve kullanım (exploration vs exploitation) problemine yönelik farklı yaklaşımları karşılaştırmak
Ders takvimi özeti
- 1. hafta: Pekiştirmeli öğrenmeye giriş, Tabular MDP planlama
- 2. hafta: Politika değerlendirmesi, Q-learning ve fonksiyon yaklaşımı
- 3~4. hafta: Politika arama (1~3), offline RL ve taklit öğrenmesi
- 5. hafta: Ara sınav, DPO konusu
- 6~7. hafta: Offline RL derinleşme, keşif (1~3)
- 8. hafta: Keşif (4), konuk dersi, proje kilometre taşı teslimi
- 9. hafta: Monte Carlo Tree Search / AlphaGo, quiz
- 10~11. hafta: Konuk dersi, final proje poster oturumu ve rapor teslimi
Ders materyalleri ve referanslar
- Resmi bir ders kitabı yoktur; temel başvuru kaynağı Sutton & Barto'nun “Reinforcement Learning: An Introduction (2nd Ed.)” kitabıdır
- Ek kaynaklar olarak Wiering & van Otterlo'nun Reinforcement Learning: State-of-the-Art, Russell & Norvig'in Artificial Intelligence: A Modern Approach, Goodfellow'un Deep Learning kitabı ve David Silver'ın RL dersleri önerilir
Değerlendirme oranları
- Ödev 1: %10, Ödev 2: %18, Ödev 3: %18
- Ara sınav: %25, Quiz: %5, Proje: %24
- Öneri %1, kilometre taşı %2, poster %5, makale %16
- Ders katılım bonusu: en fazla %0,5
Geç teslim ve teslim politikası
- Toplam 5 günlük geç teslim hakkı (late days) verilir
- Her ödev için en fazla 2 gün kullanılabilir; aşılırsa puan kesintisi uygulanır
- Son teslimden sonraki 24 saat içinde teslim edilirse en fazla %50 puan alınabilir, daha sonra teslim edilirse 0 puan verilir
- Poster sunumu ve final makalesinde geç teslim hakkı yoktur
Sınavlar
- 1 ara sınav ve 1 quiz yapılır; ikisi de kampüste yüz yüze gerçekleştirilir
- Resmi mazeret durumunda uzaktan veya alternatif sınav mümkün olabilir
- İzin verilen materyaller: 1 sayfa el yazısı not (ara sınav), çift taraflı 1 sayfa (quiz)
- Yasak: hesap makinesi, dizüstü bilgisayar, cep telefonu, tablet vb.
Ödevler ve teslim
- Tüm ödevler Assignments sayfasında yayımlanır
- Bazı ödevlerde bulut bilişim kaynakları kullanılabilir
- Teslim yönergeleri özel sayfada kontrol edilebilir
Akademik etik ve AI araçlarının kullanımı
- Yazılı ödevlerde fikir tartışması yapılabilir; ancak çözümler bağımsız olarak yazılmalıdır
- Kodlama ödevlerinde yalnızca giriş/çıkış sonuçları paylaşılabilir, kod paylaşımı yasaktır
- Benzerlik kontrol yazılımı ile intihal denetimi yapılır
- Üretken yapay zeka (GPT-4, Gemini, Copilot vb.) kullanımı, insanla iş birliği düzeyinde olmak kaydıyla kabul edilir
- Doğrudan kod üretimi veya çözüm kopyalama yasaktır
- Kullanım durumunda bunun belirtilmesi gerekir ve nihai sorumluluk öğrenciye aittir
- LLM'ler proje ortak yazarı olarak gösterilemez
Akademik destek ve not itirazı
- Engellilikle ilgili akademik destek, Office of Accessible Education (OAE) üzerinden talep edilebilir
- Yeniden notlandırma talebi, notlar açıklandıktan sonraki 3 gün içinde Gradescope üzerinden gönderilebilir
- Yeniden inceleme sırasında tüm ödev baştan değerlendirilebilir
Notlandırma ve ders alma biçimi
- Credit/No Credit olarak alınsa bile aynı değerlendirme ölçütleri uygulanır
- C- veya üzeri (yaklaşık %70) başarı durumunda CR verilir
Diğer
- SCPD öğrencileri idari sorular için özel e-posta üzerinden iletişime geçebilir
- Web sitesi tasarımı Andrej Karpathy tarafından yapılmıştır
1 yorum
Hacker News görüşleri
Ders videolarının yayınlandığını sanıp heyecanlandım, ama bakınca gizli olduğunu gördüm
Pandemi döneminde birçok kurum materyallerini tüm dünyaya açmıştı, ama bugünlerde yalnızca yeni dersler değil eski videolar bile kapanma eğiliminde
MIT OCW'de de ileri seviye lisansüstü derslere gidince materyaller ortadan kayboluyor
Elbette üniversitenin mezunlarını öncelemesi gerektiğini anlıyorum, ama ders videoları gibi temel materyalleri açık tutmanın fiilen neredeyse hiç maliyeti yok
Bu tür materyallerin dünyaya büyük değer kattığını düşünüyorum
Bazı profesörler telif nedeniyle ders slaytlarını ya da kayıtlarını paylaşmak istemiyor
Ama bu tavır, gerçek itibardan çok hukuki engellerle ayrıcalık yaratmak gibi görünüyor
Sonuçta bundan pahalı harç ödeyen öğrenciler, değişmek istemeyen eğitmenler ve üniversite yöneticileri fayda sağlıyor
“RL en kötü öğrenme yöntemidir, ama diğer tüm yöntemlerden daha iyidir” diye bir söz var
Pek çok bilim insanı 10 yıl sonra RL'in en ileri model eğitiminin ana akımı olmayacağını düşünüyor
Ben de katılıyorum ve bu dersi dinlerken başka paradigmaları da düşünmeyi öneriyorum
Görüntü üretimi diffusion model ile, GPT ise RLHF ile sıçrama yaptıysa, RL de son durak olmayacaktır
Bizim görevimiz ondan daha iyi bir yöntem bulmak
Yeterli yürütme süresi verilirse matematiksel olarak en iyi çözümü garanti eder
Bu yüzden otonom araçlar GPT değil RL kullanır
Yüz milyonlarca hatta milyarlarca ziyareti optimize ederken contextual multi-armed bandit eklemek satın alma dönüşümünü artırmada çok etkili oluyor
Ama gerçek işlerde out-of-distribution genellemenin basit ödül tabanlı öğrenmeyle mümkün olmadığını fark ettim
Videoların açık olup olmadığını merak etmiştim; bahar dönemi dersleri YouTube oynatma listesinde var
Yalnızca geleneksel ML öğrenmiş biri olarak RL'i genel problemlere nasıl uygulamak gerektiği kafamı karıştırıyor
Örneğin BCE loss kullanan ikili sınıflandırmaya ya da konut fiyatı tahminine RL'i zorla uygulamak istesem bunu nasıl yapacağımı bilmiyorum
Kayıp fonksiyonunu nasıl bağlayacağımı kestiremiyorum
Konut fiyatı tahmini gibi net regresyon problemlerinde klasik yöntemler zaten yeterince etkilidir ve RL gereksizdir
Buna karşılık Go gibi sıralı karar verme problemlerinde ödül sinyali seyrektir ve stratejinin nasıl iyileştirileceği belirsizdir; bu yüzden RL uygundur
RL, etiketsiz karmaşık durumlarda yararlıdır, ama satranç gibi problemler bile eninde sonunda denetimli öğrenme problemine dönüştürülebiliyorsa asıl mesele budur
Durum ve eylem uzayının tanımlandığı sıralı karar verme problemleri için uygundur, ama ikili sınıflandırma ya da regresyon için uygun değildir
RL, gelecekteki sonuçları bilmeden bugünden karar vermek gereken problemlerde güçlüdür
RL hakkında sıkça istikrarsız ve yakınsaması zor deniyor
Stanford araştırmacıları da bunu kabul ediyor
Bir çözüm olup olmadığını merak ediyorum
Tek bir maksimum yerine ödül dağılımının tamamını öğrenerek kararlılığı artırır
Ilya'nın podcast'ini dinledikten sonra bu dersin başlığı daha da ilginç geliyor
RL ile ilgili kitap önerileri arıyorum
Derin öğrenmeyi zaten yeterince çalıştım
Sutton'ın Reinforcement Learning kitabını, Kevin Patrick Murphy'nin Reinforcement Learning, an overview yazısını ve Sebastian Raschka'nın yeni kitabını inceliyorum
Ücretsiz PDF'yi algorithmsbook.com üzerinden indirebilirsiniz