CS234: Pekiştirmeli Öğrenme Kış Dönemi 2025

(web.stanford.edu)

3 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş

Pekiştirmeli Öğrenme (Reinforcement Learning) kavramının temel ilkelerini ve uygulamalarını ele alan, Stanford Üniversitesi'nin lisansüstü düzeyde bir dersi olup; otonom sistemlerin kendi başlarına karar vermeyi nasıl öğrendiği ilkesine odaklanır
Robotik, oyunlar, tüketici modelleme, sağlık hizmetleri gibi çeşitli alanlardaki problemleri RL ile tanımlama ve çözme yöntemleri öğretilir
Dersler, yazılı ödevler ve kodlama ödevleri aracılığıyla temel RL algoritmalarından derin pekiştirmeli öğrenmeye (Deep RL) kadar uygulama odaklı öğrenim sunulur
Katılımcıların önceden Python, lineer cebir, olasılık-istatistik ve makine öğrenmesi temelleri konusunda bilgi sahibi olması gerekir; ödevler Gradescope üzerinden teslim edilir
RL'deki keşif ve kullanım dengesi problemi, politika arama, offline RL, AlphaGo örneği gibi konuları içeren sistematik bir müfredatla, yapay zeka araştırması ve uygulama geliştirme için kritik yetkinliklerin güçlendirilmesi hedeflenir

Ders özeti ve işleyiş

Yapay zekanın hedeflerine ulaşabilmesi için otonom olarak karar vermeyi öğrenen sistemlere duyulan ihtiyaç vurgulanır
- Pekiştirmeli öğrenme, bu tür sistemleri hayata geçirmek için güçlü bir paradigma olup çeşitli gerçek dünya uygulamalarında kullanılabilir
Dersler Salı ve Perşembe günleri canlı olarak yapılır; kayıt videoları Canvas üzerinden sağlanır
Soru-cevap için Ed Forum, ödev ve quiz yönetimi için Gradescope kullanılır
Dersi Emma Brunskill verir ve çeşitli asistanlar destek olur

Önkoşullar

Python programlama becerisi zorunludur; tüm ödevler Python ile yazılır
Üniversite düzeyinde kalkülüs, lineer cebir ve olasılık-istatistik bilgisi gerekir
Makine öğrenmesi temellerinin (ör. CS221, CS229) anlaşılmış olması beklenir
- Buna maliyet fonksiyonu tanımı, gradient descent optimizasyonu ve konveks optimizasyon kavramları dahildir

Öğrenme hedefleri

Pekiştirmeli öğrenmeyi etkileşimsiz makine öğrenmesinden ayıran temel özellikleri tanımlamak
Verilen bir uygulama problemini RL olarak formüle edip durum uzayı, eylem uzayı ve ödül modeli tasarlamak
Politika arama, Q-learning, MDP planlama gibi temel algoritmaları uygulamak
Pişmanlık (regret), örnek karmaşıklığı, hesaplama karmaşıklığı ve yakınsama gibi değerlendirme ölçütlerini anlamak
Keşif ve kullanım (exploration vs exploitation) problemine yönelik farklı yaklaşımları karşılaştırmak

Ders takvimi özeti

1. hafta: Pekiştirmeli öğrenmeye giriş, Tabular MDP planlama
2. hafta: Politika değerlendirmesi, Q-learning ve fonksiyon yaklaşımı
3~4. hafta: Politika arama (1~3), offline RL ve taklit öğrenmesi
5. hafta: Ara sınav, DPO konusu
6~7. hafta: Offline RL derinleşme, keşif (1~3)
8. hafta: Keşif (4), konuk dersi, proje kilometre taşı teslimi
9. hafta: Monte Carlo Tree Search / AlphaGo, quiz
10~11. hafta: Konuk dersi, final proje poster oturumu ve rapor teslimi

Ders materyalleri ve referanslar

Resmi bir ders kitabı yoktur; temel başvuru kaynağı Sutton & Barto'nun “Reinforcement Learning: An Introduction (2nd Ed.)” kitabıdır
Ek kaynaklar olarak Wiering & van Otterlo'nun Reinforcement Learning: State-of-the-Art, Russell & Norvig'in Artificial Intelligence: A Modern Approach, Goodfellow'un Deep Learning kitabı ve David Silver'ın RL dersleri önerilir

Değerlendirme oranları

Ödev 1: %10, Ödev 2: %18, Ödev 3: %18
Ara sınav: %25, Quiz: %5, Proje: %24
- Öneri %1, kilometre taşı %2, poster %5, makale %16
Ders katılım bonusu: en fazla %0,5

Geç teslim ve teslim politikası

Toplam 5 günlük geç teslim hakkı (late days) verilir
Her ödev için en fazla 2 gün kullanılabilir; aşılırsa puan kesintisi uygulanır
- Son teslimden sonraki 24 saat içinde teslim edilirse en fazla %50 puan alınabilir, daha sonra teslim edilirse 0 puan verilir
Poster sunumu ve final makalesinde geç teslim hakkı yoktur

Sınavlar

1 ara sınav ve 1 quiz yapılır; ikisi de kampüste yüz yüze gerçekleştirilir
Resmi mazeret durumunda uzaktan veya alternatif sınav mümkün olabilir
İzin verilen materyaller: 1 sayfa el yazısı not (ara sınav), çift taraflı 1 sayfa (quiz)
Yasak: hesap makinesi, dizüstü bilgisayar, cep telefonu, tablet vb.

Ödevler ve teslim

Tüm ödevler Assignments sayfasında yayımlanır
Bazı ödevlerde bulut bilişim kaynakları kullanılabilir
Teslim yönergeleri özel sayfada kontrol edilebilir

Akademik etik ve AI araçlarının kullanımı

Yazılı ödevlerde fikir tartışması yapılabilir; ancak çözümler bağımsız olarak yazılmalıdır
Kodlama ödevlerinde yalnızca giriş/çıkış sonuçları paylaşılabilir, kod paylaşımı yasaktır
Benzerlik kontrol yazılımı ile intihal denetimi yapılır
Üretken yapay zeka (GPT-4, Gemini, Copilot vb.) kullanımı, insanla iş birliği düzeyinde olmak kaydıyla kabul edilir
- Doğrudan kod üretimi veya çözüm kopyalama yasaktır
- Kullanım durumunda bunun belirtilmesi gerekir ve nihai sorumluluk öğrenciye aittir
LLM'ler proje ortak yazarı olarak gösterilemez

Akademik destek ve not itirazı

Engellilikle ilgili akademik destek, Office of Accessible Education (OAE) üzerinden talep edilebilir
Yeniden notlandırma talebi, notlar açıklandıktan sonraki 3 gün içinde Gradescope üzerinden gönderilebilir
Yeniden inceleme sırasında tüm ödev baştan değerlendirilebilir

Notlandırma ve ders alma biçimi

Credit/No Credit olarak alınsa bile aynı değerlendirme ölçütleri uygulanır
C- veya üzeri (yaklaşık %70) başarı durumunda CR verilir

Diğer

SCPD öğrencileri idari sorular için özel e-posta üzerinden iletişime geçebilir
Web sitesi tasarımı Andrej Karpathy tarafından yapılmıştır

1 yorum

GN⁺ 2025-11-28

Hacker News görüşleri

Ders videolarının yayınlandığını sanıp heyecanlandım, ama bakınca gizli olduğunu gördüm
Pandemi döneminde birçok kurum materyallerini tüm dünyaya açmıştı, ama bugünlerde yalnızca yeni dersler değil eski videolar bile kapanma eğiliminde
MIT OCW'de de ileri seviye lisansüstü derslere gidince materyaller ortadan kayboluyor
Elbette üniversitenin mezunlarını öncelemesi gerektiğini anlıyorum, ama ders videoları gibi temel materyalleri açık tutmanın fiilen neredeyse hiç maliyeti yok
Bu tür materyallerin dünyaya büyük değer kattığını düşünüyorum
- 2024 ders videoları YouTube oynatma listesi olarak yüklenmiş
- Yeni materyaller yayınlanırsa başka kurumların kolayca intihal yapabileceği de söyleniyor
  Bazı profesörler telif nedeniyle ders slaytlarını ya da kayıtlarını paylaşmak istemiyor
  Ama bu tavır, gerçek itibardan çok hukuki engellerle ayrıcalık yaratmak gibi görünüyor
  Sonuçta bundan pahalı harç ödeyen öğrenciler, değişmek istemeyen eğitmenler ve üniversite yöneticileri fayda sağlıyor
“RL en kötü öğrenme yöntemidir, ama diğer tüm yöntemlerden daha iyidir” diye bir söz var
Pek çok bilim insanı 10 yıl sonra RL'in en ileri model eğitiminin ana akımı olmayacağını düşünüyor
Ben de katılıyorum ve bu dersi dinlerken başka paradigmaları da düşünmeyi öneriyorum
Görüntü üretimi diffusion model ile, GPT ise RLHF ile sıçrama yaptıysa, RL de son durak olmayacaktır
Bizim görevimiz ondan daha iyi bir yöntem bulmak
- İnsanların yalnızca görüntü ya da metin üretimiyle ilgilendiği varsayılıyor, ama RL kontrol problemlerinde çok başarılı
  Yeterli yürütme süresi verilirse matematiksel olarak en iyi çözümü garanti eder
  Bu yüzden otonom araçlar GPT değil RL kullanır
- RL aslında bir öğrenme yönteminden çok veri kümesi üretim biçimine daha yakın
- Reklam sektöründe de RL hâlâ yoğun biçimde kullanılıyor
  Yüz milyonlarca hatta milyarlarca ziyareti optimize ederken contextual multi-armed bandit eklemek satın alma dönüşümünü artırmada çok etkili oluyor
- Birleşimsel optimizasyon (combinatorial optimization) problemlerinde ya da simülasyon tabanlı ortamlarda hangi paradigmanın uygun olacağını merak ediyorum
- RLHF'yi öğrencilik döneminde sınav notunu yükseltme stratejisi gibi düşünmüştüm
  Ama gerçek işlerde out-of-distribution genellemenin basit ödül tabanlı öğrenmeyle mümkün olmadığını fark ettim
Videoların açık olup olmadığını merak etmiştim; bahar dönemi dersleri YouTube oynatma listesinde var
Yalnızca geleneksel ML öğrenmiş biri olarak RL'i genel problemlere nasıl uygulamak gerektiği kafamı karıştırıyor
Örneğin BCE loss kullanan ikili sınıflandırmaya ya da konut fiyatı tahminine RL'i zorla uygulamak istesem bunu nasıl yapacağımı bilmiyorum
Kayıp fonksiyonunu nasıl bağlayacağımı kestiremiyorum
- RL kullanıp kullanmayacağına karar verirken bakılacak üç şey var: ① her örnekteki kayıp bilgisinin miktarı, ② modeli kayıp sinyaliyle ayarlayıp ayarlayamayacağın, ③ özellik uzayının karmaşıklığı
  Konut fiyatı tahmini gibi net regresyon problemlerinde klasik yöntemler zaten yeterince etkilidir ve RL gereksizdir
  Buna karşılık Go gibi sıralı karar verme problemlerinde ödül sinyali seyrektir ve stratejinin nasıl iyileştirileceği belirsizdir; bu yüzden RL uygundur
- Ben olsam RL kullanmazdım
  RL, etiketsiz karmaşık durumlarda yararlıdır, ama satranç gibi problemler bile eninde sonunda denetimli öğrenme problemine dönüştürülebiliyorsa asıl mesele budur
- RL, Markov karar süreci (MDP) içinde en iyi politikayı bulma tekniğidir
  Durum ve eylem uzayının tanımlandığı sıralı karar verme problemleri için uygundur, ama ikili sınıflandırma ya da regresyon için uygun değildir
  RL, gelecekteki sonuçları bilmeden bugünden karar vermek gereken problemlerde güçlüdür
RL hakkında sıkça istikrarsız ve yakınsaması zor deniyor
Stanford araştırmacıları da bunu kabul ediyor
Bir çözüm olup olmadığını merak ediyorum
- FlowRL bir alternatif olabilir
  Tek bir maksimum yerine ödül dağılımının tamamını öğrenerek kararlılığı artırır
Ilya'nın podcast'ini dinledikten sonra bu dersin başlığı daha da ilginç geliyor
- “Yoksa sonunda AI winter mı geliyor?” diye şaka yapanlar olmuş
- Hangi podcast'ten söz edildiğini soranlar da vardı
RL ile ilgili kitap önerileri arıyorum
Derin öğrenmeyi zaten yeterince çalıştım
Sutton'ın Reinforcement Learning kitabını, Kevin Patrick Murphy'nin Reinforcement Learning, an overview yazısını ve Sebastian Raschka'nın yeni kitabını inceliyorum
- Kochenderfer ve diğerlerinin Algorithms for Decision Making kitabı da RL ile ilgili yaklaşımları ele alıyor
  Ücretsiz PDF'yi algorithmsbook.com üzerinden indirebilirsiniz

CS234: Pekiştirmeli Öğrenme Kış Dönemi 2025

Ders özeti ve işleyiş

Önkoşullar

Öğrenme hedefleri

Ders takvimi özeti

Ders materyalleri ve referanslar

Değerlendirme oranları

Geç teslim ve teslim politikası

Sınavlar

Ödevler ve teslim

Akademik etik ve AI araçlarının kullanımı

Akademik destek ve not itirazı

Notlandırma ve ders alma biçimi

Diğer

İlgili okumalar

1 yorum

Hacker News görüşleri