3 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş
  • Pekiştirmeli Öğrenme (Reinforcement Learning) kavramının temel ilkelerini ve uygulamalarını ele alan, Stanford Üniversitesi'nin lisansüstü düzeyde bir dersi olup; otonom sistemlerin kendi başlarına karar vermeyi nasıl öğrendiği ilkesine odaklanır
  • Robotik, oyunlar, tüketici modelleme, sağlık hizmetleri gibi çeşitli alanlardaki problemleri RL ile tanımlama ve çözme yöntemleri öğretilir
  • Dersler, yazılı ödevler ve kodlama ödevleri aracılığıyla temel RL algoritmalarından derin pekiştirmeli öğrenmeye (Deep RL) kadar uygulama odaklı öğrenim sunulur
  • Katılımcıların önceden Python, lineer cebir, olasılık-istatistik ve makine öğrenmesi temelleri konusunda bilgi sahibi olması gerekir; ödevler Gradescope üzerinden teslim edilir
  • RL'deki keşif ve kullanım dengesi problemi, politika arama, offline RL, AlphaGo örneği gibi konuları içeren sistematik bir müfredatla, yapay zeka araştırması ve uygulama geliştirme için kritik yetkinliklerin güçlendirilmesi hedeflenir

Ders özeti ve işleyiş

  • Yapay zekanın hedeflerine ulaşabilmesi için otonom olarak karar vermeyi öğrenen sistemlere duyulan ihtiyaç vurgulanır
    • Pekiştirmeli öğrenme, bu tür sistemleri hayata geçirmek için güçlü bir paradigma olup çeşitli gerçek dünya uygulamalarında kullanılabilir
  • Dersler Salı ve Perşembe günleri canlı olarak yapılır; kayıt videoları Canvas üzerinden sağlanır
  • Soru-cevap için Ed Forum, ödev ve quiz yönetimi için Gradescope kullanılır
  • Dersi Emma Brunskill verir ve çeşitli asistanlar destek olur

Önkoşullar

  • Python programlama becerisi zorunludur; tüm ödevler Python ile yazılır
  • Üniversite düzeyinde kalkülüs, lineer cebir ve olasılık-istatistik bilgisi gerekir
  • Makine öğrenmesi temellerinin (ör. CS221, CS229) anlaşılmış olması beklenir
    • Buna maliyet fonksiyonu tanımı, gradient descent optimizasyonu ve konveks optimizasyon kavramları dahildir

Öğrenme hedefleri

  • Pekiştirmeli öğrenmeyi etkileşimsiz makine öğrenmesinden ayıran temel özellikleri tanımlamak
  • Verilen bir uygulama problemini RL olarak formüle edip durum uzayı, eylem uzayı ve ödül modeli tasarlamak
  • Politika arama, Q-learning, MDP planlama gibi temel algoritmaları uygulamak
  • Pişmanlık (regret), örnek karmaşıklığı, hesaplama karmaşıklığı ve yakınsama gibi değerlendirme ölçütlerini anlamak
  • Keşif ve kullanım (exploration vs exploitation) problemine yönelik farklı yaklaşımları karşılaştırmak

Ders takvimi özeti

  • 1. hafta: Pekiştirmeli öğrenmeye giriş, Tabular MDP planlama
  • 2. hafta: Politika değerlendirmesi, Q-learning ve fonksiyon yaklaşımı
  • 3~4. hafta: Politika arama (1~3), offline RL ve taklit öğrenmesi
  • 5. hafta: Ara sınav, DPO konusu
  • 6~7. hafta: Offline RL derinleşme, keşif (1~3)
  • 8. hafta: Keşif (4), konuk dersi, proje kilometre taşı teslimi
  • 9. hafta: Monte Carlo Tree Search / AlphaGo, quiz
  • 10~11. hafta: Konuk dersi, final proje poster oturumu ve rapor teslimi

Ders materyalleri ve referanslar

  • Resmi bir ders kitabı yoktur; temel başvuru kaynağı Sutton & Barto'nun “Reinforcement Learning: An Introduction (2nd Ed.)” kitabıdır
  • Ek kaynaklar olarak Wiering & van Otterlo'nun Reinforcement Learning: State-of-the-Art, Russell & Norvig'in Artificial Intelligence: A Modern Approach, Goodfellow'un Deep Learning kitabı ve David Silver'ın RL dersleri önerilir

Değerlendirme oranları

  • Ödev 1: %10, Ödev 2: %18, Ödev 3: %18
  • Ara sınav: %25, Quiz: %5, Proje: %24
    • Öneri %1, kilometre taşı %2, poster %5, makale %16
  • Ders katılım bonusu: en fazla %0,5

Geç teslim ve teslim politikası

  • Toplam 5 günlük geç teslim hakkı (late days) verilir
  • Her ödev için en fazla 2 gün kullanılabilir; aşılırsa puan kesintisi uygulanır
    • Son teslimden sonraki 24 saat içinde teslim edilirse en fazla %50 puan alınabilir, daha sonra teslim edilirse 0 puan verilir
  • Poster sunumu ve final makalesinde geç teslim hakkı yoktur

Sınavlar

  • 1 ara sınav ve 1 quiz yapılır; ikisi de kampüste yüz yüze gerçekleştirilir
  • Resmi mazeret durumunda uzaktan veya alternatif sınav mümkün olabilir
  • İzin verilen materyaller: 1 sayfa el yazısı not (ara sınav), çift taraflı 1 sayfa (quiz)
  • Yasak: hesap makinesi, dizüstü bilgisayar, cep telefonu, tablet vb.

Ödevler ve teslim

  • Tüm ödevler Assignments sayfasında yayımlanır
  • Bazı ödevlerde bulut bilişim kaynakları kullanılabilir
  • Teslim yönergeleri özel sayfada kontrol edilebilir

Akademik etik ve AI araçlarının kullanımı

  • Yazılı ödevlerde fikir tartışması yapılabilir; ancak çözümler bağımsız olarak yazılmalıdır
  • Kodlama ödevlerinde yalnızca giriş/çıkış sonuçları paylaşılabilir, kod paylaşımı yasaktır
  • Benzerlik kontrol yazılımı ile intihal denetimi yapılır
  • Üretken yapay zeka (GPT-4, Gemini, Copilot vb.) kullanımı, insanla iş birliği düzeyinde olmak kaydıyla kabul edilir
    • Doğrudan kod üretimi veya çözüm kopyalama yasaktır
    • Kullanım durumunda bunun belirtilmesi gerekir ve nihai sorumluluk öğrenciye aittir
  • LLM'ler proje ortak yazarı olarak gösterilemez

Akademik destek ve not itirazı

  • Engellilikle ilgili akademik destek, Office of Accessible Education (OAE) üzerinden talep edilebilir
  • Yeniden notlandırma talebi, notlar açıklandıktan sonraki 3 gün içinde Gradescope üzerinden gönderilebilir
  • Yeniden inceleme sırasında tüm ödev baştan değerlendirilebilir

Notlandırma ve ders alma biçimi

  • Credit/No Credit olarak alınsa bile aynı değerlendirme ölçütleri uygulanır
  • C- veya üzeri (yaklaşık %70) başarı durumunda CR verilir

Diğer

  • SCPD öğrencileri idari sorular için özel e-posta üzerinden iletişime geçebilir
  • Web sitesi tasarımı Andrej Karpathy tarafından yapılmıştır

1 yorum

 
GN⁺ 2025-11-28
Hacker News görüşleri
  • Ders videolarının yayınlandığını sanıp heyecanlandım, ama bakınca gizli olduğunu gördüm
    Pandemi döneminde birçok kurum materyallerini tüm dünyaya açmıştı, ama bugünlerde yalnızca yeni dersler değil eski videolar bile kapanma eğiliminde
    MIT OCW'de de ileri seviye lisansüstü derslere gidince materyaller ortadan kayboluyor
    Elbette üniversitenin mezunlarını öncelemesi gerektiğini anlıyorum, ama ders videoları gibi temel materyalleri açık tutmanın fiilen neredeyse hiç maliyeti yok
    Bu tür materyallerin dünyaya büyük değer kattığını düşünüyorum

    • 2024 ders videoları YouTube oynatma listesi olarak yüklenmiş
    • Yeni materyaller yayınlanırsa başka kurumların kolayca intihal yapabileceği de söyleniyor
      Bazı profesörler telif nedeniyle ders slaytlarını ya da kayıtlarını paylaşmak istemiyor
      Ama bu tavır, gerçek itibardan çok hukuki engellerle ayrıcalık yaratmak gibi görünüyor
      Sonuçta bundan pahalı harç ödeyen öğrenciler, değişmek istemeyen eğitmenler ve üniversite yöneticileri fayda sağlıyor
  • “RL en kötü öğrenme yöntemidir, ama diğer tüm yöntemlerden daha iyidir” diye bir söz var
    Pek çok bilim insanı 10 yıl sonra RL'in en ileri model eğitiminin ana akımı olmayacağını düşünüyor
    Ben de katılıyorum ve bu dersi dinlerken başka paradigmaları da düşünmeyi öneriyorum
    Görüntü üretimi diffusion model ile, GPT ise RLHF ile sıçrama yaptıysa, RL de son durak olmayacaktır
    Bizim görevimiz ondan daha iyi bir yöntem bulmak

    • İnsanların yalnızca görüntü ya da metin üretimiyle ilgilendiği varsayılıyor, ama RL kontrol problemlerinde çok başarılı
      Yeterli yürütme süresi verilirse matematiksel olarak en iyi çözümü garanti eder
      Bu yüzden otonom araçlar GPT değil RL kullanır
    • RL aslında bir öğrenme yönteminden çok veri kümesi üretim biçimine daha yakın
    • Reklam sektöründe de RL hâlâ yoğun biçimde kullanılıyor
      Yüz milyonlarca hatta milyarlarca ziyareti optimize ederken contextual multi-armed bandit eklemek satın alma dönüşümünü artırmada çok etkili oluyor
    • Birleşimsel optimizasyon (combinatorial optimization) problemlerinde ya da simülasyon tabanlı ortamlarda hangi paradigmanın uygun olacağını merak ediyorum
    • RLHF'yi öğrencilik döneminde sınav notunu yükseltme stratejisi gibi düşünmüştüm
      Ama gerçek işlerde out-of-distribution genellemenin basit ödül tabanlı öğrenmeyle mümkün olmadığını fark ettim
  • Videoların açık olup olmadığını merak etmiştim; bahar dönemi dersleri YouTube oynatma listesinde var

  • Yalnızca geleneksel ML öğrenmiş biri olarak RL'i genel problemlere nasıl uygulamak gerektiği kafamı karıştırıyor
    Örneğin BCE loss kullanan ikili sınıflandırmaya ya da konut fiyatı tahminine RL'i zorla uygulamak istesem bunu nasıl yapacağımı bilmiyorum
    Kayıp fonksiyonunu nasıl bağlayacağımı kestiremiyorum

    • RL kullanıp kullanmayacağına karar verirken bakılacak üç şey var: ① her örnekteki kayıp bilgisinin miktarı, ② modeli kayıp sinyaliyle ayarlayıp ayarlayamayacağın, ③ özellik uzayının karmaşıklığı
      Konut fiyatı tahmini gibi net regresyon problemlerinde klasik yöntemler zaten yeterince etkilidir ve RL gereksizdir
      Buna karşılık Go gibi sıralı karar verme problemlerinde ödül sinyali seyrektir ve stratejinin nasıl iyileştirileceği belirsizdir; bu yüzden RL uygundur
    • Ben olsam RL kullanmazdım
      RL, etiketsiz karmaşık durumlarda yararlıdır, ama satranç gibi problemler bile eninde sonunda denetimli öğrenme problemine dönüştürülebiliyorsa asıl mesele budur
    • RL, Markov karar süreci (MDP) içinde en iyi politikayı bulma tekniğidir
      Durum ve eylem uzayının tanımlandığı sıralı karar verme problemleri için uygundur, ama ikili sınıflandırma ya da regresyon için uygun değildir
      RL, gelecekteki sonuçları bilmeden bugünden karar vermek gereken problemlerde güçlüdür
  • RL hakkında sıkça istikrarsız ve yakınsaması zor deniyor
    Stanford araştırmacıları da bunu kabul ediyor
    Bir çözüm olup olmadığını merak ediyorum

    • FlowRL bir alternatif olabilir
      Tek bir maksimum yerine ödül dağılımının tamamını öğrenerek kararlılığı artırır
  • Ilya'nın podcast'ini dinledikten sonra bu dersin başlığı daha da ilginç geliyor

    • “Yoksa sonunda AI winter mı geliyor?” diye şaka yapanlar olmuş
    • Hangi podcast'ten söz edildiğini soranlar da vardı
  • RL ile ilgili kitap önerileri arıyorum
    Derin öğrenmeyi zaten yeterince çalıştım
    Sutton'ın Reinforcement Learning kitabını, Kevin Patrick Murphy'nin Reinforcement Learning, an overview yazısını ve Sebastian Raschka'nın yeni kitabını inceliyorum

    • Kochenderfer ve diğerlerinin Algorithms for Decision Making kitabı da RL ile ilgili yaklaşımları ele alıyor
      Ücretsiz PDF'yi algorithmsbook.com üzerinden indirebilirsiniz