4 puan yazan GN⁺ 2025-02-03 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Dil modellerinde RLHF ve post-training konularını tek yerde öğrenmek için hazırlanmış ücretsiz bir çevrimiçi kitap ve ders olarak sunuluyor; nicel altyapıya sahip okurların tüm eğitim sürecini baştan sona takip edebilmesine göre yapılandırılmış
  • Merkez akış RLHF reçetesi etrafında kuruluyor ve instruction tuning, reward model eğitimi, rejection sampling, reinforcement learning, on-policy distillation, direct alignment algoritmalarını birbirine bağlayarak açıklıyor
  • Yalnızca teknik dönüm noktalarını değil, ekonomi, felsefe ve optimal kontrol gibi alanlara uzanan RLHF'nin kökenlerini de ele alarak kavramların ortaya çıktığı arka planı geniş bir çerçevede gösteriyor
  • Eşlik eden kaynaklar olarak algoritma codebase'i, post-training aşamaları arasında model tamamlama karşılaştırması için bir kütüphane ve eğitim amaçlı ders sayfası sunuluyor
  • 2026 Nisan'ındaki son düzenleme ve Manning sürümündeki iyileştirmelerin yansıtılmasının ardından basılı sürüme geçilecek; bundan sonra içerik değişikliklerinin azalması bekleniyor

RLHF ve post-training öğrenmek için bir kitap

  • RLHF, modern büyük ölçekli makine öğrenimi sistemleri kurmada önemli bir araç haline geldi ve tartışma alanı da çekirdek RLHF yöntemlerinden daha geniş post-training teknikleri kümesine doğru genişledi
  • Dil modellerine odaklanan kısa bir girişle başlayıp, nicel altyapıya sahip okurların model post-training sürecindeki temel yöntemleri adım adım anlamasına yardımcı olacak şekilde düzenlenmiş
  • Standart RLHF sürecini izleyerek şu konuları sırayla ele alıyor
    • RLHF'nin ne yaptığı ve neden geliştirildiği
    • Kısa tarihçedeki başlıca teknik dönüm noktaları
    • Kitabı anlamak için gerekli reinforcement learning arka planı
    • instruction tuning'den reward model eğitimine uzanan optimizasyon aşamaları
    • rejection sampling, reinforcement learning, on-policy distillation, direct alignment algoritmaları
  • Son bölümler sentetik veri, araç kullanımı, karakter eğitimi ve değerlendirme gibi daha az araştırılmış ya da yeni öne çıkan sorular ile alanlardaki açık problemleri ele alıyor

Sunulan ek kaynaklar ve değişiklik geçmişi

  • Post-training dil modellerinin temel kavramlarını öğrenmek için eşlik eden kaynaklar da sunuluyor
    • codebase: kitapta yer alan algoritmaların uygulamaları
    • library: post-training aşamaları içinde model tamamlama çıktılarının karşılaştırılması için kütüphane
    • course: eğitim amaçlı ders sayfası
  • 2026 değişiklikleri

    • Nisan 2026: basılı sürüm için son düzenleme, Manning sürümündeki iyileştirmelerin yansıtılması, formül ve terimlerin netleştirilmesi, tüm bölümlerde yazım ve dilbilgisi düzeltmeleri, ürün bölümünün genişletilmesi
    • Mart 2026: ders videolarını içeren course page yayımlandı, PDF sözdizimi vurgulaması, ürün bölümünün genişletilmesi
    • Şubat 2026: v2 içeriğiyle direct alignment bölümü, yeni diyagramlar, RL kopya kağıdı, ekler, arama kutusu, Kindle desteği ve editoryal düzeltmeler eklendi
    • Ocak 2026: Manning kitap yapısına uygun büyük bölüm yeniden düzenlemesi, kod örneği kütüphanesi, mevcut URL'lerin yeni konumlarına yönlendirilmesi
    • 2025 ve 2024 boyunca DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography gibi konular aşamalı olarak eklendi
    • 2026 sürümünün atıf biçimi @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}} olarak veriliyor

Henüz yorum yok.

Henüz yorum yok.