RLHF kitabı yayımlandı

(rlhfbook.com)

4 puan yazan GN⁺ 2025-02-03 | 1 yorum | WhatsApp'ta paylaş

Dil modellerinde RLHF ve post-training konularını tek yerde öğrenmek için hazırlanmış ücretsiz bir çevrimiçi kitap ve ders olarak sunuluyor; nicel altyapıya sahip okurların tüm eğitim sürecini baştan sona takip edebilmesine göre yapılandırılmış
Merkez akış RLHF reçetesi etrafında kuruluyor ve instruction tuning, reward model eğitimi, rejection sampling, reinforcement learning, on-policy distillation, direct alignment algoritmalarını birbirine bağlayarak açıklıyor
Yalnızca teknik dönüm noktalarını değil, ekonomi, felsefe ve optimal kontrol gibi alanlara uzanan RLHF'nin kökenlerini de ele alarak kavramların ortaya çıktığı arka planı geniş bir çerçevede gösteriyor
Eşlik eden kaynaklar olarak algoritma codebase'i, post-training aşamaları arasında model tamamlama karşılaştırması için bir kütüphane ve eğitim amaçlı ders sayfası sunuluyor
2026 Nisan'ındaki son düzenleme ve Manning sürümündeki iyileştirmelerin yansıtılmasının ardından basılı sürüme geçilecek; bundan sonra içerik değişikliklerinin azalması bekleniyor

RLHF ve post-training öğrenmek için bir kitap

RLHF, modern büyük ölçekli makine öğrenimi sistemleri kurmada önemli bir araç haline geldi ve tartışma alanı da çekirdek RLHF yöntemlerinden daha geniş post-training teknikleri kümesine doğru genişledi
Dil modellerine odaklanan kısa bir girişle başlayıp, nicel altyapıya sahip okurların model post-training sürecindeki temel yöntemleri adım adım anlamasına yardımcı olacak şekilde düzenlenmiş
Standart RLHF sürecini izleyerek şu konuları sırayla ele alıyor
- RLHF'nin ne yaptığı ve neden geliştirildiği
- Kısa tarihçedeki başlıca teknik dönüm noktaları
- Kitabı anlamak için gerekli reinforcement learning arka planı
- instruction tuning'den reward model eğitimine uzanan optimizasyon aşamaları
- rejection sampling, reinforcement learning, on-policy distillation, direct alignment algoritmaları
Son bölümler sentetik veri, araç kullanımı, karakter eğitimi ve değerlendirme gibi daha az araştırılmış ya da yeni öne çıkan sorular ile alanlardaki açık problemleri ele alıyor

Sunulan ek kaynaklar ve değişiklik geçmişi

Post-training dil modellerinin temel kavramlarını öğrenmek için eşlik eden kaynaklar da sunuluyor
- codebase: kitapta yer alan algoritmaların uygulamaları
- library: post-training aşamaları içinde model tamamlama çıktılarının karşılaştırılması için kütüphane
- course: eğitim amaçlı ders sayfası
2026 değişiklikleri
- Nisan 2026: basılı sürüm için son düzenleme, Manning sürümündeki iyileştirmelerin yansıtılması, formül ve terimlerin netleştirilmesi, tüm bölümlerde yazım ve dilbilgisi düzeltmeleri, ürün bölümünün genişletilmesi
- Mart 2026: ders videolarını içeren course page yayımlandı, PDF sözdizimi vurgulaması, ürün bölümünün genişletilmesi
- Şubat 2026: v2 içeriğiyle direct alignment bölümü, yeni diyagramlar, RL kopya kağıdı, ekler, arama kutusu, Kindle desteği ve editoryal düzeltmeler eklendi
- Ocak 2026: Manning kitap yapısına uygun büyük bölüm yeniden düzenlemesi, kod örneği kütüphanesi, mevcut URL'lerin yeni konumlarına yönlendirilmesi
- 2025 ve 2024 boyunca DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography gibi konular aşamalı olarak eklendi
- 2026 sürümünün atıf biçimi @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}} olarak veriliyor

1 yorum

GN⁺ 2025-02-03

Hacker News yorumları

Yazarın RLHF teorisi ve pratiğine ilişkin açık dokümantasyon boşluğunu doldurmak için ciddi çaba göstermesi sevindirici.
Güncel en yeni teknikler şu anda çoğunlukla arXiv makalelerine dağılmış durumda; her makale bütün bir anlık görüntüden çok önceki makalelere göre bir “fark (diff)” niteliğinde olduğundan, en güncel durumu anlamak için birden fazla makaleyi birleştirerek okumak gerekiyor.
Bu çalışma, mevcut teknik seviyeyi kolay başvurulabilir bir biçimde anlık görüntü olarak sunduğu için çok değerli.
Devam eden taslak için bir öneri olarak, RLHF’nin motivasyonunu ve gerçekçi beklentileri belirleyen daha fazla giriş materyali olsa iyi olur. Özellikle RLHF’yi, okurların aşina olacağı gözetimli ince ayar (SFT) ile karşılaştırarak konumlandırmak faydalı olabilir.
RLHF, üretimin tamamı üzerinde ayar yapar; yanıt birden fazla şekilde mümkün olduğunda modeli tek bir belirli token dizisine zorlamaz ve “böyle üretme” gibi olumsuz geri bildirimleri de yansıtabilir.
Buna karşılık KL gibi düzenlileştirmeler nedeniyle model üzerinde yaratılabilecek etkinin bir üst sınırı vardır; ödül modelinin kalitesine çok duyarlıdır ve çok daha fazla kaynak ile zaman gerektirir.
Pratikte kalite değerlendirmesi önemlidir. İyi bir kalite metriğiniz varsa bunu ödül modeline koymak cazip gelir; ancak son kullanım yeri için gerçekten iyi olan şey ile ödül modeli puanı yüksek olan şeyi ayırt etmek gerekir.
Ayrıca prompt mühendisliği ile ince ayarın etkileşimi de önemlidir. Sistem prompt’unu biraz yinelemeli olarak iyileştirmek, çoğu zaman SFT ve RLHF’nin daha hızlı ve daha yüksek kalitede yakınsamasını sağlar; göreve özgü prompt içermeyen örneklerle ayar yapmak ise sonuçları kolayca kötüleştirebilir. Bu tür sıkıcı uygulama ayrıntıları makalelerde pek yer almaz.
- SFT ile de olumsuz geri bildirim veya olumsuz örnekler verilebilir. Bu, sistem mesajlarının daha az bilinen avantajlarından ve püf noktalarından biridir.
  Örneğin System: You are a helpful chatbot. olduğunda User: What is 1+1? için Assistant: 2. öğretilip, System: You are terrible at math. olduğunda aynı soru için Assistant: 0. öğretilmesi gibi.
- RLHF için “A Survey on Large Language Model based Autonomous Agents”a karşılık gelen bir tarama makalesinin hâlâ olup olmadığını merak ediyorum. Birinin derlemesi iyi olurdu.
- r1’in RLHF’yi eski moda hâline getirip getirmediğini merak ediyorum.
Yazarıyım. Paylaşmaya uygun durumda ve epey faydalı içerik de var, ancak hâlâ devam eden bir taslak.
İlk taslak ölçütüne göre kabaca %60 civarına gelmiş gibi hissediyorum ve her gün ilerliyor. GitHub’da düzeltme veya önerileri memnuniyetle karşılarım.
- PDF sürümü var mı merak ediyorum. Bağlantılar arasında gidip gelerek okumak biraz rahatsız edici.
“Reinforcement learning from human feedback (RLHF)” ifadesinin anlamını bilmeyenler için not düşeyim: kabaca bize önemli olduğunu söylediğimiz şeyi öğrenir gibi duyuluyor.
Bugün dünyanın işleyişinden çok da farklı görünmüyor ve geleceğe dair beklentileri artırıyor.
Faydalı bulduğum alıntı: “İnsan geri bildiriminden pekiştirmeli öğrenme, ödül fonksiyonunu doğrudan tasarlamanın zor olduğu alanlarda makine öğrenimi modellerini optimize etmek üzere tasarlanmıştır.”
https://rlhfbook.com/c/05-preferences.html
- Ödül fonksiyonunun zor olduğu durumlarla pek zor olmadığı durumlar arasındaki sınır nasıl çizilmeli, merak ediyorum.
https://arxiv.org/abs/2412.05265
Kevin Murphy’nin “Reinforcement Learning: An Overview” yazısı, derin pekiştirmeli öğrenme ve sıralı karar verme alanının güncel durumunu büyük resim düzeyinde gözden geçiriyor.
Değer tabanlı pekiştirmeli öğrenmeyi, politika gradyanı yöntemlerini, model tabanlı yöntemleri ve RL+LLM hakkında çok kısa bir tartışmayı kapsıyor.
Bu da iyi: https://huyenchip.com/2023/05/02/rlhf.html
RLHF ile bilgi damıtma arasındaki farkın ne olduğunu merak ediyorum.
- Bunlar birbirinden farklı süreçlerdir.
  RLHF, yalnızca metin otomatik tamamlama yapan önceden eğitilmiş bir modeli, kullanıcı sorularını yanıtlayan ve zararlı yanıtları reddeden türde sohbet edebilir bir modele dönüştürür.
  Bilgi damıtma ise bir modelin becerilerini, bilgisini ve davranışını daha küçük bir modele veya farklı mimarideki bir modele aktarma sürecidir; genellikle ilk modelin çıktı log olasılıkları kullanılarak ikinci model eğitilir.
RL kitapları arasında teoriden çok uygulama ve pratik çalışmaya daha fazla yer veren bir kitap var mı merak ediyorum.
- Richard Sutton’ın “Reinforcement Learning: An Introduction” kitabı.
Bu kitabın epub sürümüne ihtiyacım var.
- https://github.com/natolambert/rlhf-book içinde make epub komutuna bakabilirsiniz.

RLHF kitabı yayımlandı

RLHF ve post-training öğrenmek için bir kitap

Sunulan ek kaynaklar ve değişiklik geçmişi

2026 değişiklikleri

İlgili okumalar

1 yorum

Hacker News yorumları