- Modelin ürettiği sonucun ne kadar <iyi> olduğunu değerlendirmek için en uygun ölçüt insan tercih puanıdır
- İnsanların model çıktıları hakkında verdiği değerlendirme geri bildirimini, üretilen metnin kalitesinin bir göstergesi olarak kullanmak ve daha da ileri giderek bu geri bildirimi yansıtan bir
loss tasarlayıp modeli optimize etmek RLHF'dir (Reinforcement Learning from Human Feedback)
- RLHF: Adım Adım
- #1 Language Model eğitimi (pre-training)
- #2 Reward Model eğitimi için veri toplama ve model eğitimi
- #3 Reinforcement Learning ile Language Model üzerinde fine-tuning yapmak
- RLHF: Düşünülmesi gerekenler
- Mevcut durumda sınırlamalar
Henüz yorum yok.