ChatGPT Nasıl Eğitildi - RLHF

xguru · 2023-02-08T10:42:16+09:00

Modelin ürettiği sonucun ne kadar olduğunu değerlendirmek için en uygun ölçüt insan tercih puanıdır İnsanların model çıktıları hakkında verdiği değerlendirme geri bildirimini, üretilen metnin kalitesinin bir göstergesi olarak kullanmak ve daha da ileri giderek bu geri bildirimi yansıtan bir loss tasarlayıp modeli optimize etmek RLHF'dir (Reinforcement Learning from Human Feedback) RLHF: Adım Adım #1 Language Model eğitimi (pre-training) #2 Reward Model eğitimi için veri toplama ve model eğitimi #3 Reinforcement Learning ile Language Model üzerinde fine-tuning yapmak RLHF: Düşünülmesi gerekenler Mevcut durumda sınırlamalar

(littlefoxdiary.tistory.com)

15 puan yazan xguru 2023-02-08 | Henüz yorum yok. | WhatsApp'ta paylaş

Modelin ürettiği sonucun ne kadar <iyi> olduğunu değerlendirmek için en uygun ölçüt insan tercih puanıdır
İnsanların model çıktıları hakkında verdiği değerlendirme geri bildirimini, üretilen metnin kalitesinin bir göstergesi olarak kullanmak ve daha da ileri giderek bu geri bildirimi yansıtan bir loss tasarlayıp modeli optimize etmek RLHF'dir (Reinforcement Learning from Human Feedback)
RLHF: Adım Adım
- #1 Language Model eğitimi (pre-training)
- #2 Reward Model eğitimi için veri toplama ve model eğitimi
- #3 Reinforcement Learning ile Language Model üzerinde fine-tuning yapmak
RLHF: Düşünülmesi gerekenler
- Mevcut durumda sınırlamalar

ChatGPT Nasıl Eğitildi - RLHF

İlgili okumalar

Henüz yorum yok.