- LLaMA modeli temel alınarak
- Supervised veri toplama
- Supervised fine-tuning
- Reward modeli eğitimi
- Reinforcement Learning fine-tuning
- İçerdiği bileşenler
- Çevrim içi çalışan interaktif demo
- 7B/13B modellerini içeren tam RLHF eğitim kodunun açık kaynak sürümü
- Çince/İngilizce’den oluşan 104k iki dilli veri seti
- 7B modelin 4-bit quantization'ı. Yalnızca 4GB GPU belleği gerekiyor
- Model ağırlıkları dahil. Tek sunucuda kolayca yeniden üretilebilir
- Büyük modeller/veri setleri/optimizasyonlar vb. de eklenmeye devam edecek
Henüz yorum yok.