Llama 2 Chat 70B, model değerlendirmesinde ChatGPT'yi (3.5) geride bıraktı
(tatsu-lab.github.io)- Instruction-Following dil modellerini otomatik olarak değerlendiren AlpacaEval Leaderboard ölçütüne göre
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval, AlpacaFarm değerlendirme setini kullanarak GPT-4'ün yanıtlarıyla karşılaştırma yapıp otomatik değerlendirme gerçekleştiriyor
Henüz yorum yok.