Llama 2 Chat 70B, model değerlendirmesinde ChatGPT'yi (3.5) geride bıraktı

xguru · 2023-07-31T10:17:01+09:00

Instruction-Following dil modellerini otomatik olarak değerlendiren AlpacaEval Leaderboard ölçütüne göre GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEval, AlpacaFarm değerlendirme setini kullanarak GPT-4'ün yanıtlarıyla karşılaştırma yapıp otomatik değerlendirme gerçekleştiriyor

(tatsu-lab.github.io)

10 puan yazan xguru 2023-07-31 | Henüz yorum yok. | WhatsApp'ta paylaş

Instruction-Following dil modellerini otomatik olarak değerlendiren AlpacaEval Leaderboard ölçütüne göre
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEval, AlpacaFarm değerlendirme setini kullanarak GPT-4'ün yanıtlarıyla karşılaştırma yapıp otomatik değerlendirme gerçekleştiriyor

Llama 2 Chat 70B, model değerlendirmesinde ChatGPT'yi (3.5) geride bıraktı

İlgili okumalar

Henüz yorum yok.