ko-arena-hard-auto: LLM'lerin Korece performansını ölçmek için bir benchmark
(github.com/qwopqwop200)Lider tablosu / Kod / Veri kümesi
İnsan tercihi, llm performansını değerlendirmede önemli göstergelerden biridir.
Ancak insan tercihlerini ölçmek oldukça zor ve maliyetlidir.
Bu sorunu çözmek için LLM-as-a-Judge kullanan MT-Bench, Arena-Hard-Auto gibi çalışmalar vardır.
Ancak önceki benchmark'lar İngilizce içindir.
Elbette Korece için de KoMT-Bench, LogicKor, Horangi gibi iyi benchmark'lar bulunmaktadır.
Ancak mevcut benchmark'lar MT-Bench tabanlıdır ve MT-Bench'in, Arena-Hard-Auto'ya kıyasla insan tercihleriyle daha düşük korelasyona ve ayırt ediciliğe sahip olduğu bilinmektedir.
Bu sorunu çözmek için ko-arena-hard-auto, Arena-Hard-Auto temel alınarak oluşturulmuştur
ve Arena-Hard-Auto'daki zor ve karmaşık 500 soru Koreceye çevrilerek kullanılmıştır.
Çeviri için GPT-4o ve o1 kullanıldı ve ardından elle gözden geçirildi.
Ayrıca mevcut Arena-Hard-Auto'dan üç önemli farkı vardır.
- Code-mixing ve code-switching'i dikkate alan bir judge sistem prompt'u kullanır.
- Judge modeli olarak gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 kullanılır ve bunlar ensemble edilir. Bu, self-preference bias'ı azaltır ve mevcut Arena-Hard-Auto'ya kıyasla daha düşük maliyetle performans ölçümü yapmayı sağlar.
- Baseline model olarak claude-3.7-sonnet kullanılır. Bu, giderek yukarı doğru standartlaşan LLM performansı dikkate alınarak güçlü bir LLM olan claude-3.7-sonnet'in baseline olarak seçilmesi anlamına gelir.
Benchmark sonuçlarına şuradan göz atabilirsiniz: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Kod: https://github.com/qwopqwop200/ko-arena-hard-auto
Veri kümesi: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Henüz yorum yok.