ko-arena-hard-auto: LLM'lerin Korece performansını ölçmek için bir benchmark

(github.com/qwopqwop200)

7 puan yazan qwopqwop200 2025-04-06 | Henüz yorum yok. | WhatsApp'ta paylaş

İnsan tercihi, llm performansını değerlendirmede önemli göstergelerden biridir.
Ancak insan tercihlerini ölçmek oldukça zor ve maliyetlidir.
Bu sorunu çözmek için LLM-as-a-Judge kullanan MT-Bench, Arena-Hard-Auto gibi çalışmalar vardır.
Ancak önceki benchmark'lar İngilizce içindir.

Elbette Korece için de KoMT-Bench, LogicKor, Horangi gibi iyi benchmark'lar bulunmaktadır.

Ancak mevcut benchmark'lar MT-Bench tabanlıdır ve MT-Bench'in, Arena-Hard-Auto'ya kıyasla insan tercihleriyle daha düşük korelasyona ve ayırt ediciliğe sahip olduğu bilinmektedir.

Bu sorunu çözmek için ko-arena-hard-auto, Arena-Hard-Auto temel alınarak oluşturulmuştur
ve Arena-Hard-Auto'daki zor ve karmaşık 500 soru Koreceye çevrilerek kullanılmıştır.
Çeviri için GPT-4o ve o1 kullanıldı ve ardından elle gözden geçirildi.

Ayrıca mevcut Arena-Hard-Auto'dan üç önemli farkı vardır.

Code-mixing ve code-switching'i dikkate alan bir judge sistem prompt'u kullanır.
Judge modeli olarak gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 kullanılır ve bunlar ensemble edilir. Bu, self-preference bias'ı azaltır ve mevcut Arena-Hard-Auto'ya kıyasla daha düşük maliyetle performans ölçümü yapmayı sağlar.
Baseline model olarak claude-3.7-sonnet kullanılır. Bu, giderek yukarı doğru standartlaşan LLM performansı dikkate alınarak güçlü bir LLM olan claude-3.7-sonnet'in baseline olarak seçilmesi anlamına gelir.

Benchmark sonuçlarına şuradan göz atabilirsiniz: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Kod: https://github.com/qwopqwop200/ko-arena-hard-auto
Veri kümesi: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

ko-arena-hard-auto: LLM'lerin Korece performansını ölçmek için bir benchmark

İlgili okumalar

Henüz yorum yok.