LogicKor: Korece dil modelleri için çok alanlı muhakeme yeteneği kıyaslaması
(github.com/StableFluffy)İngilizce kıyaslamalar arasında 8 kategori için her birinde 10 sorudan oluşan MT-Bench’ten ilham alınarak hazırlanmış bir Korece dil modeli kıyaslaması olduğu belirtiliyor.
Geliştiricisi, şu anda kullanılan Korece dil modeli kıyaslamalarında gördüğü sınırlamalar nedeniyle bunu hazırladığını söylüyor.
Aşağıda, geliştiricinin LogicKor kıyaslaması hakkında yazısından alıntılanan bölüm yer alıyor.
Korece modellerin muhakeme yeteneğini değerlendirebilecek 6 konuyu aşağıdaki gibi ayırdık.
Muhakeme (Reasoning) - mantıksal düşünme, problem çözme
Matematik (Math) - matematiksel kavramlar, hesaplama
Yazma (Writing) - cümleler arası uyum, yaratıcılık
Kodlama (Coding) - kodlama bilgisi, işlev gerçekleştirme
Anlama (Understanding) - metni anlama, bilgi çıkarımı, yönerge takibi
Dil bilgisi (Grammar) - Korece yazım kuralları, standart telaffuz kuralları
Ayrıca, her konu için 7 adet çok turlu soru hazırladık.
3 yorum
Depoda kayda değer bir açıklama yok; alıntıladığınız yazının bağlantısını da ekleyebilir misiniz?
Topluluk sitesinde paylaşılan bir yazı olduğu için kelime seçimi biraz sert olabilir... Bu yüzden yorumlar bölümünün istemeden kontrolden çıkmasından endişe ederek yazı bağlantısını eklememiştim.
İlgili yazının adresi: https://arca.live/b/alpaca/102052014
Teşekkürler! Upstage'in oldukça şüpheli görünen benchmark sonuçları yaydığını düşünmüştüm; demek ki böyle düşünen sadece ben değilmişim.. ClovaX'in hissedilen performansı o kadar iyi değildi ama Korece modeller arasında birinciymiş.