LogicKor: Korece dil modelleri için çok alanlı muhakeme yeteneği kıyaslaması

(github.com/StableFluffy)

14 puan yazan libner 2024-03-29 | 3 yorum | WhatsApp'ta paylaş

İngilizce kıyaslamalar arasında 8 kategori için her birinde 10 sorudan oluşan MT-Bench’ten ilham alınarak hazırlanmış bir Korece dil modeli kıyaslaması olduğu belirtiliyor.
Geliştiricisi, şu anda kullanılan Korece dil modeli kıyaslamalarında gördüğü sınırlamalar nedeniyle bunu hazırladığını söylüyor.

Aşağıda, geliştiricinin LogicKor kıyaslaması hakkında yazısından alıntılanan bölüm yer alıyor.

Korece modellerin muhakeme yeteneğini değerlendirebilecek 6 konuyu aşağıdaki gibi ayırdık.  
Muhakeme (Reasoning) - mantıksal düşünme, problem çözme  
Matematik (Math) - matematiksel kavramlar, hesaplama  
Yazma (Writing) - cümleler arası uyum, yaratıcılık  
Kodlama (Coding) - kodlama bilgisi, işlev gerçekleştirme  
Anlama (Understanding) - metni anlama, bilgi çıkarımı, yönerge takibi  
Dil bilgisi (Grammar) - Korece yazım kuralları, standart telaffuz kuralları  
  
Ayrıca, her konu için 7 adet çok turlu soru hazırladık.

3 yorum

skymer 2024-03-29

Depoda kayda değer bir açıklama yok; alıntıladığınız yazının bağlantısını da ekleyebilir misiniz?

libner 2024-03-29

Topluluk sitesinde paylaşılan bir yazı olduğu için kelime seçimi biraz sert olabilir... Bu yüzden yorumlar bölümünün istemeden kontrolden çıkmasından endişe ederek yazı bağlantısını eklememiştim.
İlgili yazının adresi: https://arca.live/b/alpaca/102052014

skymer 2024-03-29

Teşekkürler! Upstage'in oldukça şüpheli görünen benchmark sonuçları yaydığını düşünmüştüm; demek ki böyle düşünen sadece ben değilmişim.. ClovaX'in hissedilen performansı o kadar iyi değildi ama Korece modeller arasında birinciymiş.

LogicKor: Korece dil modelleri için çok alanlı muhakeme yeteneği kıyaslaması

İlgili okumalar

3 yorum