CSAT Korece LLM benchmark liderlik tablosu açıldı
(github.com/minsing-jin)- 2024 CSAT Korece'de
o1-preview1. dereceye ulaştı (88 puan, 1. derece, ilk %4) - Şu anda
gpt-4obirinci sırada;llama-3.1-405B-instructikinci,Qwen-2.5-72Bise üçüncü sırada- Henüz
gpt o1-previewdışında modeller çoğunlukla 3~4. derece bandında dolaşıyor - Birçok modelin Korece dil alanında insan performansına yetişmekte zorlandığı görülüyor
- Henüz
- LLM performansı, her yıl yenilenen yüksek kaliteli bir veri kümesi olan CSAT Korece üzerinden değerlendiriliyor
- Farklı alanlardan metinler (beşeri bilimler, toplum, bilim, teknoloji, sanat), edebiyat, konuşma ve yazma
- Gerçek CSAT ile aynı şekilde standart puan ve derece sistemi kullanılarak insan performansı ile LLM performansı karşılaştırılıyor
- Kendi Hugging Face fine-tuning modeliniz veya merak ettiğiniz bir model için benchmark başvurusu yapabilirsiniz
CSAT Korece LLM benchmark liderlik tablosunu açtım!
Bu liderlik tablosu, yüksek kaliteli CSAT Korece sorularını temel alarak LLM'lerin Korece dil yeteneğini ölçüyor. CSAT'nin standart puan ve derece hesaplama yöntemi uygulanarak modellerin performansını insan performansıyla karşılaştırabileceğiniz bir liderlik tablosu sunuluyor; bu da insanlarla bilgi paylaşmak için açıldı.
Geri bildirimlere her zaman açığım!
Örneğin)
-
Model değerlendirmesi için GPU kaynağı şu anda yetersiz durumda. GPU bağışı yapabilecek biri varsa gerçekten çok memnun olurum!
-
API maliyeti nedeniyle
o1-previewile henüz test yapılamadı;o1resmi sürümü çıkar çıkmaz test edilmesi planlanıyor.
10 yorum
Demek ki üniversiteye giriş sınavına CSAT diyorlarmış.
Korece metinlerde görseller de var; neden bunu multimodal yapmadığınızı merak ediyorum?
Lider tablosuna ilgi gösterdiğiniz için teşekkürler!
İlk neden maliyet sorunuydu. Üniversiteye giriş sınavı verilerini hazırladığımız sırada, geçen yıl GPT-4 Turbo yeni çıkmıştı; bu yüzden 10 yıllık üniversiteye giriş sınavı verisini oluşturmanın maliyeti yüksekti.
İkinci neden ise, üniversiteye giriş sınavı sorularını çözmek için görsel bilgileri içeren tüm ipuçlarını açıklamalara eklemek zorunda olmamızdı. Ancak multimodal kullanımında bazı sınırlamalar vardı, bu yüzden görsellere ilişkin açıklamaları doğrudan biz yazdık.
İlginç görünüyor! Liderlik tablosuna bakarken aklıma birkaç soru takıldı; yanıtlayabilirseniz sevinirim.
Benim tahminim, sürenin 80 dakikadan çok daha kısa olacağı ve kolay sınavlarda da mutlak puanın benzer çıkacağı yönünde; ama gerçekte nasıl olduğunu merak ediyorum.
Sınavdaki Korece LLM benchmark lider tablosuna gösterdiğiniz büyük ilgi için teşekkür ederiz! Sorularınıza yanıt vermek gerekirse
Örneğin
gpt-4oiçin, standart puanın en yüksek değerinin 130'larda olduğu 2015–2018 arasındaki daha kolay sınavlarda daha iyi puan aldığını ve notunun da diğer yıllardaki daha zor sınavlara kıyasla daha iyi çıktığını doğrulayabildik.Buna karşılık
Meta Llama 3.1 70Bmodelinde, 2015–2018 arasındaki sınavlarda düşük not aralıkları ve standart puanlar almasına rağmen, standart puan tavanının 149 puan bandına ulaştığı 2022 sınavında 3. seviye aldığı durumlar da oldu.Merak ettiğiniz başka bir nokta ya da eklememiz gereken bir açıklama varsa lütfen her zaman paylaşın!
Oo... modeller arasında eğilimlerde ufak farklılıklar var galiba? Gerçekten insan gibiymiş. Ayrıntılı açıklama için teşekkürler!
Sonuçta 5 seçenekli 45 çoktan seçmeli soru olduğundan, 45 örnek (girdi) için 1 tokenı (1,2,3,4,5) muhtemelen birkaç yüz saniye içinde çözecektir.
Yapay zekaya üniversiteye giriş sınavı Türkçe puanı verilince hem tuhaf hem de eğlenceli geliyor.
Bu, üniversiteye giriş sınavının Korece bölümü için bir benchmark ama README'nin İngilizce olması ironik.
Korece açısından bakınca bundan daha kaliteli açık kaynak bir benchmark verisi herhalde yoktur haha