CSAT Korece LLM benchmark liderlik tablosu açıldı

ironman0722 · 2024-10-18T02:43:19+09:00

2024 CSAT Korece'de o1-preview 1. dereceye ulaştı (88 puan, 1. derece, ilk %4) Şu anda gpt-4o birinci sırada; llama-3.1-405B-instruct ikinci, Qwen-2.5-72B ise üçüncü sırada Henüz gpt o1-preview dışında modeller çoğunlukla 3~4. derece bandında dolaşıyor Birçok modelin Korece dil alanında insan performansına yetişmekte zorlandığı görülüyor LLM performansı, her yıl yenilenen yüksek kaliteli bir veri kümesi olan CSAT Korece üzerinden değerlendiriliyor Farklı alanlardan metinler (beşeri bilimler, toplum, bilim, teknoloji, sanat), edebiyat, konuşma ve yazma Gerçek CSAT ile aynı şekilde standart puan ve derece sistemi kullanılarak insan performansı ile LLM performansı karşılaştırılıyor Kendi Hugging Face fine-tuning modeliniz veya merak ettiğiniz bir model için benchmark başvurusu yapabilirsiniz CSAT Korece LLM benchmark liderlik tablosunu açtım! Bu liderlik tablosu, yüksek kaliteli CSAT Korece sorularını temel alarak LLM'lerin Korece dil yeteneğini ölçüyor. CSAT'nin standart puan ve derece hesaplama yöntemi uygulanarak modellerin performansını insan performansıyla karşılaştırabileceğiniz bir liderlik tablosu sunuluyor; bu da insanlarla bilgi paylaşmak için açıldı. Geri bildirimlere her zaman açığım! Örneğin) Model değerlendirmesi için GPU kaynağı şu anda yetersiz durumda. GPU bağışı yapabilecek biri varsa gerçekten çok memnun olurum! API maliyeti nedeniyle o1-preview ile henüz test yapılamadı; o1 resmi sürümü çıkar çıkmaz test edilmesi planlanıyor.

(github.com/minsing-jin)

25 puan yazan ironman0722 2024-10-18 | 10 yorum | WhatsApp'ta paylaş

2024 CSAT Korece'de o1-preview 1. dereceye ulaştı (88 puan, 1. derece, ilk %4)
Şu anda gpt-4o birinci sırada; llama-3.1-405B-instruct ikinci, Qwen-2.5-72B ise üçüncü sırada
- Henüz gpt o1-preview dışında modeller çoğunlukla 3~4. derece bandında dolaşıyor
- Birçok modelin Korece dil alanında insan performansına yetişmekte zorlandığı görülüyor
LLM performansı, her yıl yenilenen yüksek kaliteli bir veri kümesi olan CSAT Korece üzerinden değerlendiriliyor
- Farklı alanlardan metinler (beşeri bilimler, toplum, bilim, teknoloji, sanat), edebiyat, konuşma ve yazma
Gerçek CSAT ile aynı şekilde standart puan ve derece sistemi kullanılarak insan performansı ile LLM performansı karşılaştırılıyor
Kendi Hugging Face fine-tuning modeliniz veya merak ettiğiniz bir model için benchmark başvurusu yapabilirsiniz

CSAT Korece LLM benchmark liderlik tablosunu açtım!

Bu liderlik tablosu, yüksek kaliteli CSAT Korece sorularını temel alarak LLM'lerin Korece dil yeteneğini ölçüyor. CSAT'nin standart puan ve derece hesaplama yöntemi uygulanarak modellerin performansını insan performansıyla karşılaştırabileceğiniz bir liderlik tablosu sunuluyor; bu da insanlarla bilgi paylaşmak için açıldı.

Geri bildirimlere her zaman açığım!

Örneğin)

Model değerlendirmesi için GPU kaynağı şu anda yetersiz durumda. GPU bağışı yapabilecek biri varsa gerçekten çok memnun olurum!
API maliyeti nedeniyle o1-preview ile henüz test yapılamadı; o1 resmi sürümü çıkar çıkmaz test edilmesi planlanıyor.

10 yorum

roxie 2024-10-24

Demek ki üniversiteye giriş sınavına CSAT diyorlarmış.

doolayer 2024-10-21

Korece metinlerde görseller de var; neden bunu multimodal yapmadığınızı merak ediyorum?

ironman0722 2024-10-21

Lider tablosuna ilgi gösterdiğiniz için teşekkürler!

İlk neden maliyet sorunuydu. Üniversiteye giriş sınavı verilerini hazırladığımız sırada, geçen yıl GPT-4 Turbo yeni çıkmıştı; bu yüzden 10 yıllık üniversiteye giriş sınavı verisini oluşturmanın maliyeti yüksekti.

İkinci neden ise, üniversiteye giriş sınavı sorularını çözmek için görsel bilgileri içeren tüm ipuçlarını açıklamalara eklemek zorunda olmamızdı. Ancak multimodal kullanımında bazı sınırlamalar vardı, bu yüzden görsellere ilişkin açıklamaları doğrudan biz yazdık.

ilotoki0804 2024-10-18

İlginç görünüyor! Liderlik tablosuna bakarken aklıma birkaç soru takıldı; yanıtlayabilirseniz sevinirim.

LLM kullanıldığında tüm soruları çözmek ne kadar sürüyor? Üniversiteye giriş sınavının Korece bölümü için 80 dakikalık bir süre sınırı var (OMR işaretleme süresi dahil); LLM’in tüm soruları çözmesinin yaklaşık ne kadar sürdüğünü merak ediyorum.
Sınav kolay olsa bile yine aynı not dilimi çıkar mı? Uç bir örnek olarak, bu yıl eylül ayı deneme sınavında 1. seviye barajı 100 puandı ve sınav o kadar kolaydı; bu deneme sınavına girildiğinde de diğer denemeleri çözerken alınana benzer bir seviye elde edilip edilemeyeceğini merak ediyorum.

Benim tahminim, sürenin 80 dakikadan çok daha kısa olacağı ve kolay sınavlarda da mutlak puanın benzer çıkacağı yönünde; ama gerçekte nasıl olduğunu merak ediyorum.

ironman0722 2024-10-21

Sınavdaki Korece LLM benchmark lider tablosuna gösterdiğiniz büyük ilgi için teşekkür ederiz! Sorularınıza yanıt vermek gerekirse

Kısa sürdüğünde 10 dakika, uzun sürdüğünde ise yaklaşık 25 dakika aldı.
Yalnızca sonuçlara bakıldığında, sınav zorluğunun LLM'nin soruları çözmesi üzerinde etkili olduğu modeller de var, olmadığı modeller de var; bu yüzden bunu genellemek zor görünüyor.

Örneğin gpt-4o için, standart puanın en yüksek değerinin 130'larda olduğu 2015–2018 arasındaki daha kolay sınavlarda daha iyi puan aldığını ve notunun da diğer yıllardaki daha zor sınavlara kıyasla daha iyi çıktığını doğrulayabildik.
Buna karşılık Meta Llama 3.1 70B modelinde, 2015–2018 arasındaki sınavlarda düşük not aralıkları ve standart puanlar almasına rağmen, standart puan tavanının 149 puan bandına ulaştığı 2022 sınavında 3. seviye aldığı durumlar da oldu.

Merak ettiğiniz başka bir nokta ya da eklememiz gereken bir açıklama varsa lütfen her zaman paylaşın!

ilotoki0804 2024-10-21

Oo... modeller arasında eğilimlerde ufak farklılıklar var galiba? Gerçekten insan gibiymiş. Ayrıntılı açıklama için teşekkürler!

doolayer 2024-10-21

madde için,
Sonuçta 5 seçenekli 45 çoktan seçmeli soru olduğundan, 45 örnek (girdi) için 1 tokenı (1,2,3,4,5) muhtemelen birkaç yüz saniye içinde çözecektir.

savvykang 2024-10-18

Yapay zekaya üniversiteye giriş sınavı Türkçe puanı verilince hem tuhaf hem de eğlenceli geliyor.

mammal 2024-10-18

Bu, üniversiteye giriş sınavının Korece bölümü için bir benchmark ama README'nin İngilizce olması ironik.

ng0301 2024-10-18

Korece açısından bakınca bundan daha kaliteli açık kaynak bir benchmark verisi herhalde yoktur haha

CSAT Korece LLM benchmark liderlik tablosu açıldı

İlgili okumalar

10 yorum