- 2025 öğretim yılı CSAT Korece sınavında O1-Preview, 97 puan gibi şaşırtıcı bir sonuç elde etti
-
- soruda (3 puan) kurgu dışı okuma parçasında yanlış cevap kaydı
- Mantık hatası nedeniyle yanlış olan 3. seçenek işaretlendi
- Benchmark süreci hakkında daha fazla bilgi almak isteyenler için, deney süreci ve ek içerikleri derlediğim blog yazısına da göz atabilirsiniz!
- 2025 CSAT Korece LLM benchmark'ında GPT modellerinin sonuçları
🥇 1. o1-Preview: 97 puan (1. seviye)
🥈 2. o1-mini: 78 puan (4. seviye)
🥉 3. gpt-4o: 75 puan (4. seviye): gpt-4o
4. gpt-4o-mini: 59 puan (5. seviye)
5. gpt-3.5-turbo: 16 puan (8. seviye)
- CSAT LLM benchmark liderlik tablosu projesinin amacı
- İnsan performansı ile LLM performansını karşılaştırmaya yönelik benchmark bilgisini paylaşmak
- Korece dil yeteneğini değerlendiren, Kore'nin en güvenilir kurumu olan KICE tarafından özenle seçilmiş benchmark veri kümesi
- Her yıl güncellenen yeni CSAT Korece benchmark veri kümesiyle veri sızıntısını önlemek
- Belirli bir ülkeye ya da şirkete bağlı olmayan açık kaynaklı LLM'leri Kore CSAT'ta 1. seviyeye ulaştırmak
- Bu proje, Markr.AI tarafından yürütülmüştür.
- Bu benchmark, AutoRAG açık kaynağı kullanılarak gerçekleştirildi!
- Liderlik tablosuna, 2023 CSAT Korece'yi benchmark edebileceğiniz eğitici içerik güncellendi!
- Merak ettiğiniz bir nokta varsa istediğiniz zaman iletişime geçebilirsiniz!
1 yorum
Blog bağlantısı bozulmuş gibi görünüyor! Yoruma tekrar ekleyeceğim! https://velog.io/@minsing-jin/…