o1-preview, 2025 CSAT Korece sınavında 97 puana ulaştı

ironman0722 · 2024-11-19T18:19:43+09:00

2025 öğretim yılı CSAT Korece sınavında O1-Preview, 97 puan gibi şaşırtıcı bir sonuç elde etti soruda (3 puan) kurgu dışı okuma parçasında yanlış cevap kaydı Mantık hatası nedeniyle yanlış olan 3. seçenek işaretlendi Benchmark süreci hakkında daha fazla bilgi almak isteyenler için, deney süreci ve ek içerikleri derlediğim blog yazısına da göz atabilirsiniz! 2025 CSAT Korece LLM benchmark'ında GPT modellerinin sonuçları 🥇 1. o1-Preview: 97 puan (1. seviye) 🥈 2. o1-mini: 78 puan (4. seviye) 🥉 3. gpt-4o: 75 puan (4. seviye): gpt-4o 4. gpt-4o-mini: 59 puan (5. seviye) 5. gpt-3.5-turbo: 16 puan (8. seviye) CSAT LLM benchmark liderlik tablosu projesinin amacı İnsan performansı ile LLM performansını karşılaştırmaya yönelik benchmark bilgisini paylaşmak Korece dil yeteneğini değerlendiren, Kore'nin en güvenilir kurumu olan KICE tarafından özenle seçilmiş benchmark veri kümesi Her yıl güncellenen yeni CSAT Korece benchmark veri kümesiyle veri sızıntısını önlemek Belirli bir ülkeye ya da şirkete bağlı olmayan açık kaynaklı LLM'leri Kore CSAT'ta 1. seviyeye ulaştırmak Bu proje, Markr.AI tarafından yürütülmüştür. Bu benchmark, AutoRAG açık kaynağı kullanılarak gerçekleştirildi! Liderlik tablosuna, 2023 CSAT Korece'yi benchmark edebileceğiniz eğitici içerik güncellendi! Merak ettiğiniz bir nokta varsa istediğiniz zaman iletişime geçebilirsiniz!

(velog.io)

5 puan yazan ironman0722 2024-11-19 | 1 yorum | WhatsApp'ta paylaş

2025 öğretim yılı CSAT Korece sınavında O1-Preview, 97 puan gibi şaşırtıcı bir sonuç elde etti
- 1. soruda (3 puan) kurgu dışı okuma parçasında yanlış cevap kaydı
  - Mantık hatası nedeniyle yanlış olan 3. seçenek işaretlendi
Benchmark süreci hakkında daha fazla bilgi almak isteyenler için, deney süreci ve ek içerikleri derlediğim blog yazısına da göz atabilirsiniz!
2025 CSAT Korece LLM benchmark'ında GPT modellerinin sonuçları
🥇 1. o1-Preview: 97 puan (1. seviye)
🥈 2. o1-mini: 78 puan (4. seviye)
🥉 3. gpt-4o: 75 puan (4. seviye): gpt-4o
4. gpt-4o-mini: 59 puan (5. seviye)
5. gpt-3.5-turbo: 16 puan (8. seviye)
CSAT LLM benchmark liderlik tablosu projesinin amacı
1. İnsan performansı ile LLM performansını karşılaştırmaya yönelik benchmark bilgisini paylaşmak
2. Korece dil yeteneğini değerlendiren, Kore'nin en güvenilir kurumu olan KICE tarafından özenle seçilmiş benchmark veri kümesi
3. Her yıl güncellenen yeni CSAT Korece benchmark veri kümesiyle veri sızıntısını önlemek
4. Belirli bir ülkeye ya da şirkete bağlı olmayan açık kaynaklı LLM'leri Kore CSAT'ta 1. seviyeye ulaştırmak

Bu proje, Markr.AI tarafından yürütülmüştür.
Bu benchmark, AutoRAG açık kaynağı kullanılarak gerçekleştirildi!
Liderlik tablosuna, 2023 CSAT Korece'yi benchmark edebileceğiniz eğitici içerik güncellendi!
Merak ettiğiniz bir nokta varsa istediğiniz zaman iletişime geçebilirsiniz!

1 yorum

ironman0722 2024-11-22

Blog bağlantısı bozulmuş gibi görünüyor! Yoruma tekrar ekleyeceğim! https://velog.io/@minsing-jin/…

o1-preview, 2025 CSAT Korece sınavında 97 puana ulaştı

İlgili okumalar

1 yorum