LLM tarafından öldürülen

xguru · 2025-01-08T09:33:01+09:00

Yapay zekâdaki ilerlemeler nedeniyle işlevini yitiren benchmarkları derledik (en yeni modelleri ölçmek mümkün değil) Benchmark olarak hâlâ faydalı olsa bile, "Yapay zekânın X’i yapıp yapamayacağı" sorusuna anlamlı bir katkı sağlamaz 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 puan yazan xguru 2025-01-08 | 3 yorum | WhatsApp'ta paylaş

Yapay zekâdaki ilerlemeler nedeniyle işlevini yitiren benchmarkları derledik (en yeni modelleri ölçmek mümkün değil)
- Benchmark olarak hâlâ faydalı olsa bile, "Yapay zekânın X’i yapıp yapamayacağı" sorusuna anlamlı bir katkı sağlamaz
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 yorum

kandk 2025-01-08

SQuAD da kayboluyor mu?

nutella 2025-01-08

Bu, Killed by Googleı hatırlatıyor.

xguru 2025-01-08

Bazı benchmarklar konusunda hâlâ tartışmalar var ama yine de ilginç görünüyor.
https://news.ycombinator.com/item?id=42606231

LLM tarafından öldürülen

İlgili okumalar

3 yorum