LLM tarafından öldürülen
(r0bk.github.io)- Yapay zekâdaki ilerlemeler nedeniyle işlevini yitiren benchmarkları derledik (en yeni modelleri ölçmek mümkün değil)
- Benchmark olarak hâlâ faydalı olsa bile, "Yapay zekânın X’i yapıp yapamayacağı" sorusuna anlamlı bir katkı sağlamaz
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3 yorum
SQuAD da kayboluyor mu?
Bu,
Killed by Googleı hatırlatıyor.Bazı benchmarklar konusunda hâlâ tartışmalar var ama yine de ilginç görünüyor.
https://news.ycombinator.com/item?id=42606231