7 puan yazan xguru 2025-01-08 | 3 yorum | WhatsApp'ta paylaş
  • Yapay zekâdaki ilerlemeler nedeniyle işlevini yitiren benchmarkları derledik (en yeni modelleri ölçmek mümkün değil)
    • Benchmark olarak hâlâ faydalı olsa bile, "Yapay zekânın X’i yapıp yapamayacağı" sorusuna anlamlı bir katkı sağlamaz
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3 yorum

 
kandk 2025-01-08

SQuAD da kayboluyor mu?

 
nutella 2025-01-08

Bu, Killed by Googleı hatırlatıyor.

 
xguru 2025-01-08

Bazı benchmarklar konusunda hâlâ tartışmalar var ama yine de ilginç görünüyor.
https://news.ycombinator.com/item?id=42606231