- Dünyanın dört bir yanından 42 araştırmacının katıldığı, Oxford Internet Institute (OII) liderliğindeki geniş çaplı bir araştırma, büyük dil modeli (LLM) değerlendirmelerinde kullanılan benchmark'ların bilimsel titizlikten yoksun olduğunu ortaya koydu
- 445 AI benchmark'ı incelendiğinde, yarısından fazlasının kavram tanımlarının belirsiz olduğu veya analiz yöntemlerinin zayıf kaldığı, bu nedenle güvenilir sonuçlara ulaşmayı zorlaştıran bir yapıya sahip olduğu görüldü
- İncelenen çalışmaların yalnızca %16'sı istatistiksel yöntemler kullanırken, “muhakeme” ya da “zararsızlık” gibi soyut kavramların çoğu zaman açık biçimde tanımlanmadığı belirlendi
- Araştırma ekibi; tanımların netleştirilmesi, temsili değerlendirme, istatistiksel analizin güçlendirilmesi gibi başlıkları içeren 8 iyileştirme önerisi sundu ve bunun için Construct Validity Checklist aracını yayımladı
- AI benchmark'larının bilimsel geçerliliğinin sağlanması, AI teknolojisinin gelişimi ve düzenlemelere duyulan güven açısından temel bir mesele olarak öne çıkıyor
Araştırmaya genel bakış
- Araştırma, Oxford Internet Institute (OII) liderliğinde yürütüldü; EPFL, Stanford, TUM, UC Berkeley, Yale gibi önde gelen kurumlar da katıldı
- Makalenin başlığı Measuring What Matters: Construct Validity in Large Language Model Benchmarks ve NeurIPS 2025'te sunulması planlanıyor
- Çalışma, 445 AI benchmark'ını sistematik biçimde inceleyerek değerlendirme ölçütlerinin bilimsel geçerliliğini analiz etti
Temel bulgular
- İstatistiksel titizlik eksikliği: İncelenen çalışmaların yalnızca %16'sı istatistiksel karşılaştırma yöntemleri kullandı
- Modeller arasındaki performans farkları veya üstünlük iddiaları, tesadüfen ortaya çıkmış sonuçlar olabilir
- Muğlak veya tartışmalı tanımlar: Benchmark'ların yaklaşık yarısı “muhakeme”, “zararsızlık” gibi soyut kavramları açık biçimde tanımlamıyor
- Açık kavram tanımlarının olmaması, değerlendirmenin amacı ile gerçekten ölçülen şey arasında uyumsuzluk yaratıyor
Sorun örnekleri
- Biçim kurallarıyla karışıklık: Basit bir mantık bulmacasını çözerken cevabın karmaşık bir formatta verilmesinin istenmesi durumunda, doğru cevap verilse bile biçim hatası nedeniyle başarısız sayılabiliyor
- Kırılgan performans: Basit matematik sorularında güçlü görünse de sayıların veya cümle yapısının çok az değişmesiyle başarısız olan örnekler bulunuyor
- Temelsiz iddialar: Tıp sınavı sorularında yüksek puan almak, modelin doktor seviyesinde uzmanlığa sahip olduğu yönünde yanlış bir izlenim yaratabiliyor
İyileştirme önerileri
- Araştırma ekibi, sorunun çözülebileceğini belirterek psikometri ve tıp alanlarındaki doğrulama metodolojilerinden yararlanan 8 öneri sundu
- Tanımla ve izole et (Define and isolate): Ölçülen kavramı açıkça tanımlayın ve ilgisiz etkenleri kontrol edin
- Temsili değerlendirmeler oluştur (Build representative evaluations): Gerçek ortamları yansıtın ve hedeflenen yeteneğin tüm kapsamını içerdiğinden emin olun
- Analizi ve gerekçelendirmeyi güçlendir (Strengthen analysis and justification): İstatistiksel belirsizliği raporlayın, hata analizi yapın ve benchmark'ın geçerliliğine dair kanıt sunun
- Construct Validity Checklist sayesinde araştırmacılar, geliştiriciler ve düzenleyici kurumlar benchmark tasarımının geçerliliğini önceden kontrol edebiliyor
Araştırmanın önemi
- Benchmark'lar, AI araştırmalarının yönünü, model rekabetini, politika ve düzenleme ölçütlerini belirleyen temel araçlar olarak işlev görüyor
- Bilimsel dayanağı zayıf benchmark'lar, AI performansı ve güvenliği konusunda yanlış anlamalara yol açma riski taşıyor
- Bu çalışma, AI değerlendirmelerinde güvenilirliğin sağlanması için uluslararası bir iş birliği modeli olarak sunuluyor
Diğer bilgiler
- Makale, 2-7 Aralık 2025 tarihlerinde düzenlenecek NeurIPS 2025'te sunulacak
- Araştırma; Clarendon bursu, ESRC, EPSRC, Meta LLM Evaluation Research Grant gibi çeşitli kurumlar tarafından desteklendi
- OII, son 25 yıldır yapay zeka, dijital platformlar, otonom sistemler gibi yeni teknolojilerin toplumsal etkilerini araştıran bir kurum
1 yorum
Hacker News görüşleri
Bir araştırma laboratuvarında LLM benchmarkları ve insan değerlendirmesi üzerinde çalışıyorum
Açık konuşmak gerekirse şu anda bu alan tam bir kanunsuz bölge seviyesinde. Doğru düzgün bir çözüm yok ve araştırmacılar da sadece benchmark yapmaya saplanıp kalmak istemiyor
Sonuçta ürün seviyesinde en gerçekçi yöntem hâlâ geleneksel A/B testi. Çünkü doğrudan metrikleri büyük ölçekte ölçebiliyorsunuz
Elbette ‘benchmarketing’ gibi şeyler de var, ama çoğu kişi gerçekten iyi benchmarklar yapmak istiyor. Sadece bunun çok zor ya da imkânsız olması sorun
Ölçülebilir metrikler net olmasına rağmen istatistiksel işlem çok kötü. Çoğu yerde sadece ortalama farkı karşılaştırılıyor ve p-value hesaplarına da güven olmuyor
Üstelik gerçek iş yükü performansıyla korelasyon da neredeyse yok. Prodüksiyon deneyleri çok gürültülü olduğu için kayıpları kaçırmak kolay
Yapay zeka tarafı daha da kötü. Neyin ölçüldüğü belirsiz ve hisse fiyatına yönelik gürültü ölçümü yapma teşviki var. Böyle bir durumda LLM benchmarklarının berbat olması şaşırtıcı değil
B, sadece ‘insanları kandıran’ bir yöntemle daha yüksek puan alabilir. OpenAI’nin 4o örneği bunun tipik bir vakası
Daha cömert bir bakışla söylersek mesele, zekânın kendisini benchmarklamanın zor olması. İnsanların bir işe uygunluğunu bile standart sorularla değerlendirmek zorken, yapay zekada bunun daha zor olması şaşırtıcı değil
Ben TTS(Text-to-Speech) alanında çalışıyorum; burada durum LLM’lerden bile daha kaotik
Demolar kusursuz görünüyor ama yüzlerce dakikalık üretimde ses seviyesi kayması, hız değişimi ve telaffuz hataları sürekli ortaya çıkıyor
En büyük sorun, uzun süreli konuşma sentezi için standart bir benchmarkın olmaması.
Bu tür ölçüt önerilerini Death of Demo yazısında derledim
Humanity’s Last Exam projesi hakkında bir yazı yazdım
Dünyanın dört bir yanından uzmanlar, yapay zeka modellerini sınamak için zor soruları crowdsourcing yoluyla topluyor
İnsanlar için kolay olan bazı soruların yapay zeka için hâlâ zor olması ilginçti
Sonuçta yapay zeka eğitiminin geleceğinin gerçek dünya(meatspace) deneyimlerine ve akıl yürütme anotasyonlarına bağlı olduğunu düşünüyorum
Benchmarkların SAT puanlarına benzediğini düşünüyorum. Kusursuz tahmin araçları değiller ama kabaca bir sinyal olarak işe yarıyorlar
LLM’ler anlamlı bir yönde gelişiyor ve benchmarklar da bunu bir ölçüde yansıtıyor
Şu anki LLM patlamasında en zayıf halka benchmarklar
Modeller arası karşılaştırmalar neredeyse sözde bilim düzeyinde bir karmaşa.
Ben LMArena leaderboard kullanıyorum ama modeller arasındaki sonuçlar açıklanamayacak kadar farklı
Prompt’lar model sürümlerine çok sıkı bağlı; GPT-4’te iyi çalışan şey GPT-5’te bozulabiliyor
Bu yüzden son zamanlarda Gemini kullanmaya daha çok meylediyorum
Geri bildirime dayalı bu tür ince ayarlar, LLM’lerin aşırı özgüven sorununu daha da kötüleştiriyor
Ama kullanıcılar kendileri değerlendirme yapmak istemiyor, leaderboard tarzı sıralamalar istiyor
LLM’yi hakem olarak kullanma yöntemi de var ama bu bana yanlış bir şeymiş gibi geliyor.
Sonuçta uzman değerlendiricilere dayalı bir değerlendirme gerekiyor, ama bu da pahalı
Bireysel geliştirici düzeyinde çözüm, kendi benchmarkını doğrudan oluşturmak
Çözdüğünüz kod problemlerini temel alarak test hazırlayabilir, tok/s veya TTFT gibi metriklere bakabilirsiniz
Sonuçta en gerçekçi değerlendirme, kullanıcının modeli bizzat denemesi
Bazıları hesap makinesiz sınav(AIME) sorularını örnek gösterip, yalnızca küçük sayılarla çalışan benchmarkların gerçek yeteneği yansıtmadığını söylüyor
Ama ben modelin insanlar gibi sınav tekniği öğrenmesini de bir tür ilerleme olarak görüyorum. Bu, insansı akıl yürütmeye daha yakın
Ben oyunlaştırılmamış bir değerlendirme istiyorum. Şu an olan şey sadece akıllı bir otomatik tamamlama düzeyi
Kendi aramızda sinir bozucu bug’lardan oluşan bir Git repo oluşturup LLM’leri bununla test etme önerisi vardı
Örneğin Yjs/CRDT bug’larını Claude Code, GPT5-codex ve GLM-4.6 ile denedik ama sonunda ancak dolaylı geçici çözümler üretebildiler
Frontend loglarını backend’e gönderip yapay zekanın bunları gerçek zamanlı görmesini sağlayınca ancak ilerleme oldu
Çünkü bunlar açıklandığında eğitim verisine emilip etkisizleşiyor.
Böyle kişisel benchmarklar tutmak, modelin gerçek ilerleme hızını çok daha soğukkanlı görmeyi sağlıyor
Sonuçta benchmarklar sadece belirli bir bağlamın spesifikasyonu
Yalnızca belirli koşullarda kodun iyi çalıştığını gösterir; her durumu garanti etmez
Bunu LLM’lere uygularsak şu olur: “benchmarklar yalnızca yapılabilen işleri gösterir, yapılamayan işleri kanıtlamaz”
Bu araştırmada 445 benchmark incelenmiş ve çoğunun yapı geçerliliğinin zayıf olduğu söyleniyor
Gerçek zekâyı ölçmek için yeniliği(novelty) değerlendirmek gerekir.
Daha önce görülmüş problemlere benzeyen örüntüleri çözmek sadece ezberdir
Ama yüzlerce petabaytlık eğitim verisinden kaçınarak tamamen yeni problemler üretmek neredeyse imkânsız
Bu yüzden zeka yanılsaması ortaya çıkıyor
Gerçekte bu iki kavram arasında sayısız gri alan bulunuyor.
Tamamen yeni bir problem bile çözülebilmek için belli bir benzerlik düzeyi taşımak zorunda