AI sistemlerinin değerlendirilme biçimindeki zayıflıkları ortaya koyan araştırma

(oii.ox.ac.uk)

4 puan yazan GN⁺ 2025-11-09 | 1 yorum | WhatsApp'ta paylaş

Dünyanın dört bir yanından 42 araştırmacının katıldığı, Oxford Internet Institute (OII) liderliğindeki geniş çaplı bir araştırma, büyük dil modeli (LLM) değerlendirmelerinde kullanılan benchmark'ların bilimsel titizlikten yoksun olduğunu ortaya koydu
445 AI benchmark'ı incelendiğinde, yarısından fazlasının kavram tanımlarının belirsiz olduğu veya analiz yöntemlerinin zayıf kaldığı, bu nedenle güvenilir sonuçlara ulaşmayı zorlaştıran bir yapıya sahip olduğu görüldü
İncelenen çalışmaların yalnızca %16'sı istatistiksel yöntemler kullanırken, “muhakeme” ya da “zararsızlık” gibi soyut kavramların çoğu zaman açık biçimde tanımlanmadığı belirlendi
Araştırma ekibi; tanımların netleştirilmesi, temsili değerlendirme, istatistiksel analizin güçlendirilmesi gibi başlıkları içeren 8 iyileştirme önerisi sundu ve bunun için Construct Validity Checklist aracını yayımladı
AI benchmark'larının bilimsel geçerliliğinin sağlanması, AI teknolojisinin gelişimi ve düzenlemelere duyulan güven açısından temel bir mesele olarak öne çıkıyor

Araştırmaya genel bakış

Araştırma, Oxford Internet Institute (OII) liderliğinde yürütüldü; EPFL, Stanford, TUM, UC Berkeley, Yale gibi önde gelen kurumlar da katıldı
Makalenin başlığı Measuring What Matters: Construct Validity in Large Language Model Benchmarks ve NeurIPS 2025'te sunulması planlanıyor
Çalışma, 445 AI benchmark'ını sistematik biçimde inceleyerek değerlendirme ölçütlerinin bilimsel geçerliliğini analiz etti

Temel bulgular

İstatistiksel titizlik eksikliği: İncelenen çalışmaların yalnızca %16'sı istatistiksel karşılaştırma yöntemleri kullandı
- Modeller arasındaki performans farkları veya üstünlük iddiaları, tesadüfen ortaya çıkmış sonuçlar olabilir
Muğlak veya tartışmalı tanımlar: Benchmark'ların yaklaşık yarısı “muhakeme”, “zararsızlık” gibi soyut kavramları açık biçimde tanımlamıyor
- Açık kavram tanımlarının olmaması, değerlendirmenin amacı ile gerçekten ölçülen şey arasında uyumsuzluk yaratıyor

Sorun örnekleri

Biçim kurallarıyla karışıklık: Basit bir mantık bulmacasını çözerken cevabın karmaşık bir formatta verilmesinin istenmesi durumunda, doğru cevap verilse bile biçim hatası nedeniyle başarısız sayılabiliyor
Kırılgan performans: Basit matematik sorularında güçlü görünse de sayıların veya cümle yapısının çok az değişmesiyle başarısız olan örnekler bulunuyor
Temelsiz iddialar: Tıp sınavı sorularında yüksek puan almak, modelin doktor seviyesinde uzmanlığa sahip olduğu yönünde yanlış bir izlenim yaratabiliyor

İyileştirme önerileri

Araştırma ekibi, sorunun çözülebileceğini belirterek psikometri ve tıp alanlarındaki doğrulama metodolojilerinden yararlanan 8 öneri sundu
- Tanımla ve izole et (Define and isolate): Ölçülen kavramı açıkça tanımlayın ve ilgisiz etkenleri kontrol edin
- Temsili değerlendirmeler oluştur (Build representative evaluations): Gerçek ortamları yansıtın ve hedeflenen yeteneğin tüm kapsamını içerdiğinden emin olun
- Analizi ve gerekçelendirmeyi güçlendir (Strengthen analysis and justification): İstatistiksel belirsizliği raporlayın, hata analizi yapın ve benchmark'ın geçerliliğine dair kanıt sunun
Construct Validity Checklist sayesinde araştırmacılar, geliştiriciler ve düzenleyici kurumlar benchmark tasarımının geçerliliğini önceden kontrol edebiliyor

Araştırmanın önemi

Benchmark'lar, AI araştırmalarının yönünü, model rekabetini, politika ve düzenleme ölçütlerini belirleyen temel araçlar olarak işlev görüyor
Bilimsel dayanağı zayıf benchmark'lar, AI performansı ve güvenliği konusunda yanlış anlamalara yol açma riski taşıyor
Bu çalışma, AI değerlendirmelerinde güvenilirliğin sağlanması için uluslararası bir iş birliği modeli olarak sunuluyor

Diğer bilgiler

Makale, 2-7 Aralık 2025 tarihlerinde düzenlenecek NeurIPS 2025'te sunulacak
Araştırma; Clarendon bursu, ESRC, EPSRC, Meta LLM Evaluation Research Grant gibi çeşitli kurumlar tarafından desteklendi
OII, son 25 yıldır yapay zeka, dijital platformlar, otonom sistemler gibi yeni teknolojilerin toplumsal etkilerini araştıran bir kurum

1 yorum

GN⁺ 2025-11-09

Hacker News görüşleri

Bir araştırma laboratuvarında LLM benchmarkları ve insan değerlendirmesi üzerinde çalışıyorum
Açık konuşmak gerekirse şu anda bu alan tam bir kanunsuz bölge seviyesinde. Doğru düzgün bir çözüm yok ve araştırmacılar da sadece benchmark yapmaya saplanıp kalmak istemiyor
Sonuçta ürün seviyesinde en gerçekçi yöntem hâlâ geleneksel A/B testi. Çünkü doğrudan metrikleri büyük ölçekte ölçebiliyorsunuz
Elbette ‘benchmarketing’ gibi şeyler de var, ama çoğu kişi gerçekten iyi benchmarklar yapmak istiyor. Sadece bunun çok zor ya da imkânsız olması sorun
- Ben bir hyperscaler’da platform altyapısıyla ilgileniyorum ve bizim alandaki benchmarklar da berbat
  Ölçülebilir metrikler net olmasına rağmen istatistiksel işlem çok kötü. Çoğu yerde sadece ortalama farkı karşılaştırılıyor ve p-value hesaplarına da güven olmuyor
  Üstelik gerçek iş yükü performansıyla korelasyon da neredeyse yok. Prodüksiyon deneyleri çok gürültülü olduğu için kayıpları kaçırmak kolay
  Yapay zeka tarafı daha da kötü. Neyin ölçüldüğü belirsiz ve hisse fiyatına yönelik gürültü ölçümü yapma teşviki var. Böyle bir durumda LLM benchmarklarının berbat olması şaşırtıcı değil
- A/B testi de riskli. Sonuçta bu da dolaylı olarak kullanıcı geri bildirimi optimizasyonu demek ve insan değerlendiriciler kolayca manipüle edilebilir
  B, sadece ‘insanları kandıran’ bir yöntemle daha yüksek puan alabilir. OpenAI’nin 4o örneği bunun tipik bir vakası
- Modelin ilkokul düzeyindeki matematik problemlerini çözüp sayıları ya da cümleleri biraz değiştirince hata yaptığını görünce şok olmuştum. Sonuçta bu sadece örüntü ezberi
- Bence daha büyük sorun, teknoloji şirketleri ve medyanın bu meseleleri şeffaf biçimde açıklamaması. Benchmark puanlarını nesnel göstergeymiş gibi pazarlıyorlar
- Ben de LLM değerlendirmesi yapıyorum ve alaycı bakarsak benchmarkların çoğu sahte görevler. Çünkü gerçek kullanım senaryoları neredeyse yok
  Daha cömert bir bakışla söylersek mesele, zekânın kendisini benchmarklamanın zor olması. İnsanların bir işe uygunluğunu bile standart sorularla değerlendirmek zorken, yapay zekada bunun daha zor olması şaşırtıcı değil
Ben TTS(Text-to-Speech) alanında çalışıyorum; burada durum LLM’lerden bile daha kaotik
Demolar kusursuz görünüyor ama yüzlerce dakikalık üretimde ses seviyesi kayması, hız değişimi ve telaffuz hataları sürekli ortaya çıkıyor
En büyük sorun, uzun süreli konuşma sentezi için standart bir benchmarkın olmaması.
Bu tür ölçüt önerilerini Death of Demo yazısında derledim
Humanity’s Last Exam projesi hakkında bir yazı yazdım
Dünyanın dört bir yanından uzmanlar, yapay zeka modellerini sınamak için zor soruları crowdsourcing yoluyla topluyor
İnsanlar için kolay olan bazı soruların yapay zeka için hâlâ zor olması ilginçti
Sonuçta yapay zeka eğitiminin geleceğinin gerçek dünya(meatspace) deneyimlerine ve akıl yürütme anotasyonlarına bağlı olduğunu düşünüyorum
- Mercor ve Micro1 gibi şirketler bu yaklaşımla şimdiden 9 haneli yıllık gelir elde ediyor
Benchmarkların SAT puanlarına benzediğini düşünüyorum. Kusursuz tahmin araçları değiller ama kabaca bir sinyal olarak işe yarıyorlar
LLM’ler anlamlı bir yönde gelişiyor ve benchmarklar da bunu bir ölçüde yansıtıyor
- Ama insanlar için tasarlanmış sınavların LLM’lerin iş performansını tahmin etmesi için bir neden yok. Örneğin basit çarpma soruları insan zekâsıyla ilişkili olabilir ama bilgisayarlar için anlamsızdır
- Bu biraz sanat eleştirmenlerini değerlendiren bir sınav gibi. Öznel sonuçları nesnel biçimde puanlamaya çalışmanın kendisi çelişkili
- “Açıkça gelişti” ifadesi tartışmanın özünü bulanıklaştırıyor. Gerçekte anlamlı bir gelişme olup olmadığı bile tartışmalı
Şu anki LLM patlamasında en zayıf halka benchmarklar
Modeller arası karşılaştırmalar neredeyse sözde bilim düzeyinde bir karmaşa.
Ben LMArena leaderboard kullanıyorum ama modeller arasındaki sonuçlar açıklanamayacak kadar farklı
Prompt’lar model sürümlerine çok sıkı bağlı; GPT-4’te iyi çalışan şey GPT-5’te bozulabiliyor
Bu yüzden son zamanlarda Gemini kullanmaya daha çok meylediyorum
- LMArena değerlendirmeleri fazla kolay manipüle edilebiliyor. İnsan değerlendiriciler de iltifat dolu yanıtlara kolayca kanabiliyor
  Geri bildirime dayalı bu tür ince ayarlar, LLM’lerin aşırı özgüven sorununu daha da kötüleştiriyor
- AImodelReview adlı bir site yaptım; burada farklı modellerin çıktılarını karşılaştırıyorum
  Ama kullanıcılar kendileri değerlendirme yapmak istemiyor, leaderboard tarzı sıralamalar istiyor
  LLM’yi hakem olarak kullanma yöntemi de var ama bu bana yanlış bir şeymiş gibi geliyor.
  Sonuçta uzman değerlendiricilere dayalı bir değerlendirme gerekiyor, ama bu da pahalı
- İnsan psikolojik testlerinin de benzer şekilde zor olduğunu hatırlatıyor
Bireysel geliştirici düzeyinde çözüm, kendi benchmarkını doğrudan oluşturmak
Çözdüğünüz kod problemlerini temel alarak test hazırlayabilir, tok/s veya TTFT gibi metriklere bakabilirsiniz
- Ben LLM’leri yalnızca agent wrapper ortamında kullandığım için benchmark basit. Yeni modelle işi yapıp hissettiğim kadarıyla pass/fail kararı veriyorum
  Sonuçta en gerçekçi değerlendirme, kullanıcının modeli bizzat denemesi
- OpenAI’nin GitHub’ına değerlendirme eklerseniz sonraki model o problemde daha iyi hâle geliyor
- Bu tür özel değerlendirmelere evals deniyor ve ciddi bir yapay zeka projesi için bunlar şart
- AI Stupid Level gibi siteler de bu yaklaşımı benimsiyor
- Ama “problemi çözüyor” olmanın sadece örüntü tanıma olabileceğini unutmamak gerek
Bazıları hesap makinesiz sınav(AIME) sorularını örnek gösterip, yalnızca küçük sayılarla çalışan benchmarkların gerçek yeteneği yansıtmadığını söylüyor
Ama ben modelin insanlar gibi sınav tekniği öğrenmesini de bir tür ilerleme olarak görüyorum. Bu, insansı akıl yürütmeye daha yakın
- Tersine, gerçekten akıl yürütme yeteneği varsa büyük sayılı problemleri de çözmesi gerektiğini savunanlar da var
- Üniversite öğrencilerinin sınav tekniğiyle soru çözmesi insan değerlendirmesinin bir parçası sadece; ama LLM’ler bunu tüm yetenekmiş gibi sunuyor
  Ben oyunlaştırılmamış bir değerlendirme istiyorum. Şu an olan şey sadece akıllı bir otomatik tamamlama düzeyi
- Hesaplama problemleri, sonuçta araç kullanma yeteneği geldiğinde ortadan kalkacak türden bir sorun
- Bu tartışmayı ele alan Forbidden Technique videosu da ilginç
- LLM’lerin Excel veya Mathematica gibi dış araçları kullanmasına izin verilirse insanlar gibi hesaplama problemlerini çözebilirler
Kendi aramızda sinir bozucu bug’lardan oluşan bir Git repo oluşturup LLM’leri bununla test etme önerisi vardı
Örneğin Yjs/CRDT bug’larını Claude Code, GPT5-codex ve GLM-4.6 ile denedik ama sonunda ancak dolaylı geçici çözümler üretebildiler
Frontend loglarını backend’e gönderip yapay zekanın bunları gerçek zamanlı görmesini sağlayınca ancak ilerleme oldu
- Playwright kütüphanesini doğrudan kullandırmak frontend problemlerini çözmede etkili oldu
- Ama böyle bir öneri aslında yapay zeka eğitimi için yüksek kaliteli veriyi bedava sağlamak anlamına da gelebilir
- Ben de kişisel olarak bir bug koleksiyonu yapıp LLM’ye test kodu yazdırmayı denedim ama en yeni modeller bile hâlâ başarısız
- Aslında çoğu deneyimli LLM kullanıcısı zaten kendi özel benchmarklarını gizli tutuyor
  Çünkü bunlar açıklandığında eğitim verisine emilip etkisizleşiyor.
  Böyle kişisel benchmarklar tutmak, modelin gerçek ilerleme hızını çok daha soğukkanlı görmeyi sağlıyor
Sonuçta benchmarklar sadece belirli bir bağlamın spesifikasyonu
Yalnızca belirli koşullarda kodun iyi çalıştığını gösterir; her durumu garanti etmez
- Dijkstra’nın dediği gibi, “testler bug’ların varlığını gösterebilir ama yokluğunu kanıtlayamaz”
  Bunu LLM’lere uygularsak şu olur: “benchmarklar yalnızca yapılabilen işleri gösterir, yapılamayan işleri kanıtlamaz”
Bu araştırmada 445 benchmark incelenmiş ve çoğunun yapı geçerliliğinin zayıf olduğu söyleniyor
Gerçek zekâyı ölçmek için yeniliği(novelty) değerlendirmek gerekir.
Daha önce görülmüş problemlere benzeyen örüntüleri çözmek sadece ezberdir
Ama yüzlerce petabaytlık eğitim verisinden kaçınarak tamamen yeni problemler üretmek neredeyse imkânsız
Bu yüzden zeka yanılsaması ortaya çıkıyor
- Problem çözmeyi basitçe ‘hafıza’ ile ‘yaratıcılık’ diye ayırmak yanlış bir yaklaşım
  Gerçekte bu iki kavram arasında sayısız gri alan bulunuyor.
  Tamamen yeni bir problem bile çözülebilmek için belli bir benzerlik düzeyi taşımak zorunda

AI sistemlerinin değerlendirilme biçimindeki zayıflıkları ortaya koyan araştırma

Araştırmaya genel bakış

Temel bulgular

Sorun örnekleri

İyileştirme önerileri

Araştırmanın önemi

Diğer bilgiler

İlgili okumalar

1 yorum

Hacker News görüşleri