4 puan yazan GN⁺ 2025-11-09 | 1 yorum | WhatsApp'ta paylaş
  • Dünyanın dört bir yanından 42 araştırmacının katıldığı, Oxford Internet Institute (OII) liderliğindeki geniş çaplı bir araştırma, büyük dil modeli (LLM) değerlendirmelerinde kullanılan benchmark'ların bilimsel titizlikten yoksun olduğunu ortaya koydu
  • 445 AI benchmark'ı incelendiğinde, yarısından fazlasının kavram tanımlarının belirsiz olduğu veya analiz yöntemlerinin zayıf kaldığı, bu nedenle güvenilir sonuçlara ulaşmayı zorlaştıran bir yapıya sahip olduğu görüldü
  • İncelenen çalışmaların yalnızca %16'sı istatistiksel yöntemler kullanırken, “muhakeme” ya da “zararsızlık” gibi soyut kavramların çoğu zaman açık biçimde tanımlanmadığı belirlendi
  • Araştırma ekibi; tanımların netleştirilmesi, temsili değerlendirme, istatistiksel analizin güçlendirilmesi gibi başlıkları içeren 8 iyileştirme önerisi sundu ve bunun için Construct Validity Checklist aracını yayımladı
  • AI benchmark'larının bilimsel geçerliliğinin sağlanması, AI teknolojisinin gelişimi ve düzenlemelere duyulan güven açısından temel bir mesele olarak öne çıkıyor

Araştırmaya genel bakış

  • Araştırma, Oxford Internet Institute (OII) liderliğinde yürütüldü; EPFL, Stanford, TUM, UC Berkeley, Yale gibi önde gelen kurumlar da katıldı
  • Makalenin başlığı Measuring What Matters: Construct Validity in Large Language Model Benchmarks ve NeurIPS 2025'te sunulması planlanıyor
  • Çalışma, 445 AI benchmark'ını sistematik biçimde inceleyerek değerlendirme ölçütlerinin bilimsel geçerliliğini analiz etti

Temel bulgular

  • İstatistiksel titizlik eksikliği: İncelenen çalışmaların yalnızca %16'sı istatistiksel karşılaştırma yöntemleri kullandı
    • Modeller arasındaki performans farkları veya üstünlük iddiaları, tesadüfen ortaya çıkmış sonuçlar olabilir
  • Muğlak veya tartışmalı tanımlar: Benchmark'ların yaklaşık yarısı “muhakeme”, “zararsızlık” gibi soyut kavramları açık biçimde tanımlamıyor
    • Açık kavram tanımlarının olmaması, değerlendirmenin amacı ile gerçekten ölçülen şey arasında uyumsuzluk yaratıyor

Sorun örnekleri

  • Biçim kurallarıyla karışıklık: Basit bir mantık bulmacasını çözerken cevabın karmaşık bir formatta verilmesinin istenmesi durumunda, doğru cevap verilse bile biçim hatası nedeniyle başarısız sayılabiliyor
  • Kırılgan performans: Basit matematik sorularında güçlü görünse de sayıların veya cümle yapısının çok az değişmesiyle başarısız olan örnekler bulunuyor
  • Temelsiz iddialar: Tıp sınavı sorularında yüksek puan almak, modelin doktor seviyesinde uzmanlığa sahip olduğu yönünde yanlış bir izlenim yaratabiliyor

İyileştirme önerileri

  • Araştırma ekibi, sorunun çözülebileceğini belirterek psikometri ve tıp alanlarındaki doğrulama metodolojilerinden yararlanan 8 öneri sundu
    • Tanımla ve izole et (Define and isolate): Ölçülen kavramı açıkça tanımlayın ve ilgisiz etkenleri kontrol edin
    • Temsili değerlendirmeler oluştur (Build representative evaluations): Gerçek ortamları yansıtın ve hedeflenen yeteneğin tüm kapsamını içerdiğinden emin olun
    • Analizi ve gerekçelendirmeyi güçlendir (Strengthen analysis and justification): İstatistiksel belirsizliği raporlayın, hata analizi yapın ve benchmark'ın geçerliliğine dair kanıt sunun
  • Construct Validity Checklist sayesinde araştırmacılar, geliştiriciler ve düzenleyici kurumlar benchmark tasarımının geçerliliğini önceden kontrol edebiliyor

Araştırmanın önemi

  • Benchmark'lar, AI araştırmalarının yönünü, model rekabetini, politika ve düzenleme ölçütlerini belirleyen temel araçlar olarak işlev görüyor
  • Bilimsel dayanağı zayıf benchmark'lar, AI performansı ve güvenliği konusunda yanlış anlamalara yol açma riski taşıyor
  • Bu çalışma, AI değerlendirmelerinde güvenilirliğin sağlanması için uluslararası bir iş birliği modeli olarak sunuluyor

Diğer bilgiler

  • Makale, 2-7 Aralık 2025 tarihlerinde düzenlenecek NeurIPS 2025'te sunulacak
  • Araştırma; Clarendon bursu, ESRC, EPSRC, Meta LLM Evaluation Research Grant gibi çeşitli kurumlar tarafından desteklendi
  • OII, son 25 yıldır yapay zeka, dijital platformlar, otonom sistemler gibi yeni teknolojilerin toplumsal etkilerini araştıran bir kurum

1 yorum

 
GN⁺ 2025-11-09
Hacker News görüşleri
  • Bir araştırma laboratuvarında LLM benchmarkları ve insan değerlendirmesi üzerinde çalışıyorum
    Açık konuşmak gerekirse şu anda bu alan tam bir kanunsuz bölge seviyesinde. Doğru düzgün bir çözüm yok ve araştırmacılar da sadece benchmark yapmaya saplanıp kalmak istemiyor
    Sonuçta ürün seviyesinde en gerçekçi yöntem hâlâ geleneksel A/B testi. Çünkü doğrudan metrikleri büyük ölçekte ölçebiliyorsunuz
    Elbette ‘benchmarketing’ gibi şeyler de var, ama çoğu kişi gerçekten iyi benchmarklar yapmak istiyor. Sadece bunun çok zor ya da imkânsız olması sorun

    • Ben bir hyperscaler’da platform altyapısıyla ilgileniyorum ve bizim alandaki benchmarklar da berbat
      Ölçülebilir metrikler net olmasına rağmen istatistiksel işlem çok kötü. Çoğu yerde sadece ortalama farkı karşılaştırılıyor ve p-value hesaplarına da güven olmuyor
      Üstelik gerçek iş yükü performansıyla korelasyon da neredeyse yok. Prodüksiyon deneyleri çok gürültülü olduğu için kayıpları kaçırmak kolay
      Yapay zeka tarafı daha da kötü. Neyin ölçüldüğü belirsiz ve hisse fiyatına yönelik gürültü ölçümü yapma teşviki var. Böyle bir durumda LLM benchmarklarının berbat olması şaşırtıcı değil
    • A/B testi de riskli. Sonuçta bu da dolaylı olarak kullanıcı geri bildirimi optimizasyonu demek ve insan değerlendiriciler kolayca manipüle edilebilir
      B, sadece ‘insanları kandıran’ bir yöntemle daha yüksek puan alabilir. OpenAI’nin 4o örneği bunun tipik bir vakası
    • Modelin ilkokul düzeyindeki matematik problemlerini çözüp sayıları ya da cümleleri biraz değiştirince hata yaptığını görünce şok olmuştum. Sonuçta bu sadece örüntü ezberi
    • Bence daha büyük sorun, teknoloji şirketleri ve medyanın bu meseleleri şeffaf biçimde açıklamaması. Benchmark puanlarını nesnel göstergeymiş gibi pazarlıyorlar
    • Ben de LLM değerlendirmesi yapıyorum ve alaycı bakarsak benchmarkların çoğu sahte görevler. Çünkü gerçek kullanım senaryoları neredeyse yok
      Daha cömert bir bakışla söylersek mesele, zekânın kendisini benchmarklamanın zor olması. İnsanların bir işe uygunluğunu bile standart sorularla değerlendirmek zorken, yapay zekada bunun daha zor olması şaşırtıcı değil
  • Ben TTS(Text-to-Speech) alanında çalışıyorum; burada durum LLM’lerden bile daha kaotik
    Demolar kusursuz görünüyor ama yüzlerce dakikalık üretimde ses seviyesi kayması, hız değişimi ve telaffuz hataları sürekli ortaya çıkıyor
    En büyük sorun, uzun süreli konuşma sentezi için standart bir benchmarkın olmaması.
    Bu tür ölçüt önerilerini Death of Demo yazısında derledim

  • Humanity’s Last Exam projesi hakkında bir yazı yazdım
    Dünyanın dört bir yanından uzmanlar, yapay zeka modellerini sınamak için zor soruları crowdsourcing yoluyla topluyor
    İnsanlar için kolay olan bazı soruların yapay zeka için hâlâ zor olması ilginçti
    Sonuçta yapay zeka eğitiminin geleceğinin gerçek dünya(meatspace) deneyimlerine ve akıl yürütme anotasyonlarına bağlı olduğunu düşünüyorum

    • Mercor ve Micro1 gibi şirketler bu yaklaşımla şimdiden 9 haneli yıllık gelir elde ediyor
  • Benchmarkların SAT puanlarına benzediğini düşünüyorum. Kusursuz tahmin araçları değiller ama kabaca bir sinyal olarak işe yarıyorlar
    LLM’ler anlamlı bir yönde gelişiyor ve benchmarklar da bunu bir ölçüde yansıtıyor

    • Ama insanlar için tasarlanmış sınavların LLM’lerin iş performansını tahmin etmesi için bir neden yok. Örneğin basit çarpma soruları insan zekâsıyla ilişkili olabilir ama bilgisayarlar için anlamsızdır
    • Bu biraz sanat eleştirmenlerini değerlendiren bir sınav gibi. Öznel sonuçları nesnel biçimde puanlamaya çalışmanın kendisi çelişkili
    • “Açıkça gelişti” ifadesi tartışmanın özünü bulanıklaştırıyor. Gerçekte anlamlı bir gelişme olup olmadığı bile tartışmalı
  • Şu anki LLM patlamasında en zayıf halka benchmarklar
    Modeller arası karşılaştırmalar neredeyse sözde bilim düzeyinde bir karmaşa.
    Ben LMArena leaderboard kullanıyorum ama modeller arasındaki sonuçlar açıklanamayacak kadar farklı
    Prompt’lar model sürümlerine çok sıkı bağlı; GPT-4’te iyi çalışan şey GPT-5’te bozulabiliyor
    Bu yüzden son zamanlarda Gemini kullanmaya daha çok meylediyorum

    • LMArena değerlendirmeleri fazla kolay manipüle edilebiliyor. İnsan değerlendiriciler de iltifat dolu yanıtlara kolayca kanabiliyor
      Geri bildirime dayalı bu tür ince ayarlar, LLM’lerin aşırı özgüven sorununu daha da kötüleştiriyor
    • AImodelReview adlı bir site yaptım; burada farklı modellerin çıktılarını karşılaştırıyorum
      Ama kullanıcılar kendileri değerlendirme yapmak istemiyor, leaderboard tarzı sıralamalar istiyor
      LLM’yi hakem olarak kullanma yöntemi de var ama bu bana yanlış bir şeymiş gibi geliyor.
      Sonuçta uzman değerlendiricilere dayalı bir değerlendirme gerekiyor, ama bu da pahalı
    • İnsan psikolojik testlerinin de benzer şekilde zor olduğunu hatırlatıyor
  • Bireysel geliştirici düzeyinde çözüm, kendi benchmarkını doğrudan oluşturmak
    Çözdüğünüz kod problemlerini temel alarak test hazırlayabilir, tok/s veya TTFT gibi metriklere bakabilirsiniz

    • Ben LLM’leri yalnızca agent wrapper ortamında kullandığım için benchmark basit. Yeni modelle işi yapıp hissettiğim kadarıyla pass/fail kararı veriyorum
      Sonuçta en gerçekçi değerlendirme, kullanıcının modeli bizzat denemesi
    • OpenAI’nin GitHub’ına değerlendirme eklerseniz sonraki model o problemde daha iyi hâle geliyor
    • Bu tür özel değerlendirmelere evals deniyor ve ciddi bir yapay zeka projesi için bunlar şart
    • AI Stupid Level gibi siteler de bu yaklaşımı benimsiyor
    • Ama “problemi çözüyor” olmanın sadece örüntü tanıma olabileceğini unutmamak gerek
  • Bazıları hesap makinesiz sınav(AIME) sorularını örnek gösterip, yalnızca küçük sayılarla çalışan benchmarkların gerçek yeteneği yansıtmadığını söylüyor
    Ama ben modelin insanlar gibi sınav tekniği öğrenmesini de bir tür ilerleme olarak görüyorum. Bu, insansı akıl yürütmeye daha yakın

    • Tersine, gerçekten akıl yürütme yeteneği varsa büyük sayılı problemleri de çözmesi gerektiğini savunanlar da var
    • Üniversite öğrencilerinin sınav tekniğiyle soru çözmesi insan değerlendirmesinin bir parçası sadece; ama LLM’ler bunu tüm yetenekmiş gibi sunuyor
      Ben oyunlaştırılmamış bir değerlendirme istiyorum. Şu an olan şey sadece akıllı bir otomatik tamamlama düzeyi
    • Hesaplama problemleri, sonuçta araç kullanma yeteneği geldiğinde ortadan kalkacak türden bir sorun
    • Bu tartışmayı ele alan Forbidden Technique videosu da ilginç
    • LLM’lerin Excel veya Mathematica gibi dış araçları kullanmasına izin verilirse insanlar gibi hesaplama problemlerini çözebilirler
  • Kendi aramızda sinir bozucu bug’lardan oluşan bir Git repo oluşturup LLM’leri bununla test etme önerisi vardı
    Örneğin Yjs/CRDT bug’larını Claude Code, GPT5-codex ve GLM-4.6 ile denedik ama sonunda ancak dolaylı geçici çözümler üretebildiler
    Frontend loglarını backend’e gönderip yapay zekanın bunları gerçek zamanlı görmesini sağlayınca ancak ilerleme oldu

    • Playwright kütüphanesini doğrudan kullandırmak frontend problemlerini çözmede etkili oldu
    • Ama böyle bir öneri aslında yapay zeka eğitimi için yüksek kaliteli veriyi bedava sağlamak anlamına da gelebilir
    • Ben de kişisel olarak bir bug koleksiyonu yapıp LLM’ye test kodu yazdırmayı denedim ama en yeni modeller bile hâlâ başarısız
    • Aslında çoğu deneyimli LLM kullanıcısı zaten kendi özel benchmarklarını gizli tutuyor
      Çünkü bunlar açıklandığında eğitim verisine emilip etkisizleşiyor.
      Böyle kişisel benchmarklar tutmak, modelin gerçek ilerleme hızını çok daha soğukkanlı görmeyi sağlıyor
  • Sonuçta benchmarklar sadece belirli bir bağlamın spesifikasyonu
    Yalnızca belirli koşullarda kodun iyi çalıştığını gösterir; her durumu garanti etmez

    • Dijkstra’nın dediği gibi, “testler bug’ların varlığını gösterebilir ama yokluğunu kanıtlayamaz”
      Bunu LLM’lere uygularsak şu olur: “benchmarklar yalnızca yapılabilen işleri gösterir, yapılamayan işleri kanıtlamaz
  • Bu araştırmada 445 benchmark incelenmiş ve çoğunun yapı geçerliliğinin zayıf olduğu söyleniyor
    Gerçek zekâyı ölçmek için yeniliği(novelty) değerlendirmek gerekir.
    Daha önce görülmüş problemlere benzeyen örüntüleri çözmek sadece ezberdir
    Ama yüzlerce petabaytlık eğitim verisinden kaçınarak tamamen yeni problemler üretmek neredeyse imkânsız
    Bu yüzden zeka yanılsaması ortaya çıkıyor

    • Problem çözmeyi basitçe ‘hafıza’ ile ‘yaratıcılık’ diye ayırmak yanlış bir yaklaşım
      Gerçekte bu iki kavram arasında sayısız gri alan bulunuyor.
      Tamamen yeni bir problem bile çözülebilmek için belli bir benzerlik düzeyi taşımak zorunda