"AI yanlış yaptığını bilmiyor" — 9 SOTA modelin meta bilişini ölçen benchmark yayımlandı
(huggingface.co)En iyi doktor önce kendi yanlış teşhisinden şüphe eder, en iyi bilim insanı da önce kendi hipotezindeki açıkları arar. İnsanlarda buna meta biliş denir. Peki bugün yüz milyonlarca kişinin her gün kullandığı AI — yanlış yaptığında bunu biliyor mu?
Mevcut benchmark'lar (MMLU, HumanEval, GPQA vb.) tamamen yalnızca "ne kadar doğru bildiğini" ölçüyor. "Yanlış yaptığını anlayıp düzeltebiliyor mu"yu ölçen bir benchmark yoktu; şimdi ise "FINAL Bench: Measuring Functional Metacognitive Reasoning in Large Language Models" (2026) makalesine dayanan, dünyanın ilk AI meta biliş benchmark veri seti ve lider tablosu Hugging Face'te yayımlandı.
Nasıl ölçüldü
GPT-5.2, Claude Opus 4.6, Gemini 3 Pro, Kimi K2.5, DeepSeek-V3.2 gibi mevcut 9 SOTA model üzerinde, 15 akademik alandan 100 uzman düzeyi görev test edildi. Tüm görevlerin içinde, modeli tuzağa düşürmek için tasarlanmış bilişsel tuzaklar gizli. Her model iki koşul altında değerlendiriliyor — yalnızca cevap vermesi istendiğinde (Baseline) ve "cevabındaki hatayı bulup kendin düzelt" denildiğinde (MetaCog). Toplam 1.800 değerlendirme verisi, GPT-5.2, Claude Opus 4.6 ve Gemini 3 Pro'nun çapraz hakemlik yaptığı bir yöntemle yayımlandı.
Ne bulundu? Sonuçlar oldukça ilginç.
Birincisi, 9 modelin tamamı da "cevabımda belirsizlik olabilir" demeyi son derece iyi başarıyor. Ortalama puan 0.694. Ancak gerçekten kendi hatasını bulup düzeltme yeteneği 0.302 puanda kalıyor. Söz ile eylem arasındaki fark 0.392. Makale bunu "Mütevazı Aldatıcı (Humble Deceiver)" örüntüsü olarak adlandırıyor ve 9 modelin tamamı bu profile giriyor.
İkincisi, "kendi hatanı bulup düzelt" şeklinde bir meta biliş yapısı eklendiğinde en yüksek zorluktaki sorularda performans en fazla %70'in üzerinde arttı. Toplam performans artışının %94,8'i tek başına öz-düzeltme ekseninden geldi. Daha fazla bilgi eklemek, modeli büyütmek ya da akıl yürütmeyi güçlendirmek çok sınırlı etki gösterirken — neredeyse her şeyi meta biliş tek başına açıklamış oldu.
Üçüncüsü, kolay sorularda fark yokken soru zorlaştıkça meta bilişin etkisi dramatik biçimde büyüyor (r = -0.777). Baseline'da son sırada olan Claude Opus 4.6, MetaCog uygulandıktan sonra +20 puan sıçrayarak 5. sıraya çıktı. Gerçekten zor sorularda sonucu belirleyen şey meta biliş gibi görünüyor.
Neden dikkat çekici?
Bugün bile AI tıbbi tavsiye veriyor, hukuki belgeler yazıyor ve yatırım raporları hazırlıyor. AI "emin değilim" dediğinde kullanıcılar bunu güven işareti olarak alıyor; ancak gerçek veriler, bu mütevazı sözlerin arkasında hataların aynen kaldığını gösteriyor. Bu benchmark, AI'nin ihtiyaç duyduğu şeyin daha fazla bilgi değil, "kendi cehaletini kabul edip yönünü düzeltebilme gücü" olduğunu verilerle ortaya koyuyor.
Veri seti (100 görev) ve etkileşimli lider tablosunun tamamı açık; doğrudan inceleyebilirsiniz.
🏆 Lider tablosu: https://huggingface.co/spaces/FINAL-Bench/Leaderboard
📊 Veri seti: https://huggingface.co/datasets/FINAL-Bench/Metacognitive
📝 Makale: https://huggingface.co/blog/FINAL-Bench/metacognitive
3 yorum
... Birden dün yaptığım 4 saatlik nafile uğraş aklıma geldi... huhu... İlk dosya erişim yolu yanlış olduğu için algılayamamıştı ama... o andan sonra kendisinin sandbox içinde çalıştığını, bu yüzden dosya erişimi için şöyle böyle yollarla dolanması gerektiğini diye tutturdu ... huhu