LLM Değerlendirmelerinin Kör Noktası: Neden 'davranışa' değil, sadece 'bilgiye' bakıyoruz?

(dev.to/johnonlee)

14 puan yazan johnonlee 2026-05-27 | 5 yorum | WhatsApp'ta paylaş

• LLM değerlendirmeleri hâlâ bir "SAT puanı" düzeyinde kalıyor — MMLU, HumanEval, SWE-bench’in hepsi tek oturumlu·tek doğru cevap paradigmasına dayanıyor. Gerçek kodlama ajanları ise birden fazla oturuma yayılan şekilde çalışır, hatalarından öğrenir ve mevcut konvansiyonları okur. Bu, bilgi (knowledge) değil davranış (behavior) meselesidir.

• İnsan işe alırken not ortalamasından çok "nasıl düşündüğüne" bakarız — LLM değerlendirmelerinde neden bunu yapmıyoruz? Şu anda tüm modellerin 90. persentile ulaştığı bir "GPA kontrolü" aşamasında takılı kalmış durumdayız.

• Aynı hatayı düzeltseler bile yaklaşım biçimleri tamamen farklıdır — Model A 30 saniye içinde grep ile arayıp yama yapar (prototipleme tipi), Model B alt görevlere ayırıp sistematik yaklaşır (mimari tipi), Model C ise git log içindeki emsalleri öğrenip ardından düzeltir (bakım tipi). Üçü de hatayı düzeltir. Puan aynıdır. Role uygunluk ise tamamen farklıdır.

• 4 davranış gözlem boyutu önerisi — Decomposition (parçalara ayırıyor mu vs doğrudan mı uyguluyor), Approach (örüntü mü arıyor vs ilkelerden mi akıl yürütüyor), Recovery (tıkanınca strateji değiştiriyor mu vs zorlamaya devam mı ediyor), Consistency (benzer problemlerde aynı yaklaşımı gösteriyor mu).

Bilgi değerlendirmesi vs davranış değerlendirmesi

Mevcut benchmark	Ölçtüğü şey	Kaçırdığı şey
MMLU	Bilgi ezberleme miktarı	Uygulama muhakemesi, "bilmediğini bilme"
HumanEval	İlk denemede geçme oranı	Hata ayıklama, yineleme, uyum sağlama süreci
SWE-bench	Yamanın testleri geçip geçmediği	Yaklaşım yolu, mimari anlayış, oturumlar arası öğrenme

2026'da gerçekten gerekli olan soru

Kodlama ajanları artık bir demo değil, gerçek ekip araçları hâline gelmişken sormamız gereken soru "kaç puan aldı" değildir:

"Legacy bakım için hangi model uygundur"
"Junior pair programming için hangi hata ayıklama stili uygundur"
"Haftalar boyunca en öngörülebilir davranışı hangi model sergiler"

Bu bir role-fit sorusudur. Bir işe alım sorusudur. Biz ise hâlâ buna SAT puanıyla cevap veriyoruz.

Metin, çerçeveyi tamamlanmış bir yapı olarak sunmuyor. "Yanılıyorsam beni düzeltin" tavrıyla 4 varsayımı açıkça tartışmaya açıyor ve yorumlarda tartışmayı teşvik ediyor. Nisan 2026 tarihli Tang et al. imzalı "In-Situ Behavioral Evaluation for LLM Fairness" makalesi de benzer bir yönelim ortaya koyuyor.

5 yorum

husky81 2026-05-28

Düşününce, insanları değerlendiren üniversiteye giriş sınavı da davranışa değil yalnızca bilgiye bakıyor aslında.

cronex 2026-05-27

Belirli bir düzeni korusa yine neyse, ama her kullanımda farklı olunca... değerlendirmeyi nasıl yapmak gerektiğini ben de bilemedim.

johnonlee 2026-05-27

Evet. Kesin bir doğru yok ama buna da bu yönden bir kez bakmak gerektiğini düşünüyorum. Şu anda tek bir modele işi baştan sona yaptırıyoruz; ancak yarın, aralarda her modelin iyi olduğu alanı üstlendiği bir yapıya geçiş olabilir diye düşünüyorum. Herkes çok çalışırsa belli ölçüde benzer seviyede bilgiye sahip olur, ama davranış kalıplarına göre ortaya çıkan sonuçlarda fark oluşabilir.

b8g6pn 2026-05-27

Doğru cevap yoksa ve önemli olan insan ölçütlerine de uygun, isabetli ve az kaynak kullanan bir şeyse, bunu token miktarı ve ulaşılan seviye üzerinden değerlendirmek daha doğru olmaz mı? Yönteme kadar karışırsak iş gerçekten çok zorlaşıyor...

aliveornot 2026-05-27

Yanlış bir söz değil ama bunun bir cevabı var mı? Gerçek işe alımlarda da bunu puanlamak zor olduğu için insanları da önce işe alıp bir süre kullanıp sonra çıkarıyorlar... tıpkı yapay zeka modelini kullanıp sonra değiştirmek gibi.

LLM Değerlendirmelerinin Kör Noktası: Neden 'davranışa' değil, sadece 'bilgiye' bakıyoruz?

Bilgi değerlendirmesi vs davranış değerlendirmesi

2026'da gerçekten gerekli olan soru

İlgili okumalar

5 yorum