2 puan yazan johnonlee 2 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

• LLM değerlendirmeleri hâlâ bir "SAT puanı" düzeyinde kalıyor — MMLU, HumanEval, SWE-bench’in hepsi tek oturumlu·tek doğru cevap paradigmasına dayanıyor. Gerçek kodlama ajanları ise birden fazla oturuma yayılan şekilde çalışır, hatalarından öğrenir ve mevcut konvansiyonları okur. Bu, bilgi (knowledge) değil davranış (behavior) meselesidir.

• İnsan işe alırken not ortalamasından çok "nasıl düşündüğüne" bakarız — LLM değerlendirmelerinde neden bunu yapmıyoruz? Şu anda tüm modellerin 90. persentile ulaştığı bir "GPA kontrolü" aşamasında takılı kalmış durumdayız.

• Aynı hatayı düzeltseler bile yaklaşım biçimleri tamamen farklıdır — Model A 30 saniye içinde grep ile arayıp yama yapar (prototipleme tipi), Model B alt görevlere ayırıp sistematik yaklaşır (mimari tipi), Model C ise git log içindeki emsalleri öğrenip ardından düzeltir (bakım tipi). Üçü de hatayı düzeltir. Puan aynıdır. Role uygunluk ise tamamen farklıdır.

• 4 davranış gözlem boyutu önerisi — Decomposition (parçalara ayırıyor mu vs doğrudan mı uyguluyor), Approach (örüntü mü arıyor vs ilkelerden mi akıl yürütüyor), Recovery (tıkanınca strateji değiştiriyor mu vs zorlamaya devam mı ediyor), Consistency (benzer problemlerde aynı yaklaşımı gösteriyor mu).

Bilgi değerlendirmesi vs davranış değerlendirmesi

Mevcut benchmark Ölçtüğü şey Kaçırdığı şey
MMLU Bilgi ezberleme miktarı Uygulama muhakemesi, "bilmediğini bilme"
HumanEval İlk denemede geçme oranı Hata ayıklama, yineleme, uyum sağlama süreci
SWE-bench Yamanın testleri geçip geçmediği Yaklaşım yolu, mimari anlayış, oturumlar arası öğrenme

2026'da gerçekten gerekli olan soru

Kodlama ajanları artık bir demo değil, gerçek ekip araçları hâline gelmişken sormamız gereken soru "kaç puan aldı" değildir:

  • "Legacy bakım için hangi model uygundur"
  • "Junior pair programming için hangi hata ayıklama stili uygundur"
  • "Haftalar boyunca en öngörülebilir davranışı hangi model sergiler"

Bu bir role-fit sorusudur. Bir işe alım sorusudur. Biz ise hâlâ buna SAT puanıyla cevap veriyoruz.

Metin, çerçeveyi tamamlanmış bir yapı olarak sunmuyor. "Yanılıyorsam beni düzeltin" tavrıyla 4 varsayımı açıkça tartışmaya açıyor ve yorumlarda tartışmayı teşvik ediyor. Nisan 2026 tarihli Tang et al. imzalı "In-Situ Behavioral Evaluation for LLM Fairness" makalesi de benzer bir yönelim ortaya koyuyor.

Henüz yorum yok.

Henüz yorum yok.