AI'nin uzun görevleri yerine getirme yeteneğinin ölçülmesi

(metr.org)

10 puan yazan GN⁺ 2025-12-23 | 2 yorum | WhatsApp'ta paylaş

Performans ölçümü için, AI modellerinin eksiksiz biçimde yerine getirebildiği görevlerin ‘uzunluğunu’ temel alan yeni bir metrik öneriliyor
Analize göre son 6 yılda, AI'nin otonom olarak tamamlayabildiği görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
İnsan uzmanların 4 dakika içinde bitirdiği görevlerde başarı neredeyse %100 iken, 4 saatten uzun süren görevlerde başarı oranı %10'un altında
Bu eğilim sürerse, AI'nin birkaç yıl içinde haftalar süren projeleri bağımsız olarak yürütebileceği öngörülüyor
Araştırma, AI benchmark'ları, gelecekteki yeteneklerin öngörülmesi ve risk yönetimi açısından önemli sonuçlar taşıyor

Araştırmaya genel bakış

METR, AI'nin ne kadar uzun görevleri tamamlayabildiğini ölçmek için yeni bir yöntem sunuyor
- Ölçüt, insan uzmanların ilgili görevi tamamlamak için harcadığı süre
- Modelin başarı olasılığı ile insanın görev süresi arasındaki ilişki lojistik eğri ile modelleniyor
Bu yaklaşım, AI'nin gerçek kullanım potansiyelini değerlendirmede yararlı bir metrik olarak sunuluyor
- Mevcut benchmark'ların tekil problem çözme yeteneğine odaklanma sınırlamasını tamamlıyor

Temel bulgular

Güncel modellerin performans sınırı
- İnsanların 4 dakika içinde yaptığı görevlerde başarı neredeyse %100
- 4 saatten uzun süren görevlerde başarı oranı %10'un altında
- Örnek: Claude 3.7 Sonnet, yaklaşık 1 saatlik görevlerde %50 başarı oranına sahip
Performans artışı eğilimi
- Son 6 yılda, %50 güvenle tamamlanabilen görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
- Logaritmik ölçekli analiz, süregelen üstel büyümeyi doğruluyor
- Eğilim sürerse, 2~4 yıl içinde hafta ölçeğinde görevlerin yapılabilmesi mümkün olabilir

Yöntem ve doğrulama

Veri kümesi tabanlı doğrulama
- Farklı görev grupları (yazılım, akıl yürütme vb.) için insanın tamamlama süresi kaydedildi
- SWE-Bench Verified veri kümesinde de benzer üstel artış doğrulandı
- Bu veride, 3 aydan kısa ikiye katlanma hızı gözlendi
Duyarlılık analizi
- Model/görev seçimi, gürültü gibi çeşitli etkenlere karşı sağlamlık test edildi
- 1 aylık görevlerin yerine getirilebildiği zamanı öngören simülasyonlarda, ölçüm hatası büyük olsa bile eğilim korundu

Yorum ve sınırlamalar

AI'nin benchmark başarısı ile gerçek dünyadaki kullanışlılığı arasındaki farkı açıklıyor
- Sınav soruları gibi alanlarda insanı geçse de, gerçek uzun vadeli projeleri yürütmede hâlâ yetersiz
Eğilimi dışa taşıyarak tahmin etmenin belirsizliği kabul ediliyor
- Yalnızca 2024~2025 verileri kullanıldığında, ay ölçeğindeki görevlerin yapılabildiği zaman yaklaşık 2,5 yıl öne çekiliyor
- Son dönemdeki eğilimin, geçmiş verilere kıyasla gelecekteki performansı daha iyi öngörebileceği belirtiliyor

Sonuç ve önemi

AI performansını ‘görev uzunluğu’ ile ölçme yaklaşımı
- Farklı zorluk seviyeleri ve alanlardaki performans artışını nicel olarak ölçebiliyor
- Gerçek dünya etkisiyle doğrudan bağlantılı mutlak performans yorumuna olanak tanıyor
Sürekli üstel büyüme devam ederse,
- 10 yıl içinde otonom olarak ay ölçeğinde projelerin yürütülmesi mümkün görünüyor
- Bu durum, çok büyük potansiyel faydaları ve riskleri aynı anda beraberinde getiriyor
Araştırma verileri ve analiz kodları GitHub'da açık olarak yayımlandı; takip araştırmaları ve tekrar deneyleri teşvik ediliyor
- İlgili altyapı: vivaria, eval-analysis-public

2 yorum

crawler 2025-12-23

Oldukça iyi bir benchmark gibi görünüyor.
Son zamanlarda yapay zeka kodlama araçlarına bakınca, önceden bir plan oluşturup Agent modunda hareket etmelerini sağlama durumu sık görülüyor; bunun gerçekten uzun vadeli başarı oranı üzerinde anlamlı bir etkisi olup olmadığını da merak ediyorum.

GN⁺ 2025-12-23

Hacker News görüşleri

Yakın zamanda hobi projemde sadece "vector search ekle" demiştim; Opus manticore'u kurdu, embedding modelini çekti, mevcut anahtar kelime indeksini taşımak için bir araç yaptı, hatta frontend'i bile hazırladı
Tek satırlık bir tweet prompt'uydu, 15 dakikada tamamlandı; ben de o sırada Kirby Air Riders oynuyordum
Yine de bu süreçte vector search kurma konusunda hiçbir şey öğrenmemiş olmam can sıkıcıydı. Sonuçta amaç özelliğin kendisiydi, öğrenme ise ikincil bir şeydi
- Özellikle daha uzun süren bir yöntemle yapmanın daha iyi bir öğrenme yöntemi olduğunu düşünmüyorum
  4 saat ayırıp kendin yapmaktansa, ajan 15 dakikada yaparken başka işlerle uğraşıp sonrasında 30 dakika kadar kodu okuyup düzenleyerek ve soru sorarak ilerlemek çok daha verimli
  Odaklanmış 30 dakikalık öğrenme, 4 saatlik deneme-yanılmadan daha iyi olabilir
- Ama bunu böyle yapınca sonunda bakımı imkansız dev bir kod yığını ortaya çıkıyor
  Yapay zeka da bir noktada kodun yapısını kaybediyor ve sonunda Opus'a bağımlı bir müşteri haline geliyorsun
- Opus ve Anthropic kesinlikle en üst seviyede ama her kullandığımda entelektüel fast food gibi geliyor
  Eskiden müzik dinleyip Scala ile problem çözme süreci keyifliydi; şimdi sonuca bu kadar kolay ulaşmak tersine bir boşluk hissi veriyor
- "İstediğim şey özellikti, nasıl yapılacağını öğrenmek değildi" sözüne tamamen katılıyorum
  Ben de işlem modeli kurarken grafikleri bizzat öğrenmektense LLM'in kodu benim yerime yazmasını istiyorum
  Bu sayede ufak tefek API işleriyle vakit kaybetmeden sadece gerçekten karar gerektiren kısımlara odaklanabiliyorum
- Bu vector search kodunu acaba paylaşman mümkün mü
"Uzun görev (long task)" kavramını bizzat yaşamadan önce tam anlamamıştım
Python HTML5 ayrıştırıcısını JavaScript'e taşırken Codex CLI'ı 9.200 html5lib-tests üzerinde çalıştırdım; 4 saatten uzun süre döngü kurup sorunları çözmesini izlemek etkileyiciydi
İlgili yazıyı burada toparladım
- METR'nin "4 saatlik görev"i, yapay zekanın gerçekten 4 saat sürdüğü anlamına gelmiyor; insanın 4 saatini alacak zorluk seviyesini ifade ediyor
  Opus 4.5'in bu tür görevleri %50 güvenilirlikle yapabildiği anlamına geliyor; gerçek çalışma süresi ise çok daha kısa
  İleride 8 saat, 40 saat gibi eşikler geçilince daha da ilginç olacak
- Bu metrik, yapay zekanın gerçek hızını değil insan ölçüsünde zorluk seviyesini ölçüyor
  Benchmark'lar hızla aşılırken gerçek iş otomasyonu hâlâ zor; bunu çok iyi gösteriyor
- METR'nin "human hours equivalent" ifadesinde önemli olan, hangi insanın ölçü alındığı
  jq, PyPI ekosistemi ya da TypeScript açıklamalarına alışkın biri bunu çok daha hızlı bitirebilir
  Sonuçta yapay zekanın çekiciliği, böyle uzman seviyesinde yardımı anında alabilmek
- Ama Codex ya da Claude code ile uzun görev çalıştırınca izin isteme pencereleri çok sık çıkıyor ve sık sık yarıda kesiliyor
  Modellerin çoğu "sonraki adıma geçelim" deyip kendi kendine duruyor
- GPT5.2 özellikle kullanıcı girdisini aşırı fazla istiyor; 2 dakikadan uzun kesintisiz çalıştırmak zor
  Bunu çözen bir yöntem bulan var mı merak ediyorum
Modelleri değerlendirirken temkinliyim ama Opus 4.5 ile Sonnet 4.5 arasındaki fark kesinlikle hissediliyordu
Fiyat farkı da eskisine göre azaldığı için pratik kullanım değeri yükseldi; Haiku 4.5 de reasoning açılınca gayet kullanılabilir
Özellikle küçük araçlar ya da tek sayfalık düzenlemeler için uygun
Yazılım öğrenmenin keşif (exploration) ve yararlanma (exploitation) olmak üzere iki aşamaya ayrıldığını düşünüyorum
LLM sayesinde bu iki aşama doğal biçimde birleşiyor
Örneğin AnimeJS animasyonu yaparken CCAgent'in kod yazma sürecini izleyerek öğreniyor, sonra kendim yapılandırıp refactor ediyorum
Böylece aynı anda hem zaman tasarrufu hem de yaratıcı kontrol elde edebiliyorum
Opus, GPT 5.1'e kıyasla büyük bir sıçrama gibi görünüyor ama %80 güvenilirlik ölçütünde hâlâ GPT 5.1 önde
Yani kısa görevlerde GPT 5.1, uzun görevlerde ise Opus daha uygun
- %50 başarı oranında pahalı token israfı büyük ama gelecek yıl açık kaynak modellerin de bu seviyeye ulaşmasını bekliyorum
METR'nin asıl noktası, karmaşıklığı "insan eşdeğeri zaman" üzerinden ölçmesi
%50 başarı oranıyla 4 saatlik bir görevi vermek pratikte kumar oynamaya benziyor; başarısız olursa debug maliyeti de yüksek
Bu yüzden 30 dakikalık aralıklarla insan inceleme kontrol noktaları koymanın iyi olacağını düşünüyorum
Ama yapay zekanın ortada tıkandığında kendi kendini toparlayabilme yeteneği de önemli
- Yine de 30 dakikada yapay zekanın ürettiği şey o kadar fazla oluyor ki gözden geçirmek tam bir kabus
  Dışarıdan düzgün görünüyor ama ancak sonradan ortaya çıkan ince hatalar çok oluyor
  Bu yüzden önemli işlerde hâlâ ajan kullanmıyorum; hatta işin keyfini de kaçırıyor
- 4 saat boşa gitmiş olsa bile o sırada başka iş yaptıysan aslında kayıp sayılmaz
  Sonucun yarı yarıya gelme ihtimali varsa bu, zaman açısından verimli bir bahis olabilir
- Başarısız olsa bile gerçekte kaybedilen şey yapay zekanın harcadığı birkaç dakika; bu yüzden prototip keşfi için harika
  Birden fazla denemeyi hızlıca yapabiliyorsun ve başarısızlıktan da bir şeyler öğreniliyor
%95 ya da %99 güvenilirlik ölçütüyle hazırlanmış grafiklere de ihtiyaç var
Ancak o zaman LLM'lerin neden insanların kolayca yaptığı işlerde hâlâ sık sık başarısız olduğunu daha net görebiliriz
Performans optimizasyonunun, yapay zekanın gerçek zekasını ölçmek için iyi bir benchmark olduğunu düşünüyorum
Sonuç sayısal olarak doğrulanabiliyor, kod ne kadar kısa olursa o kadar iyi oluyor ve basit kombinasyonlardan ziyade sistematik düşünme gerekiyor
Şimdiye kadar SIMD kod optimizasyonunda en iyi olan Gemini Pro 3'tü
%50 başarı oranının sorunu, yeniden denemelerde olasılığın hızla düşmesi
4 saatlik bir görevi birkaç kez tekrarlarsan başarı olasılığı %6,25'e kadar iner
- Ama bu mutlaka "şanssızlık" demek değil; bir kez başarısız olan bir görevin sonraki denemede başarı olasılığı farklı olabilir
  Bu, görevin niteliğine bağlı