10 puan yazan GN⁺ 2025-12-23 | 2 yorum | WhatsApp'ta paylaş
  • Performans ölçümü için, AI modellerinin eksiksiz biçimde yerine getirebildiği görevlerin ‘uzunluğunu’ temel alan yeni bir metrik öneriliyor
  • Analize göre son 6 yılda, AI'nin otonom olarak tamamlayabildiği görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
  • İnsan uzmanların 4 dakika içinde bitirdiği görevlerde başarı neredeyse %100 iken, 4 saatten uzun süren görevlerde başarı oranı %10'un altında
  • Bu eğilim sürerse, AI'nin birkaç yıl içinde haftalar süren projeleri bağımsız olarak yürütebileceği öngörülüyor
  • Araştırma, AI benchmark'ları, gelecekteki yeteneklerin öngörülmesi ve risk yönetimi açısından önemli sonuçlar taşıyor

Araştırmaya genel bakış

  • METR, AI'nin ne kadar uzun görevleri tamamlayabildiğini ölçmek için yeni bir yöntem sunuyor
    • Ölçüt, insan uzmanların ilgili görevi tamamlamak için harcadığı süre
    • Modelin başarı olasılığı ile insanın görev süresi arasındaki ilişki lojistik eğri ile modelleniyor
  • Bu yaklaşım, AI'nin gerçek kullanım potansiyelini değerlendirmede yararlı bir metrik olarak sunuluyor
    • Mevcut benchmark'ların tekil problem çözme yeteneğine odaklanma sınırlamasını tamamlıyor

Temel bulgular

  • Güncel modellerin performans sınırı
    • İnsanların 4 dakika içinde yaptığı görevlerde başarı neredeyse %100
    • 4 saatten uzun süren görevlerde başarı oranı %10'un altında
    • Örnek: Claude 3.7 Sonnet, yaklaşık 1 saatlik görevlerde %50 başarı oranına sahip
  • Performans artışı eğilimi
    • Son 6 yılda, %50 güvenle tamamlanabilen görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
    • Logaritmik ölçekli analiz, süregelen üstel büyümeyi doğruluyor
    • Eğilim sürerse, 2~4 yıl içinde hafta ölçeğinde görevlerin yapılabilmesi mümkün olabilir

Yöntem ve doğrulama

  • Veri kümesi tabanlı doğrulama
    • Farklı görev grupları (yazılım, akıl yürütme vb.) için insanın tamamlama süresi kaydedildi
    • SWE-Bench Verified veri kümesinde de benzer üstel artış doğrulandı
    • Bu veride, 3 aydan kısa ikiye katlanma hızı gözlendi
  • Duyarlılık analizi
    • Model/görev seçimi, gürültü gibi çeşitli etkenlere karşı sağlamlık test edildi
    • 1 aylık görevlerin yerine getirilebildiği zamanı öngören simülasyonlarda, ölçüm hatası büyük olsa bile eğilim korundu

Yorum ve sınırlamalar

  • AI'nin benchmark başarısı ile gerçek dünyadaki kullanışlılığı arasındaki farkı açıklıyor
    • Sınav soruları gibi alanlarda insanı geçse de, gerçek uzun vadeli projeleri yürütmede hâlâ yetersiz
  • Eğilimi dışa taşıyarak tahmin etmenin belirsizliği kabul ediliyor
    • Yalnızca 2024~2025 verileri kullanıldığında, ay ölçeğindeki görevlerin yapılabildiği zaman yaklaşık 2,5 yıl öne çekiliyor
    • Son dönemdeki eğilimin, geçmiş verilere kıyasla gelecekteki performansı daha iyi öngörebileceği belirtiliyor

Sonuç ve önemi

  • AI performansını ‘görev uzunluğu’ ile ölçme yaklaşımı
    • Farklı zorluk seviyeleri ve alanlardaki performans artışını nicel olarak ölçebiliyor
    • Gerçek dünya etkisiyle doğrudan bağlantılı mutlak performans yorumuna olanak tanıyor
  • Sürekli üstel büyüme devam ederse,
    • 10 yıl içinde otonom olarak ay ölçeğinde projelerin yürütülmesi mümkün görünüyor
    • Bu durum, çok büyük potansiyel faydaları ve riskleri aynı anda beraberinde getiriyor
  • Araştırma verileri ve analiz kodları GitHub'da açık olarak yayımlandı; takip araştırmaları ve tekrar deneyleri teşvik ediliyor

2 yorum

 
crawler 2025-12-23

Oldukça iyi bir benchmark gibi görünüyor.
Son zamanlarda yapay zeka kodlama araçlarına bakınca, önceden bir plan oluşturup Agent modunda hareket etmelerini sağlama durumu sık görülüyor; bunun gerçekten uzun vadeli başarı oranı üzerinde anlamlı bir etkisi olup olmadığını da merak ediyorum.

 
GN⁺ 2025-12-23
Hacker News görüşleri
  • Yakın zamanda hobi projemde sadece "vector search ekle" demiştim; Opus manticore'u kurdu, embedding modelini çekti, mevcut anahtar kelime indeksini taşımak için bir araç yaptı, hatta frontend'i bile hazırladı
    Tek satırlık bir tweet prompt'uydu, 15 dakikada tamamlandı; ben de o sırada Kirby Air Riders oynuyordum
    Yine de bu süreçte vector search kurma konusunda hiçbir şey öğrenmemiş olmam can sıkıcıydı. Sonuçta amaç özelliğin kendisiydi, öğrenme ise ikincil bir şeydi
    • Özellikle daha uzun süren bir yöntemle yapmanın daha iyi bir öğrenme yöntemi olduğunu düşünmüyorum
      4 saat ayırıp kendin yapmaktansa, ajan 15 dakikada yaparken başka işlerle uğraşıp sonrasında 30 dakika kadar kodu okuyup düzenleyerek ve soru sorarak ilerlemek çok daha verimli
      Odaklanmış 30 dakikalık öğrenme, 4 saatlik deneme-yanılmadan daha iyi olabilir
    • Ama bunu böyle yapınca sonunda bakımı imkansız dev bir kod yığını ortaya çıkıyor
      Yapay zeka da bir noktada kodun yapısını kaybediyor ve sonunda Opus'a bağımlı bir müşteri haline geliyorsun
    • Opus ve Anthropic kesinlikle en üst seviyede ama her kullandığımda entelektüel fast food gibi geliyor
      Eskiden müzik dinleyip Scala ile problem çözme süreci keyifliydi; şimdi sonuca bu kadar kolay ulaşmak tersine bir boşluk hissi veriyor
    • "İstediğim şey özellikti, nasıl yapılacağını öğrenmek değildi" sözüne tamamen katılıyorum
      Ben de işlem modeli kurarken grafikleri bizzat öğrenmektense LLM'in kodu benim yerime yazmasını istiyorum
      Bu sayede ufak tefek API işleriyle vakit kaybetmeden sadece gerçekten karar gerektiren kısımlara odaklanabiliyorum
    • Bu vector search kodunu acaba paylaşman mümkün mü
  • "Uzun görev (long task)" kavramını bizzat yaşamadan önce tam anlamamıştım
    Python HTML5 ayrıştırıcısını JavaScript'e taşırken Codex CLI'ı 9.200 html5lib-tests üzerinde çalıştırdım; 4 saatten uzun süre döngü kurup sorunları çözmesini izlemek etkileyiciydi
    İlgili yazıyı burada toparladım
    • METR'nin "4 saatlik görev"i, yapay zekanın gerçekten 4 saat sürdüğü anlamına gelmiyor; insanın 4 saatini alacak zorluk seviyesini ifade ediyor
      Opus 4.5'in bu tür görevleri %50 güvenilirlikle yapabildiği anlamına geliyor; gerçek çalışma süresi ise çok daha kısa
      İleride 8 saat, 40 saat gibi eşikler geçilince daha da ilginç olacak
    • Bu metrik, yapay zekanın gerçek hızını değil insan ölçüsünde zorluk seviyesini ölçüyor
      Benchmark'lar hızla aşılırken gerçek iş otomasyonu hâlâ zor; bunu çok iyi gösteriyor
    • METR'nin "human hours equivalent" ifadesinde önemli olan, hangi insanın ölçü alındığı
      jq, PyPI ekosistemi ya da TypeScript açıklamalarına alışkın biri bunu çok daha hızlı bitirebilir
      Sonuçta yapay zekanın çekiciliği, böyle uzman seviyesinde yardımı anında alabilmek
    • Ama Codex ya da Claude code ile uzun görev çalıştırınca izin isteme pencereleri çok sık çıkıyor ve sık sık yarıda kesiliyor
      Modellerin çoğu "sonraki adıma geçelim" deyip kendi kendine duruyor
    • GPT5.2 özellikle kullanıcı girdisini aşırı fazla istiyor; 2 dakikadan uzun kesintisiz çalıştırmak zor
      Bunu çözen bir yöntem bulan var mı merak ediyorum
  • Modelleri değerlendirirken temkinliyim ama Opus 4.5 ile Sonnet 4.5 arasındaki fark kesinlikle hissediliyordu
    Fiyat farkı da eskisine göre azaldığı için pratik kullanım değeri yükseldi; Haiku 4.5 de reasoning açılınca gayet kullanılabilir
    Özellikle küçük araçlar ya da tek sayfalık düzenlemeler için uygun
  • Yazılım öğrenmenin keşif (exploration) ve yararlanma (exploitation) olmak üzere iki aşamaya ayrıldığını düşünüyorum
    LLM sayesinde bu iki aşama doğal biçimde birleşiyor
    Örneğin AnimeJS animasyonu yaparken CCAgent'in kod yazma sürecini izleyerek öğreniyor, sonra kendim yapılandırıp refactor ediyorum
    Böylece aynı anda hem zaman tasarrufu hem de yaratıcı kontrol elde edebiliyorum
  • Opus, GPT 5.1'e kıyasla büyük bir sıçrama gibi görünüyor ama %80 güvenilirlik ölçütünde hâlâ GPT 5.1 önde
    Yani kısa görevlerde GPT 5.1, uzun görevlerde ise Opus daha uygun
    • %50 başarı oranında pahalı token israfı büyük ama gelecek yıl açık kaynak modellerin de bu seviyeye ulaşmasını bekliyorum
  • METR'nin asıl noktası, karmaşıklığı "insan eşdeğeri zaman" üzerinden ölçmesi
    %50 başarı oranıyla 4 saatlik bir görevi vermek pratikte kumar oynamaya benziyor; başarısız olursa debug maliyeti de yüksek
    Bu yüzden 30 dakikalık aralıklarla insan inceleme kontrol noktaları koymanın iyi olacağını düşünüyorum
    Ama yapay zekanın ortada tıkandığında kendi kendini toparlayabilme yeteneği de önemli
    • Yine de 30 dakikada yapay zekanın ürettiği şey o kadar fazla oluyor ki gözden geçirmek tam bir kabus
      Dışarıdan düzgün görünüyor ama ancak sonradan ortaya çıkan ince hatalar çok oluyor
      Bu yüzden önemli işlerde hâlâ ajan kullanmıyorum; hatta işin keyfini de kaçırıyor
    • 4 saat boşa gitmiş olsa bile o sırada başka iş yaptıysan aslında kayıp sayılmaz
      Sonucun yarı yarıya gelme ihtimali varsa bu, zaman açısından verimli bir bahis olabilir
    • Başarısız olsa bile gerçekte kaybedilen şey yapay zekanın harcadığı birkaç dakika; bu yüzden prototip keşfi için harika
      Birden fazla denemeyi hızlıca yapabiliyorsun ve başarısızlıktan da bir şeyler öğreniliyor
  • %95 ya da %99 güvenilirlik ölçütüyle hazırlanmış grafiklere de ihtiyaç var
    Ancak o zaman LLM'lerin neden insanların kolayca yaptığı işlerde hâlâ sık sık başarısız olduğunu daha net görebiliriz
  • Performans optimizasyonunun, yapay zekanın gerçek zekasını ölçmek için iyi bir benchmark olduğunu düşünüyorum
    Sonuç sayısal olarak doğrulanabiliyor, kod ne kadar kısa olursa o kadar iyi oluyor ve basit kombinasyonlardan ziyade sistematik düşünme gerekiyor
    Şimdiye kadar SIMD kod optimizasyonunda en iyi olan Gemini Pro 3'tü
  • %50 başarı oranının sorunu, yeniden denemelerde olasılığın hızla düşmesi
    4 saatlik bir görevi birkaç kez tekrarlarsan başarı olasılığı %6,25'e kadar iner
    • Ama bu mutlaka "şanssızlık" demek değil; bir kez başarısız olan bir görevin sonraki denemede başarı olasılığı farklı olabilir
      Bu, görevin niteliğine bağlı