- Performans ölçümü için, AI modellerinin eksiksiz biçimde yerine getirebildiği görevlerin ‘uzunluğunu’ temel alan yeni bir metrik öneriliyor
- Analize göre son 6 yılda, AI'nin otonom olarak tamamlayabildiği görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
- İnsan uzmanların 4 dakika içinde bitirdiği görevlerde başarı neredeyse %100 iken, 4 saatten uzun süren görevlerde başarı oranı %10'un altında
- Bu eğilim sürerse, AI'nin birkaç yıl içinde haftalar süren projeleri bağımsız olarak yürütebileceği öngörülüyor
- Araştırma, AI benchmark'ları, gelecekteki yeteneklerin öngörülmesi ve risk yönetimi açısından önemli sonuçlar taşıyor
Araştırmaya genel bakış
- METR, AI'nin ne kadar uzun görevleri tamamlayabildiğini ölçmek için yeni bir yöntem sunuyor
- Ölçüt, insan uzmanların ilgili görevi tamamlamak için harcadığı süre
- Modelin başarı olasılığı ile insanın görev süresi arasındaki ilişki lojistik eğri ile modelleniyor
- Bu yaklaşım, AI'nin gerçek kullanım potansiyelini değerlendirmede yararlı bir metrik olarak sunuluyor
- Mevcut benchmark'ların tekil problem çözme yeteneğine odaklanma sınırlamasını tamamlıyor
Temel bulgular
- Güncel modellerin performans sınırı
- İnsanların 4 dakika içinde yaptığı görevlerde başarı neredeyse %100
- 4 saatten uzun süren görevlerde başarı oranı %10'un altında
- Örnek: Claude 3.7 Sonnet, yaklaşık 1 saatlik görevlerde %50 başarı oranına sahip
- Performans artışı eğilimi
- Son 6 yılda, %50 güvenle tamamlanabilen görev uzunluğu yaklaşık her 7 ayda bir iki katına çıktı
- Logaritmik ölçekli analiz, süregelen üstel büyümeyi doğruluyor
- Eğilim sürerse, 2~4 yıl içinde hafta ölçeğinde görevlerin yapılabilmesi mümkün olabilir
Yöntem ve doğrulama
- Veri kümesi tabanlı doğrulama
- Farklı görev grupları (yazılım, akıl yürütme vb.) için insanın tamamlama süresi kaydedildi
- SWE-Bench Verified veri kümesinde de benzer üstel artış doğrulandı
- Bu veride, 3 aydan kısa ikiye katlanma hızı gözlendi
- Duyarlılık analizi
- Model/görev seçimi, gürültü gibi çeşitli etkenlere karşı sağlamlık test edildi
- 1 aylık görevlerin yerine getirilebildiği zamanı öngören simülasyonlarda, ölçüm hatası büyük olsa bile eğilim korundu
Yorum ve sınırlamalar
- AI'nin benchmark başarısı ile gerçek dünyadaki kullanışlılığı arasındaki farkı açıklıyor
- Sınav soruları gibi alanlarda insanı geçse de, gerçek uzun vadeli projeleri yürütmede hâlâ yetersiz
- Eğilimi dışa taşıyarak tahmin etmenin belirsizliği kabul ediliyor
- Yalnızca 2024~2025 verileri kullanıldığında, ay ölçeğindeki görevlerin yapılabildiği zaman yaklaşık 2,5 yıl öne çekiliyor
- Son dönemdeki eğilimin, geçmiş verilere kıyasla gelecekteki performansı daha iyi öngörebileceği belirtiliyor
Sonuç ve önemi
- AI performansını ‘görev uzunluğu’ ile ölçme yaklaşımı
- Farklı zorluk seviyeleri ve alanlardaki performans artışını nicel olarak ölçebiliyor
- Gerçek dünya etkisiyle doğrudan bağlantılı mutlak performans yorumuna olanak tanıyor
- Sürekli üstel büyüme devam ederse,
- 10 yıl içinde otonom olarak ay ölçeğinde projelerin yürütülmesi mümkün görünüyor
- Bu durum, çok büyük potansiyel faydaları ve riskleri aynı anda beraberinde getiriyor
- Araştırma verileri ve analiz kodları GitHub'da açık olarak yayımlandı; takip araştırmaları ve tekrar deneyleri teşvik ediliyor
2 yorum
Oldukça iyi bir benchmark gibi görünüyor.
Son zamanlarda yapay zeka kodlama araçlarına bakınca, önceden bir plan oluşturup Agent modunda hareket etmelerini sağlama durumu sık görülüyor; bunun gerçekten uzun vadeli başarı oranı üzerinde anlamlı bir etkisi olup olmadığını da merak ediyorum.
Hacker News görüşleri
Tek satırlık bir tweet prompt'uydu, 15 dakikada tamamlandı; ben de o sırada Kirby Air Riders oynuyordum
Yine de bu süreçte vector search kurma konusunda hiçbir şey öğrenmemiş olmam can sıkıcıydı. Sonuçta amaç özelliğin kendisiydi, öğrenme ise ikincil bir şeydi
4 saat ayırıp kendin yapmaktansa, ajan 15 dakikada yaparken başka işlerle uğraşıp sonrasında 30 dakika kadar kodu okuyup düzenleyerek ve soru sorarak ilerlemek çok daha verimli
Odaklanmış 30 dakikalık öğrenme, 4 saatlik deneme-yanılmadan daha iyi olabilir
Yapay zeka da bir noktada kodun yapısını kaybediyor ve sonunda Opus'a bağımlı bir müşteri haline geliyorsun
Eskiden müzik dinleyip Scala ile problem çözme süreci keyifliydi; şimdi sonuca bu kadar kolay ulaşmak tersine bir boşluk hissi veriyor
Ben de işlem modeli kurarken grafikleri bizzat öğrenmektense LLM'in kodu benim yerime yazmasını istiyorum
Bu sayede ufak tefek API işleriyle vakit kaybetmeden sadece gerçekten karar gerektiren kısımlara odaklanabiliyorum
Python HTML5 ayrıştırıcısını JavaScript'e taşırken Codex CLI'ı 9.200 html5lib-tests üzerinde çalıştırdım; 4 saatten uzun süre döngü kurup sorunları çözmesini izlemek etkileyiciydi
İlgili yazıyı burada toparladım
Opus 4.5'in bu tür görevleri %50 güvenilirlikle yapabildiği anlamına geliyor; gerçek çalışma süresi ise çok daha kısa
İleride 8 saat, 40 saat gibi eşikler geçilince daha da ilginç olacak
Benchmark'lar hızla aşılırken gerçek iş otomasyonu hâlâ zor; bunu çok iyi gösteriyor
jq, PyPI ekosistemi ya da TypeScript açıklamalarına alışkın biri bunu çok daha hızlı bitirebilir
Sonuçta yapay zekanın çekiciliği, böyle uzman seviyesinde yardımı anında alabilmek
Modellerin çoğu "sonraki adıma geçelim" deyip kendi kendine duruyor
Bunu çözen bir yöntem bulan var mı merak ediyorum
Fiyat farkı da eskisine göre azaldığı için pratik kullanım değeri yükseldi; Haiku 4.5 de reasoning açılınca gayet kullanılabilir
Özellikle küçük araçlar ya da tek sayfalık düzenlemeler için uygun
LLM sayesinde bu iki aşama doğal biçimde birleşiyor
Örneğin AnimeJS animasyonu yaparken CCAgent'in kod yazma sürecini izleyerek öğreniyor, sonra kendim yapılandırıp refactor ediyorum
Böylece aynı anda hem zaman tasarrufu hem de yaratıcı kontrol elde edebiliyorum
Yani kısa görevlerde GPT 5.1, uzun görevlerde ise Opus daha uygun
%50 başarı oranıyla 4 saatlik bir görevi vermek pratikte kumar oynamaya benziyor; başarısız olursa debug maliyeti de yüksek
Bu yüzden 30 dakikalık aralıklarla insan inceleme kontrol noktaları koymanın iyi olacağını düşünüyorum
Ama yapay zekanın ortada tıkandığında kendi kendini toparlayabilme yeteneği de önemli
Dışarıdan düzgün görünüyor ama ancak sonradan ortaya çıkan ince hatalar çok oluyor
Bu yüzden önemli işlerde hâlâ ajan kullanmıyorum; hatta işin keyfini de kaçırıyor
Sonucun yarı yarıya gelme ihtimali varsa bu, zaman açısından verimli bir bahis olabilir
Birden fazla denemeyi hızlıca yapabiliyorsun ve başarısızlıktan da bir şeyler öğreniliyor
Ancak o zaman LLM'lerin neden insanların kolayca yaptığı işlerde hâlâ sık sık başarısız olduğunu daha net görebiliriz
Sonuç sayısal olarak doğrulanabiliyor, kod ne kadar kısa olursa o kadar iyi oluyor ve basit kombinasyonlardan ziyade sistematik düşünme gerekiyor
Şimdiye kadar SIMD kod optimizasyonunda en iyi olan Gemini Pro 3'tü
4 saatlik bir görevi birkaç kez tekrarlarsan başarı olasılığı %6,25'e kadar iner
Bu, görevin niteliğine bağlı