Opus 4.6'nın, insan ölçüsüne göre 14,5 saatlik bir problemi çözmesinin anlamı (METR Time Horizon)

(metr.org)

5 puan yazan princox 2026-02-21 | Henüz yorum yok. | WhatsApp'ta paylaş

ABD'de METR adlı kâr amacı gütmeyen bir araştırma kurumu var.
Kaliforniya, Berkeley'de bulunan bu kâr amacı gütmeyen araştırma kurumu, sınır yapay zeka modellerinin uzun süreli ve otonom görevleri yerine getirme yeteneğini değerlendiriyor.

Bazı araştırmacılar bu tür yeteneklerin toplum için ciddi riskler doğurabileceği konusunda uyarıyor ve METR tam da bu riskleri ölçme görevini üstleniyor.

METR'in araştırmaları büyük ölçüde üç eksenden oluşuyor.

Birincisi, yapay zeka ajanlarının saatler süren çeşitli görevleri otonom biçimde tamamlama yeteneğini ölçen geniş kapsamlı otonom yetenek değerlendirmesi.

İkincisi, yapay zekanın yapay zeka Ar-Ge'sini bizzat hızlandırma yeteneğinin değerlendirilmesi.

Üçüncüsü, değerlendirmenin bütünlüğünü tehdit eden yapay zeka davranışları (ör. sandbagging, reward hacking) ve bunlara karşı önlemler üzerine araştırma.

Özellikle METR'in yayımladığı zaman ufku (Time Horizon) araştırması, yapay zeka ajanlarının tamamlayabildiği görev uzunluğunun son 6 yılda yaklaşık her 7 ayda bir iki katına çıktığını ortaya koydu; bu çalışma, yapay zekanın ne zaman dönüştürücü etki yaratacağını öngörmede temel bir dayanak olarak kullanılıyor.

Aşağıda, URL'ye girdiğinizde çıkan sayfanın makine çevirisi yer alıyor.

Genel Bakış

Görev tamamlama zaman ufku (task-completion time horizon), bir yapay zeka ajanının belirli bir güven düzeyinde başarıyla tamamlayacağının öngörüldüğü görevin ne kadar zaman gerektirdiğini ifade eder; burada ölçüt, insan uzmanın tamamlama süresidir. Örneğin %50-zaman ufku, ajanın %50 olasılıkla başarılı olmasının beklendiği görev uzunluğudur. Aşağıdaki grafik, 100'den fazla farklı yazılım görevindeki performansa dayanarak hesaplanan sınır yapay zeka ajanlarının %50 ve %80 zaman ufuklarını gösteriyor.

Kamuya açık sınır yapay zeka modellerinin zaman ufku ölçümlerini düzenli olarak güncelliyoruz. Kapasite kısıtları nedeniyle bazı modeller, yayımlandıktan bir süre sonra ölçülebiliyor ya da bazı sürümler tamamen atlanabiliyor.

Yöntem ve sonuçlara ilişkin ayrıntılı tartışma için makale ve blog yazısına bakabilirsiniz.

Metodoloji Ayrıntıları

Sınır yapay zeka ajanlarının zaman ufkunu tahmin etmek için önce her bir görevin bir insan uzman tarafından tamamlanmasının ne kadar sürdüğünü tahmin ediyoruz. Her ajan için, insan görev süresinin bir fonksiyonu olarak görev başarı olasılığını öngören bir lojistik eğri uyduruyoruz. %50-zaman ufkunu (veya %80-zaman ufkunu) bulmak için, uydurulan eğrinin %50 (veya %80) başarı olasılığıyla kesiştiği görev süresini belirliyoruz.

Görev dağılımı: Görevler RE-Bench, HCAST ve kısa yazılım görevlerinden oluşuyor. Bunlar ağırlıklı olarak yazılım mühendisliği, makine öğrenimi ve siber güvenlik görevleri; birbirinden bağımsız, açık biçimde tanımlanmış ve otomatik değerlendirilebilen net başarı ölçütlerine sahipler.

İnsan görev süresi tahmini: Çoğu görev için insanları işe alıp görevi denemelerini sağlıyor ve başarılı tamamlama sürelerinin geometrik ortalamasını alıyoruz. Bu kişilere, yapay zeka ajanlarıyla aynı talimatlar ve aynı ortam veriliyor; görevleri mümkün olduğunca hızlı bitirmeleri isteniyor. İnsan görev süresi tahminlerimiz gerçek uzmanlara kıyasla yüksek kalabilir; çünkü bu insanlar da (ve yapay zeka ajanları da) günlük işlerinde benzer görevleri yapan uzmanlara göre görev hakkında çok daha az bağlamsal bilgiye sahip.

Sık Sorulan Sorular (SSS)

S. "Zaman ufku", güncel yapay zeka ajanlarının otonom olarak hareket edebildiği süre anlamına mı geliyor?

Hayır. %50-zaman ufku, yapay zeka ajanının %50 güven düzeyiyle tamamlayabildiği görevin uzunluğudur (insan uzman ölçüsüne göre). Bu, yapay zekanın görevi bitirmesi için geçen gerçek süre değil, görevin zorluğunu ölçen bir göstergedir.

S. Bir yapay zeka ajanı 2 saatlik bir görevi gerçekte ne kadar sürede tamamlıyor?

Bu; modele, göreve ve ajan ayarlarına göre değişir, ancak yapay zeka ajanları genellikle insanlardan birkaç kat daha hızlıdır. Yapay zeka ajanları çoğu zaman kodu tekrar tekrar denemeden tek seferde yazabilir ve arama yapmaları gereken şeyler de daha azdır. Ayrıca birçok yapay zeka ajanı, insan yazılım mühendislerinden çok daha hızlı kod yazar.

S. Görev süresi tahmini hangi insanları temel alıyor?

Yazılım mühendisliği, makine öğrenimi ve siber güvenlik alanlarında yetkin uzmanlar; çoğu dünyanın ilk 100 üniversitesinden mezun. Ortalama olarak yaklaşık 5 yıllık ilgili deneyime sahipler. Bizim 2 saatlik görevimizi, "projeye zaten hâkim deneyimli bir uzman" yerine, "önceden neredeyse hiç bağlamsal bilgisi olmayan yeni bir çalışan ya da serbest çalışan bir yüklenici"nin 2 saat içinde tamamlayabileceği iş olarak anlamak daha doğrudur.

S. 2 saatlik zaman ufku, yapay zekanın insanın 2 saat içinde yapabileceği tüm zihinsel işleri yapabildiği anlamına mı geliyor?

Hayır. Görev dağılımımız esas olarak yazılım mühendisliği, makine öğrenimi ve siber güvenlik görevlerinden oluşuyor. Takip araştırmalarında, yapay zeka sistemlerinin zaman ufkunun farklı alanlarda nasıl değiştiğini inceledik; başka alanlarda da benzer üstel eğilimler bulduk, ancak mutlak zaman ufku değerleri farklı. Yapay zeka yetenekleri insanlara kıyasla "pürüzlü/jagged" bir yapıya sahip ve ekonomik değeri olan tüm görevlerin zaman ufkunun birçok büyüklük mertebesine yayılmasını bekliyoruz.

📊 Grafik yorumu

Ana grafik (görsel 1, 6)

GPT-2'den (2019) Claude Opus 4.6'ya (Şubat 2026) uzanan çizgiye bakıldığında, yapay zekanın zaman ufkunun neredeyse 0 dakikadan yaklaşık 14 saat 30 dakikaya patlayıcı biçimde büyüdüğü görülüyor. Özellikle 2024~2026 aralığında eğri keskin biçimde yukarı kırılıyor; bu da son 1~2 yıldaki yetenek artışının önceki birkaç yılı açık ara geride bıraktığını gösteriyor.

Çok alanlı grafik (görsel 5)

METR-HRS (yazılım), MATH, GPQA, Mock AIME, SWE-bench gibi çeşitli benchmark'larda zaman ufkunun üstel olarak arttığı görülüyor. Alanlara göre mutlak değerler farklı olsa da yükseliş trendinin kendisi ortak.

🔑 "14 saat 30 dakika" yorumu — temel soru

Fix complex bug in ML research codebase için Claude Opus 4.6'nın 14,5 saate ulaşmış olması ne anlama geliyor?

Burası en kolay yanlış anlaşılabilecek kısım. Tam olarak açıklamak gerekirse:

Yanlış anlama	Doğru yorum
"Claude Opus 4.6 14,5 saat çalıştı"	❌
"Claude Opus 4.6, zorluk seviyesi 14,5 saat olan bir görevde %50 olasılıkla başarılı oluyor"	✅

Yani 14 saat 30 dakika, yapay zekanın harcadığı süre değil; görevin insan ölçüsüne göre zorluğudur.

Daha somut anlatırsak:

METR, "ML araştırma kod tabanındaki karmaşık bir hatayı düzelt" görevini seçiyor
Bu görev birkaç yetkin insan uzmana verildiğinde ortalama yaklaşık 14 saat 30 dakika sürüyor
Aynı görev Claude Opus 4.6'ya tekrar tekrar verildiğinde yarı yarıya olasılıkla (%50) başarılı oluyor
Bu nedenle "Claude Opus 4.6'nın %50-zaman ufku = 14 saat 30 dakika" deniyor

Claude Opus 4.6'nın bu görevi gerçekte tamamlama süresi ise büyük olasılıkla insandan çok daha kısa olacaktır (SSS'ye göre yapay zeka genelde insandan birkaç kat hızlıdır).

💡 Çıkarımların özeti

METR'in zaman ufku verileri, yapay zeka ajanlarının otonom görev yürütme kapasitesinin üstel hızla genişlediğini nesnel biçimde ortaya koyuyor; Claude Opus 4.6'nın, yetkin insan uzman ölçüsüne göre 14 saati aşan karmaşık yazılım, makine öğrenimi ve siber güvenlik görevlerini %50 olasılıkla başarıyla tamamlayabilmesi ise yapay zekanın basit bir yardımcı araç olmanın ötesine geçerek uzmanlık gerektiren bilgi işlerinin önemli bir bölümünü fiilen ikame edebileceği veya otomatikleştirebileceği bir eşiğe ulaştığını düşündürüyor; bu eğilim sürerse yazılım geliştirme, güvenlik ve araştırma gibi yüksek beceri gerektiren bilgi endüstrilerinin tamamında insan emeğinin rolü ve değerinin köklü biçimde yeniden tanımlanmasının kaçınılmaz olduğuna güçlü biçimde işaret ediyor.

Şubat 2026'da güncellenen Opus 4.6'nın, insan uzman için 14,5 saatlik bir problemi
%50 olasılıkla başarıyla çözebileceği söyleniyor.

Bence bu olağanüstü bir grafik ve gelecekte giderek tüm işlerin yapay zeka tabanlı olarak otomatikleşip yürütüleceğini düşündürdüğü için paylaşmak istedim.