ARC-AGI-3 - İlk Etkileşimli Akıl Yürütme Benchmark’ı

(arcprize.org)

1 puan yazan GN⁺ 2026-03-27 | 1 yorum | WhatsApp'ta paylaş

ARC-AGI-3, AI ajanlarının insan seviyesinde zekasını ölçmek için geliştirilen ilk etkileşimli akıl yürütme benchmark’ı olup, ortam keşfi ve uyarlanabilir öğrenme yeteneklerini değerlendirir
Tüm görevler insanların çözebileceği ortamlar olarak tasarlanmıştır ve zaman içinde beceri edinme verimliliği ile uzun vadeli planlama yeteneğini ölçer
Önceden bilgi olmadan açık hedefler ve geri bildirim sunar; ezbere dayalı yaklaşımı engelleyen yenilikçi görev yapısını korur
Replay görselleştirmesi, geliştirici araç takımı ve değerlendirme UI’ı ile ajanın davranışları ve akıl yürütme süreci şeffaf biçimde doğrulanabilir
Açık oyun seti, dokümantasyon, SDK ve topluluk kanallarıyla ARC Prize 2026 yarışmasına katılımı ve ajan testlerini destekler

ARC-AGI-3 genel bakış

ARC-AGI-3, AI ajanlarının insan seviyesindeki zekasını ölçmek için tasarlanmış etkileşimli bir akıl yürütme benchmark’ıdır
- Ajanın yeni ortamları keşfetme, hedefleri belirleme, uyarlanabilir bir dünya modeli kurma ve sürekli öğrenme yeteneklerini değerlendirir
- %100 puan, AI’ın tüm oyunları insanlar kadar verimli şekilde çözdüğü anlamına gelir
- Statik bulmaca çözümü yerine, ortam içindeki deneyimlerden öğrenip stratejisini ayarlaması gerekir
- Doğal dil talimatları olmadan algı, eylem seçimi ve strateji uyarlaması yapmalıdır

Temel özellikler

Yeniden oynatılabilir çalıştırmalar (run), ajan entegrasyonu için geliştirici araç takımı ve şeffaf değerlendirme UI’ı içerir
Replay ve değerlendirme
- Ajanın davranışları replay biçiminde görselleştirilerek karar verme, eylem ve akıl yürütme süreci zaman sırasına göre izlenebilir
- Örnek replay sunulur
Araçlar ve UI
- ARC-AGI-3 araç takımıyla ajan entegre edilebilir ve etkileşimli UI ile test edilip tekrar tekrar çalıştırılabilir
- Play and test bağlantısı üzerinden doğrudan çalıştırılabilir
Dokümantasyon
- Ortam yapılandırması, API kullanım yöntemi ve entegrasyon rehberi dahil, ajan geliştirmek için gerekli dokümanlar sunulur
- Dokümantasyon sayfası üzerinden erişilebilir

İlgili kaynaklar ve topluluk

Public Game Set: Açık oyun seti
Docs + SDK: Geliştirici dokümantasyonu ve SDK
ARC Prize 2026 Track: 2026 yarışma parkuru
Technical Paper: Teknik rapor
Katılımcılar farklı oyun ortamlarını (ar25, bp35, ls20 vb.) seçerek kendi ajanlarını test edebilir
Resmi topluluk kanalları olarak Discord, Twitter, YouTube ve GitHub işletilir
ARC Prize 2026 üzerinden resmi yarışma ve güncelleme haberlerine abone olunabilir

1 yorum

GN⁺ 2026-03-27

Hacker News görüşleri

scaling01'in tweet'ine bakıldığında ARC-AGI-3'ün çeşitli değerlendirme yöntemi sorunlarına işaret edildiği görülüyor
İnsan referans noktası “ikinci en hızlı insan” olarak tanımlanmış ve puan basit başarı oranı yerine verimliliğin karesi üzerinden hesaplanıyor
Yani bir insanın 10 adımda çözdüğü bir problemi model 100 adımda çözerse yalnızca %1 puan alıyor
Ayrıca %100, yalnızca tüm seviyelerin çözülmüş olduğu anlamına geliyor; insan seviyesinde olunduğu anlamına gelmiyor
Bu tasarım, model insan seviyesinde olsa bile %100 alamayacağı şekilde kurulmuş
Prompt basit ve modelin insandan 5 kattan fazla adım kullanmasına izin verilmiyor
Son seviyelere daha fazla ağırlık verilmesinin nedeni de sürekli öğrenmeyi tespit etmekmiş
- Bunlar sorun gibi görünmekten çok, aksine doğru yaklaşım gibi hissettiriyor. ARC-AGI hakkındaki izlenimim aksine daha olumlu oldu
- Prompt'un basit olması Kaggle yarışmasında çözülecek bir konu. En yeni LLM'ler bağlanırsa GPU kısıtı olan katılımcılardan çok daha iyi sonuç verecektir
- İnsan referansının tanımı zaten kaçınılmaz olarak keyfi olabilir. Sonuçta “ortalama insan” ya okuma yazma bilmeyen ya da çoktan ölmüş biridir
- Aslında bu tasarım makul. Çoğu insandan iyi olup üst %80'e girmek kolay, %95'in üstüne çıkmak bile yeterli motivasyon varsa mümkün
- Hatta bu yaklaşım LLM'ler için çok daha zor bir test oluşturuyor, bu yüzden mevcut puanlar daha da etkileyici görünüyor
“Yapay zeka ile insan öğrenmesi arasında fark olduğu sürece bu AGI değildir” sözü, bana 90'lardaki Deep Blue döneminden bir benzetmeyi hatırlatıyor
“Bir uçak kuşlar gibi kanat çırpmıyor diye uçmuyor sayılmaz” denildiği gibi, insanlardan farklı şekilde öğrenmesi zekayı geçersiz kılmaz
- Bu fark sadece felsefi bir mesele değil, ekonomik etkiler meselesi. Fark sıfıra inerse insan bilgi emeği tamamen ikame edilir. Hatta tam AGI olmasa bile ekonomi çökebilir
- Dijkstra'nın yazısını(EWD867) hatırlatıyor. “Bilgisayarlar düşünebilir mi?” sorusu, “Denizaltılar yüzebilir mi?” kadar anlamsızdır benzetmesi yapılıyor
- AGI'deki “G”, General anlamına geliyor ama insanlar da genel değil. Uçaklar kuşlardan daha çok yönlü değil ama hareket kabiliyetini genişletiyor
- Bana göre AGI tartışması zaten kapanmış bir konu. Bugünkü araçlar bile yeterince yararlı ve ASI'nin (kendini geliştiren zeka) belirtileri de şimdiden görülüyor. ARC-AGI yarışması sadece mevcut durumu ölçen ilginç bir deney
- Zeka yalnızca insan biçiminde olmak zorunda değil. Önemli olan çıktının faydası. Ancak bilinç meselesi ahlaki bir sorun ve kanıtlanamayacağı için, şimdilik bilinç varmış gibi varsayılması gerektiğini savunan bir görüş de var
ARC'nin yaklaşımının çok iyi bir AGI değerlendirme yöntemi olduğunu düşünüyorum
İnsan ve yapay zekaya aynı girdi verilip sonuçların karşılaştırıldığı basit bir yapı var
Buradaki kilit kelime “General” ve ARC tam olarak bu genelliği ölçmeye çalışıyor
Yapay zekanın yararlı olup olmaması ikincil bir mesele. Bu test şimdiye kadar en ikna edici girişimlerden biri
Ayrıca kendi uzmanlık alanınızdaki soruları yapay zekaya sorduğunuzda sık sık yanlış cevap verdiğini görebiliyorsunuz. Biz bilgi ile zekayı karıştırma eğilimindeyiz
- “General” ifadesinin yanlış olduğunu düşünüyorum. İnsanlar da genel değil, inişli çıkışlı yeteneklere sahip. Dil konusunda LLM'ler zaten insanları geçti
- Bu test görsel algı gerektiren bir oyun olduğu için, kör birine ehliyet sınavı yaptırmaya benziyor. Oyun metne çevrilirse LLM'ler insanlardan daha iyi olabilir
- Önceki ARC-AGI daha çok IQ testine benziyordu ama bu sürüm fazla kolay. LLM'lerin çözememesi muhtemelen giriş formatı uyumsuzluğundan kaynaklanıyor. Yalnızca metin tabanlı oyun eğitimiyle bile yakında aşılabilir gibi görünüyor
Bu tür benchmark'ları görünce akla gelen soru, OpenAI'nin veri setini oluşturmak için insan çalıştırmasını engelleyecek bir mekanizma olup olmadığı
- Asıl soru bu değil, “model genelleme yapabiliyor mu?” sorusu. ARC-AGI sanki görsel uzun bağlam problem çözme ve ajanlık değerlendirmesi için tasarlanmış
Birkaç seviyeyi kendim oynayınca benim kesinlikle AGI olmadığımı fark ettim
- Buna NGI, yani Natural General Intelligence demek gerek sanırım
- Ama yapay zeka tüm internete erişebiliyor, zaman sınırı yok ve sayısız yanlış cevap göndermesi utanılacak bir şey değil. Bu koşullar insan sınavlarından tamamen farklı
- “AGI çıtasını düşürdüğünüz için teşekkürler” diye de şaka yapılıyor
Biraz şüpheciyim
Oyunlara alışkın biri %100 geçer ama bilgisayarı ilk kez kullanan bir büyükanne tamamen başarısız olur. LLM'ler için de aynı durum geçerli
Sonunda bu tür oyun verileriyle eğitilmiş modeller kolayca uyum sağlayacaktır ve bu AGI değildir
- Ama insanlar da öğrenerek oyunlarda iyi hale geldiği için, çevrimiçi öğrenme serbest bırakılmadıkça bu test insan benzeri öğrenmeyi yansıtamaz
- Ben de 40 yıllık bir oyuncu olarak bu bulmacaları çok kolay buldum. Kuralı kavrayınca hemen çözülüyor. Bu tür sorular benim uzmanlık alanım
YC launch etkinliğinde bu projeyi bizzat gördüm ve uzun zaman sonra ilk kez gerçekten ilham aldım
ARC2 üzerinde deney yapan birinin robot kolunu daha verimli hareket ettirmenin yolunu bulduğunu da duydum
Sadece puanı yükseltme süreci bile gerçek bir robotik inovasyona dönüşmüş oldu
ARC-4, 5, 6 da planlanıyor ve ileride sıfır bağlamda problem çözen modeller beklediklerini söylüyorlar
- Ama bu tür bir genişleme sonuçta hedef direklerini sürekli taşımak gibi de görünebilir
ARC-AGI'nin AGI ile doğrudan ilgili olup olmadığından emin değilim
Sonuçta sadece belirli bir oyun türünde LLM performansını ölçüyor
İnsanlar bu oyunda iyi ya da kötü olabilir ama bilgisayarların insanları ezici biçimde geçtiği birçok oyun zaten var
Bu yüzden asıl önemli olan, bu oyunların zekayı temsil edip etmediği
- ARC-AGI'nin kurucusu Chollet, zekayı “ilk kez görülen bir durumda ne kadar iyi çalıştığı” şeklinde tanımlıyor. ARC-AGI tam da bu yeteneği ölçüyor
- Ama “AGI” daha çok bir pazarlama terimi ve bu tür benchmark'lar gerçek iş verimliliğinden çok tanıtıma hizmet ediyor
Bu oyunun insan test kullanıcılarından biriydim
90 dakika boyunca 25 oyun çözdüm ve yönergelerde hareket sayısını en aza indirmemiz isteniyordu, ama gerçekte hız ödülü ($5/oyun) olduğu için hızlı çözmeye odaklandım
Bu yüzden insan referans verisi gerçekte olduğundan daha fazla hareket sayısıyla kaydedilmiş olabilir
ARC-AGI lider tablosunda en hoşuma giden şey maliyet/performans grafiği
Son dönemde yapay zekadaki performans artışlarının çoğu elektrik tüketimindeki artışla birlikte geliyor. Sonuçta daha fazla elektrik harcarsanız daha iyi sonuç alabiliyorsunuz

ARC-AGI-3 - İlk Etkileşimli Akıl Yürütme Benchmark’ı

ARC-AGI-3 genel bakış

Temel özellikler

Replay ve değerlendirme

Araçlar ve UI

Dokümantasyon

İlgili kaynaklar ve topluluk

İlgili okumalar

1 yorum

Hacker News görüşleri