- ARC-AGI-3, AI ajanlarının insan seviyesinde zekasını ölçmek için geliştirilen ilk etkileşimli akıl yürütme benchmark’ı olup, ortam keşfi ve uyarlanabilir öğrenme yeteneklerini değerlendirir
- Tüm görevler insanların çözebileceği ortamlar olarak tasarlanmıştır ve zaman içinde beceri edinme verimliliği ile uzun vadeli planlama yeteneğini ölçer
- Önceden bilgi olmadan açık hedefler ve geri bildirim sunar; ezbere dayalı yaklaşımı engelleyen yenilikçi görev yapısını korur
- Replay görselleştirmesi, geliştirici araç takımı ve değerlendirme UI’ı ile ajanın davranışları ve akıl yürütme süreci şeffaf biçimde doğrulanabilir
- Açık oyun seti, dokümantasyon, SDK ve topluluk kanallarıyla ARC Prize 2026 yarışmasına katılımı ve ajan testlerini destekler
ARC-AGI-3 genel bakış
- ARC-AGI-3, AI ajanlarının insan seviyesindeki zekasını ölçmek için tasarlanmış etkileşimli bir akıl yürütme benchmark’ıdır
- Ajanın yeni ortamları keşfetme, hedefleri belirleme, uyarlanabilir bir dünya modeli kurma ve sürekli öğrenme yeteneklerini değerlendirir
- %100 puan, AI’ın tüm oyunları insanlar kadar verimli şekilde çözdüğü anlamına gelir
- Statik bulmaca çözümü yerine, ortam içindeki deneyimlerden öğrenip stratejisini ayarlaması gerekir
- Doğal dil talimatları olmadan algı, eylem seçimi ve strateji uyarlaması yapmalıdır
Temel özellikler
- Yeniden oynatılabilir çalıştırmalar (run), ajan entegrasyonu için geliştirici araç takımı ve şeffaf değerlendirme UI’ı içerir
-
Replay ve değerlendirme
- Ajanın davranışları replay biçiminde görselleştirilerek karar verme, eylem ve akıl yürütme süreci zaman sırasına göre izlenebilir
- Örnek replay sunulur
-
Araçlar ve UI
- ARC-AGI-3 araç takımıyla ajan entegre edilebilir ve etkileşimli UI ile test edilip tekrar tekrar çalıştırılabilir
- Play and test bağlantısı üzerinden doğrudan çalıştırılabilir
-
Dokümantasyon
- Ortam yapılandırması, API kullanım yöntemi ve entegrasyon rehberi dahil, ajan geliştirmek için gerekli dokümanlar sunulur
- Dokümantasyon sayfası üzerinden erişilebilir
İlgili kaynaklar ve topluluk
- Public Game Set: Açık oyun seti
- Docs + SDK: Geliştirici dokümantasyonu ve SDK
- ARC Prize 2026 Track: 2026 yarışma parkuru
- Technical Paper: Teknik rapor
- Katılımcılar farklı oyun ortamlarını (
ar25, bp35, ls20 vb.) seçerek kendi ajanlarını test edebilir
- Resmi topluluk kanalları olarak Discord, Twitter, YouTube ve GitHub işletilir
- ARC Prize 2026 üzerinden resmi yarışma ve güncelleme haberlerine abone olunabilir
1 yorum
Hacker News görüşleri
scaling01'in tweet'ine bakıldığında ARC-AGI-3'ün çeşitli değerlendirme yöntemi sorunlarına işaret edildiği görülüyor
İnsan referans noktası “ikinci en hızlı insan” olarak tanımlanmış ve puan basit başarı oranı yerine verimliliğin karesi üzerinden hesaplanıyor
Yani bir insanın 10 adımda çözdüğü bir problemi model 100 adımda çözerse yalnızca %1 puan alıyor
Ayrıca %100, yalnızca tüm seviyelerin çözülmüş olduğu anlamına geliyor; insan seviyesinde olunduğu anlamına gelmiyor
Bu tasarım, model insan seviyesinde olsa bile %100 alamayacağı şekilde kurulmuş
Prompt basit ve modelin insandan 5 kattan fazla adım kullanmasına izin verilmiyor
Son seviyelere daha fazla ağırlık verilmesinin nedeni de sürekli öğrenmeyi tespit etmekmiş
“Yapay zeka ile insan öğrenmesi arasında fark olduğu sürece bu AGI değildir” sözü, bana 90'lardaki Deep Blue döneminden bir benzetmeyi hatırlatıyor
“Bir uçak kuşlar gibi kanat çırpmıyor diye uçmuyor sayılmaz” denildiği gibi, insanlardan farklı şekilde öğrenmesi zekayı geçersiz kılmaz
ARC'nin yaklaşımının çok iyi bir AGI değerlendirme yöntemi olduğunu düşünüyorum
İnsan ve yapay zekaya aynı girdi verilip sonuçların karşılaştırıldığı basit bir yapı var
Buradaki kilit kelime “General” ve ARC tam olarak bu genelliği ölçmeye çalışıyor
Yapay zekanın yararlı olup olmaması ikincil bir mesele. Bu test şimdiye kadar en ikna edici girişimlerden biri
Ayrıca kendi uzmanlık alanınızdaki soruları yapay zekaya sorduğunuzda sık sık yanlış cevap verdiğini görebiliyorsunuz. Biz bilgi ile zekayı karıştırma eğilimindeyiz
Bu tür benchmark'ları görünce akla gelen soru, OpenAI'nin veri setini oluşturmak için insan çalıştırmasını engelleyecek bir mekanizma olup olmadığı
Birkaç seviyeyi kendim oynayınca benim kesinlikle AGI olmadığımı fark ettim
Biraz şüpheciyim
Oyunlara alışkın biri %100 geçer ama bilgisayarı ilk kez kullanan bir büyükanne tamamen başarısız olur. LLM'ler için de aynı durum geçerli
Sonunda bu tür oyun verileriyle eğitilmiş modeller kolayca uyum sağlayacaktır ve bu AGI değildir
YC launch etkinliğinde bu projeyi bizzat gördüm ve uzun zaman sonra ilk kez gerçekten ilham aldım
ARC2 üzerinde deney yapan birinin robot kolunu daha verimli hareket ettirmenin yolunu bulduğunu da duydum
Sadece puanı yükseltme süreci bile gerçek bir robotik inovasyona dönüşmüş oldu
ARC-4, 5, 6 da planlanıyor ve ileride sıfır bağlamda problem çözen modeller beklediklerini söylüyorlar
ARC-AGI'nin AGI ile doğrudan ilgili olup olmadığından emin değilim
Sonuçta sadece belirli bir oyun türünde LLM performansını ölçüyor
İnsanlar bu oyunda iyi ya da kötü olabilir ama bilgisayarların insanları ezici biçimde geçtiği birçok oyun zaten var
Bu yüzden asıl önemli olan, bu oyunların zekayı temsil edip etmediği
Bu oyunun insan test kullanıcılarından biriydim
90 dakika boyunca 25 oyun çözdüm ve yönergelerde hareket sayısını en aza indirmemiz isteniyordu, ama gerçekte hız ödülü ($5/oyun) olduğu için hızlı çözmeye odaklandım
Bu yüzden insan referans verisi gerçekte olduğundan daha fazla hareket sayısıyla kaydedilmiş olabilir
ARC-AGI lider tablosunda en hoşuma giden şey maliyet/performans grafiği
Son dönemde yapay zekadaki performans artışlarının çoğu elektrik tüketimindeki artışla birlikte geliyor. Sonuçta daha fazla elektrik harcarsanız daha iyi sonuç alabiliyorsunuz