1 puan yazan GN⁺ 2026-03-27 | 1 yorum | WhatsApp'ta paylaş
  • ARC-AGI-3, AI ajanlarının insan seviyesinde zekasını ölçmek için geliştirilen ilk etkileşimli akıl yürütme benchmark’ı olup, ortam keşfi ve uyarlanabilir öğrenme yeteneklerini değerlendirir
  • Tüm görevler insanların çözebileceği ortamlar olarak tasarlanmıştır ve zaman içinde beceri edinme verimliliği ile uzun vadeli planlama yeteneğini ölçer
  • Önceden bilgi olmadan açık hedefler ve geri bildirim sunar; ezbere dayalı yaklaşımı engelleyen yenilikçi görev yapısını korur
  • Replay görselleştirmesi, geliştirici araç takımı ve değerlendirme UI’ı ile ajanın davranışları ve akıl yürütme süreci şeffaf biçimde doğrulanabilir
  • Açık oyun seti, dokümantasyon, SDK ve topluluk kanallarıyla ARC Prize 2026 yarışmasına katılımı ve ajan testlerini destekler

ARC-AGI-3 genel bakış

  • ARC-AGI-3, AI ajanlarının insan seviyesindeki zekasını ölçmek için tasarlanmış etkileşimli bir akıl yürütme benchmark’ıdır
    • Ajanın yeni ortamları keşfetme, hedefleri belirleme, uyarlanabilir bir dünya modeli kurma ve sürekli öğrenme yeteneklerini değerlendirir
    • %100 puan, AI’ın tüm oyunları insanlar kadar verimli şekilde çözdüğü anlamına gelir
    • Statik bulmaca çözümü yerine, ortam içindeki deneyimlerden öğrenip stratejisini ayarlaması gerekir
    • Doğal dil talimatları olmadan algı, eylem seçimi ve strateji uyarlaması yapmalıdır

Temel özellikler

  • Yeniden oynatılabilir çalıştırmalar (run), ajan entegrasyonu için geliştirici araç takımı ve şeffaf değerlendirme UI’ı içerir
  • Replay ve değerlendirme

    • Ajanın davranışları replay biçiminde görselleştirilerek karar verme, eylem ve akıl yürütme süreci zaman sırasına göre izlenebilir
    • Örnek replay sunulur
  • Araçlar ve UI

    • ARC-AGI-3 araç takımıyla ajan entegre edilebilir ve etkileşimli UI ile test edilip tekrar tekrar çalıştırılabilir
    • Play and test bağlantısı üzerinden doğrudan çalıştırılabilir
  • Dokümantasyon

    • Ortam yapılandırması, API kullanım yöntemi ve entegrasyon rehberi dahil, ajan geliştirmek için gerekli dokümanlar sunulur
    • Dokümantasyon sayfası üzerinden erişilebilir

İlgili kaynaklar ve topluluk

  • Public Game Set: Açık oyun seti
  • Docs + SDK: Geliştirici dokümantasyonu ve SDK
  • ARC Prize 2026 Track: 2026 yarışma parkuru
  • Technical Paper: Teknik rapor
  • Katılımcılar farklı oyun ortamlarını (ar25, bp35, ls20 vb.) seçerek kendi ajanlarını test edebilir
  • Resmi topluluk kanalları olarak Discord, Twitter, YouTube ve GitHub işletilir
  • ARC Prize 2026 üzerinden resmi yarışma ve güncelleme haberlerine abone olunabilir

1 yorum

 
GN⁺ 2026-03-27
Hacker News görüşleri
  • scaling01'in tweet'ine bakıldığında ARC-AGI-3'ün çeşitli değerlendirme yöntemi sorunlarına işaret edildiği görülüyor
    İnsan referans noktası “ikinci en hızlı insan” olarak tanımlanmış ve puan basit başarı oranı yerine verimliliğin karesi üzerinden hesaplanıyor
    Yani bir insanın 10 adımda çözdüğü bir problemi model 100 adımda çözerse yalnızca %1 puan alıyor
    Ayrıca %100, yalnızca tüm seviyelerin çözülmüş olduğu anlamına geliyor; insan seviyesinde olunduğu anlamına gelmiyor
    Bu tasarım, model insan seviyesinde olsa bile %100 alamayacağı şekilde kurulmuş
    Prompt basit ve modelin insandan 5 kattan fazla adım kullanmasına izin verilmiyor
    Son seviyelere daha fazla ağırlık verilmesinin nedeni de sürekli öğrenmeyi tespit etmekmiş

    • Bunlar sorun gibi görünmekten çok, aksine doğru yaklaşım gibi hissettiriyor. ARC-AGI hakkındaki izlenimim aksine daha olumlu oldu
    • Prompt'un basit olması Kaggle yarışmasında çözülecek bir konu. En yeni LLM'ler bağlanırsa GPU kısıtı olan katılımcılardan çok daha iyi sonuç verecektir
    • İnsan referansının tanımı zaten kaçınılmaz olarak keyfi olabilir. Sonuçta “ortalama insan” ya okuma yazma bilmeyen ya da çoktan ölmüş biridir
    • Aslında bu tasarım makul. Çoğu insandan iyi olup üst %80'e girmek kolay, %95'in üstüne çıkmak bile yeterli motivasyon varsa mümkün
    • Hatta bu yaklaşım LLM'ler için çok daha zor bir test oluşturuyor, bu yüzden mevcut puanlar daha da etkileyici görünüyor
  • “Yapay zeka ile insan öğrenmesi arasında fark olduğu sürece bu AGI değildir” sözü, bana 90'lardaki Deep Blue döneminden bir benzetmeyi hatırlatıyor
    “Bir uçak kuşlar gibi kanat çırpmıyor diye uçmuyor sayılmaz” denildiği gibi, insanlardan farklı şekilde öğrenmesi zekayı geçersiz kılmaz

    • Bu fark sadece felsefi bir mesele değil, ekonomik etkiler meselesi. Fark sıfıra inerse insan bilgi emeği tamamen ikame edilir. Hatta tam AGI olmasa bile ekonomi çökebilir
    • Dijkstra'nın yazısını(EWD867) hatırlatıyor. “Bilgisayarlar düşünebilir mi?” sorusu, “Denizaltılar yüzebilir mi?” kadar anlamsızdır benzetmesi yapılıyor
    • AGI'deki “G”, General anlamına geliyor ama insanlar da genel değil. Uçaklar kuşlardan daha çok yönlü değil ama hareket kabiliyetini genişletiyor
    • Bana göre AGI tartışması zaten kapanmış bir konu. Bugünkü araçlar bile yeterince yararlı ve ASI'nin (kendini geliştiren zeka) belirtileri de şimdiden görülüyor. ARC-AGI yarışması sadece mevcut durumu ölçen ilginç bir deney
    • Zeka yalnızca insan biçiminde olmak zorunda değil. Önemli olan çıktının faydası. Ancak bilinç meselesi ahlaki bir sorun ve kanıtlanamayacağı için, şimdilik bilinç varmış gibi varsayılması gerektiğini savunan bir görüş de var
  • ARC'nin yaklaşımının çok iyi bir AGI değerlendirme yöntemi olduğunu düşünüyorum
    İnsan ve yapay zekaya aynı girdi verilip sonuçların karşılaştırıldığı basit bir yapı var
    Buradaki kilit kelime “General” ve ARC tam olarak bu genelliği ölçmeye çalışıyor
    Yapay zekanın yararlı olup olmaması ikincil bir mesele. Bu test şimdiye kadar en ikna edici girişimlerden biri
    Ayrıca kendi uzmanlık alanınızdaki soruları yapay zekaya sorduğunuzda sık sık yanlış cevap verdiğini görebiliyorsunuz. Biz bilgi ile zekayı karıştırma eğilimindeyiz

    • “General” ifadesinin yanlış olduğunu düşünüyorum. İnsanlar da genel değil, inişli çıkışlı yeteneklere sahip. Dil konusunda LLM'ler zaten insanları geçti
    • Bu test görsel algı gerektiren bir oyun olduğu için, kör birine ehliyet sınavı yaptırmaya benziyor. Oyun metne çevrilirse LLM'ler insanlardan daha iyi olabilir
    • Önceki ARC-AGI daha çok IQ testine benziyordu ama bu sürüm fazla kolay. LLM'lerin çözememesi muhtemelen giriş formatı uyumsuzluğundan kaynaklanıyor. Yalnızca metin tabanlı oyun eğitimiyle bile yakında aşılabilir gibi görünüyor
  • Bu tür benchmark'ları görünce akla gelen soru, OpenAI'nin veri setini oluşturmak için insan çalıştırmasını engelleyecek bir mekanizma olup olmadığı

    • Asıl soru bu değil, “model genelleme yapabiliyor mu?” sorusu. ARC-AGI sanki görsel uzun bağlam problem çözme ve ajanlık değerlendirmesi için tasarlanmış
  • Birkaç seviyeyi kendim oynayınca benim kesinlikle AGI olmadığımı fark ettim

    • Buna NGI, yani Natural General Intelligence demek gerek sanırım
    • Ama yapay zeka tüm internete erişebiliyor, zaman sınırı yok ve sayısız yanlış cevap göndermesi utanılacak bir şey değil. Bu koşullar insan sınavlarından tamamen farklı
    • “AGI çıtasını düşürdüğünüz için teşekkürler” diye de şaka yapılıyor
  • Biraz şüpheciyim
    Oyunlara alışkın biri %100 geçer ama bilgisayarı ilk kez kullanan bir büyükanne tamamen başarısız olur. LLM'ler için de aynı durum geçerli
    Sonunda bu tür oyun verileriyle eğitilmiş modeller kolayca uyum sağlayacaktır ve bu AGI değildir

    • Ama insanlar da öğrenerek oyunlarda iyi hale geldiği için, çevrimiçi öğrenme serbest bırakılmadıkça bu test insan benzeri öğrenmeyi yansıtamaz
    • Ben de 40 yıllık bir oyuncu olarak bu bulmacaları çok kolay buldum. Kuralı kavrayınca hemen çözülüyor. Bu tür sorular benim uzmanlık alanım
  • YC launch etkinliğinde bu projeyi bizzat gördüm ve uzun zaman sonra ilk kez gerçekten ilham aldım
    ARC2 üzerinde deney yapan birinin robot kolunu daha verimli hareket ettirmenin yolunu bulduğunu da duydum
    Sadece puanı yükseltme süreci bile gerçek bir robotik inovasyona dönüşmüş oldu
    ARC-4, 5, 6 da planlanıyor ve ileride sıfır bağlamda problem çözen modeller beklediklerini söylüyorlar

    • Ama bu tür bir genişleme sonuçta hedef direklerini sürekli taşımak gibi de görünebilir
  • ARC-AGI'nin AGI ile doğrudan ilgili olup olmadığından emin değilim
    Sonuçta sadece belirli bir oyun türünde LLM performansını ölçüyor
    İnsanlar bu oyunda iyi ya da kötü olabilir ama bilgisayarların insanları ezici biçimde geçtiği birçok oyun zaten var
    Bu yüzden asıl önemli olan, bu oyunların zekayı temsil edip etmediği

    • ARC-AGI'nin kurucusu Chollet, zekayı “ilk kez görülen bir durumda ne kadar iyi çalıştığı” şeklinde tanımlıyor. ARC-AGI tam da bu yeteneği ölçüyor
    • Ama “AGI” daha çok bir pazarlama terimi ve bu tür benchmark'lar gerçek iş verimliliğinden çok tanıtıma hizmet ediyor
  • Bu oyunun insan test kullanıcılarından biriydim
    90 dakika boyunca 25 oyun çözdüm ve yönergelerde hareket sayısını en aza indirmemiz isteniyordu, ama gerçekte hız ödülü ($5/oyun) olduğu için hızlı çözmeye odaklandım
    Bu yüzden insan referans verisi gerçekte olduğundan daha fazla hareket sayısıyla kaydedilmiş olabilir

  • ARC-AGI lider tablosunda en hoşuma giden şey maliyet/performans grafiği
    Son dönemde yapay zekadaki performans artışlarının çoğu elektrik tüketimindeki artışla birlikte geliyor. Sonuçta daha fazla elektrik harcarsanız daha iyi sonuç alabiliyorsunuz