- OpenAI'nin o3 sistemi, ARC-AGI-1 açık veri setinde yeni bir rekor kırdı
- Semi-Private Evaluation: yüksek verim modunda %75,7'ye ulaştı
- yüksek maliyetli modda (172 kat daha fazla hesaplama): %87,5 kaydetti
- GPT ailesi modellerinin sınırlarını aşan, yeni ve uyarlanabilir görev işleme yeteneğini gösteren önemli bir ilerleme
- GPT-3 (2020) %0 → GPT-4o (2024) %5 → o3 ile %75,7'ye kadar ilerleme
- ARC-AGI-1 sonuçları, yapay zeka yeteneklerindeki artışa dair yeni bir sezgi sunuyor
ARC Prize ve AGI araştırmasının geleceği
- ARC Prize, AGI araştırmaları için bir yön tayin edici olmayı hedefliyor
- 2025'te ARC-AGI-2'nin yayımlanması planlanıyor:
- insanlar için kolay ama yapay zeka için zor problemlerden oluşacak
- yeni, yüksek verimli, açık kaynak çözümler geliştirilmesi hedefleniyor
- o3'ün başarısı, yeni AGI benchmark tasarımlarına duyulan ihtiyacı vurguluyor
OpenAI o3'ün ARC-AGI test sonuçları
Test veri seti ve yöntem
- Semi-Private Eval: aşırı uyumu önlemek amacıyla kullanılan 100 gizli görev
- Public Eval: 400 açık görev
- Testler, iki farklı hesaplama ayarında gerçekleştirildi: yüksek verim (6 örnek) ve düşük verim (1024 örnek)
Başlıca sonuçlar (yüksek verim vs düşük verim)
- Semi-Private Eval:
- yüksek verim: %75,7 / 20$ maliyet / görev başına 1,3 dakika
- düşük verim: %87,5 / görev başına 13,8 dakika
- Public Eval:
- yüksek verim: %82,8 / 17$ maliyet
- düşük verim: %91,5
Verimlilik ve performans ilişkisi
- Yüksek verim puanı, ARC-AGI-Pub kriterlerinde (10.000$ altı) birinciliği aldı
- Düşük verim puanı, hesaplama miktarı arttıkça performansın iyileştiğini gösteriyor ancak maliyet yüksek
- o3'ün başarısı yalnızca hesaplama miktarını artırarak elde edilmiş değil. Temelde yapay zekanın uyum yeteneğinde bir gelişim söz konusu
AGI üzerine tartışma
ARC-AGI ve AGI arasındaki fark
- ARC-AGI, yapay zekanın genelleme yeteneğini değerlendiren bir araştırma aracı
- o3, ARC-AGI'de etkileyici bir performans gösterdi ancak AGI olarak görülmesi için hâlâ yetersiz
- kolay görevlerde başarısız olduğu durumlar var
- gelecekte ARC-AGI-2'de puanının %30'un altına düşme ihtimali bulunuyor
o3'ün başlıca farkı
- Mevcut GPT modellerine kıyasla yeni görevleri işleme ve uyum sağlama yeteneği gelişmiş durumda
- Doğal dil programı arama ve yürütme yaklaşımı getiriyor:
- test sırasında görevi çözmek için "düşünce sürecini (Chain of Thought)" araştırıyor
- Monte-Carlo ağaç aramasına benzer bir yaklaşım
- doğal dil talimatları üretip çalıştırarak programlama yapıyor
Mevcut GPT modelleriyle karşılaştırma
- Mevcut GPT modelleri "depolama → geri getirme → uygulama" biçiminde çalışıyor
- Yeni görevlere uyum eksikliği temel sınırlarından biriydi
- o3, mevcut yetenekleri yeniden birleştirerek yeni görevlere uyum sağlayabiliyor
Gelecek araştırma yönü
o3'ün açık kaynak analizi
- ARC Prize, yüksek verimli açık kaynak çözümler geliştirmeyi hedefliyor
- o3 test verileri ve çözülemeyen görevler paylaşılacak:
- topluluk, çözülememiş görevlerin özelliklerini analiz etmeye davet ediliyor
- Discord kanalı ve GitHub üzerinden tartışma yürütülebilir
Yeni nesil benchmark
- ARC-AGI-2 geliştiriliyor:
- 2025'in 1. çeyreğinin sonlarında yayımlanması planlanıyor
- mevcut ARC-AGI formatından ayrılan tamamen yeni bir tasarım olacak
- ARC Prize vakfı, AGI araştırmaları için yeni benchmark'lar geliştirmeyi sürdürmeyi planlıyor
Sonuç
- OpenAI o3, GPT ailesinin sınırlarını aşan yapay zeka uyum yeteneğini kanıtlayan çığır açıcı bir başarı
- LLM odaklı doğal dil programı aramasının devreye alınmasıyla yeni bir alanın kapısı aralandı
- Bundan sonra verimlilik ve performans arasındaki dengeyi kuran araştırmalar ile açık kaynaklaşma üzerinden işbirliği gerekli
1 yorum
Hacker News görüşleri
Verimlilik önem kazanıyor.
ARC-AGI-TUNEDteriminin kullanılması, çok fazla hesaplama kaynağı kullanıldığına işaret ediyor. İnsanların ARC-AGI bulmacalarını çözme maliyetiyle karşılaştırıldığında, mevcut hesaplama gücüyle insan düzeyi muhakemenin maliyeti hâlâ oldukça yüksek.Doğal dil kalıplarını çözümlemek bulmacalardan daha karmaşık. Yapay zeka bulmaca çözmek için eğitildiğinde, dış ortama yönelik eğitim verisi üretmek zorlaşıyor. Blok desenlerinin yanıtını çok az ek eğitimle çıkarabilmesi etkileyici.
o3-mini'nin programlama görevi o kadar da zor değildi. Claude 3.5 Sonnet'e aynı görev verildiğinde, ilk denemede başardı.
Francois Chollet'nin ARC'si oldukça ilginç ve zorlayıcı bir LLM benchmark'ı. Birçok kişi ARC'nin gerçek muhakemeyi temsil etmediğini eleştirdi, ancak ARC'nin ölçtüğü şeyin muhakeme için önemli olduğunu gösteriyor.
İnsan performansı %85, o3 high ise %87,5. Bu, insan düzeyi performansa ulaşabilen algoritmalar olduğunu gösteriyor. İnsanların AGI'nin yaklaştığını hissetmesinin nedenini açıklıyor.
o3, AGI'nin özsel bazı yönlerini içeriyor. ARC problemlerini çözmek, birden fazla temel bilgiyi kullanmayı ve uygun soyutlama düzeyini seçmeyi gerektiriyor.
o3 modelini çalıştırmanın maliyeti çok yüksek. Yine de ulusal ölçekte, ekonomik olmasa bile önemli bir ilerleme olabilir. İnsan benzeri zekaya sahip yapay zeka talep üzerine sunulabilirse, etkisi beklenenden daha hızlı ortaya çıkabilir.
ARC-AGI, AGI'ye ulaşıldığı anlamına gelmiyor. o3 hâlâ kolay görevlerde başarısız olabiliyor. ARC-AGI-2 benchmark'ı o3 için hâlâ zorlayıcı olacaktır.
ARC ya da herhangi bir benchmark, gerçek genel zekâyla karıştırılmamalı. Genel zekâ muhtemelen ancak önemli bir geriye dönük bakış avantajıyla tanımlanabilecek.