OpenAI o3, ARC-AGI-PUB'da çığır açan derecede yüksek puana ulaştı

(arcprize.org)

3 puan yazan GN⁺ 2024-12-21 | 1 yorum | WhatsApp'ta paylaş

OpenAI'nin o3 sistemi, ARC-AGI-1 açık veri setinde yeni bir rekor kırdı
- Semi-Private Evaluation: yüksek verim modunda %75,7'ye ulaştı
- yüksek maliyetli modda (172 kat daha fazla hesaplama): %87,5 kaydetti
GPT ailesi modellerinin sınırlarını aşan, yeni ve uyarlanabilir görev işleme yeteneğini gösteren önemli bir ilerleme
GPT-3 (2020) %0 → GPT-4o (2024) %5 → o3 ile %75,7'ye kadar ilerleme
ARC-AGI-1 sonuçları, yapay zeka yeteneklerindeki artışa dair yeni bir sezgi sunuyor

ARC Prize ve AGI araştırmasının geleceği

ARC Prize, AGI araştırmaları için bir yön tayin edici olmayı hedefliyor
2025'te ARC-AGI-2'nin yayımlanması planlanıyor:
- insanlar için kolay ama yapay zeka için zor problemlerden oluşacak
- yeni, yüksek verimli, açık kaynak çözümler geliştirilmesi hedefleniyor
o3'ün başarısı, yeni AGI benchmark tasarımlarına duyulan ihtiyacı vurguluyor

OpenAI o3'ün ARC-AGI test sonuçları

Test veri seti ve yöntem

Semi-Private Eval: aşırı uyumu önlemek amacıyla kullanılan 100 gizli görev
Public Eval: 400 açık görev
Testler, iki farklı hesaplama ayarında gerçekleştirildi: yüksek verim (6 örnek) ve düşük verim (1024 örnek)

Başlıca sonuçlar (yüksek verim vs düşük verim)

Semi-Private Eval:
- yüksek verim: %75,7 / 20$ maliyet / görev başına 1,3 dakika
- düşük verim: %87,5 / görev başına 13,8 dakika
Public Eval:
- yüksek verim: %82,8 / 17$ maliyet
- düşük verim: %91,5

Verimlilik ve performans ilişkisi

Yüksek verim puanı, ARC-AGI-Pub kriterlerinde (10.000$ altı) birinciliği aldı
Düşük verim puanı, hesaplama miktarı arttıkça performansın iyileştiğini gösteriyor ancak maliyet yüksek
o3'ün başarısı yalnızca hesaplama miktarını artırarak elde edilmiş değil. Temelde yapay zekanın uyum yeteneğinde bir gelişim söz konusu

AGI üzerine tartışma

ARC-AGI ve AGI arasındaki fark

ARC-AGI, yapay zekanın genelleme yeteneğini değerlendiren bir araştırma aracı
o3, ARC-AGI'de etkileyici bir performans gösterdi ancak AGI olarak görülmesi için hâlâ yetersiz
- kolay görevlerde başarısız olduğu durumlar var
- gelecekte ARC-AGI-2'de puanının %30'un altına düşme ihtimali bulunuyor

o3'ün başlıca farkı

Mevcut GPT modellerine kıyasla yeni görevleri işleme ve uyum sağlama yeteneği gelişmiş durumda
Doğal dil programı arama ve yürütme yaklaşımı getiriyor:
- test sırasında görevi çözmek için "düşünce sürecini (Chain of Thought)" araştırıyor
- Monte-Carlo ağaç aramasına benzer bir yaklaşım
- doğal dil talimatları üretip çalıştırarak programlama yapıyor

Mevcut GPT modelleriyle karşılaştırma

Mevcut GPT modelleri "depolama → geri getirme → uygulama" biçiminde çalışıyor
Yeni görevlere uyum eksikliği temel sınırlarından biriydi
o3, mevcut yetenekleri yeniden birleştirerek yeni görevlere uyum sağlayabiliyor

Gelecek araştırma yönü

o3'ün açık kaynak analizi

ARC Prize, yüksek verimli açık kaynak çözümler geliştirmeyi hedefliyor
o3 test verileri ve çözülemeyen görevler paylaşılacak:
- topluluk, çözülememiş görevlerin özelliklerini analiz etmeye davet ediliyor
- Discord kanalı ve GitHub üzerinden tartışma yürütülebilir

Yeni nesil benchmark

ARC-AGI-2 geliştiriliyor:
- 2025'in 1. çeyreğinin sonlarında yayımlanması planlanıyor
- mevcut ARC-AGI formatından ayrılan tamamen yeni bir tasarım olacak
ARC Prize vakfı, AGI araştırmaları için yeni benchmark'lar geliştirmeyi sürdürmeyi planlıyor

Sonuç

OpenAI o3, GPT ailesinin sınırlarını aşan yapay zeka uyum yeteneğini kanıtlayan çığır açıcı bir başarı
LLM odaklı doğal dil programı aramasının devreye alınmasıyla yeni bir alanın kapısı aralandı
Bundan sonra verimlilik ve performans arasındaki dengeyi kuran araştırmalar ile açık kaynaklaşma üzerinden işbirliği gerekli

1 yorum

GN⁺ 2024-12-21

Hacker News görüşleri

Verimlilik önem kazanıyor. ARC-AGI-TUNED teriminin kullanılması, çok fazla hesaplama kaynağı kullanıldığına işaret ediyor. İnsanların ARC-AGI bulmacalarını çözme maliyetiyle karşılaştırıldığında, mevcut hesaplama gücüyle insan düzeyi muhakemenin maliyeti hâlâ oldukça yüksek.
Doğal dil kalıplarını çözümlemek bulmacalardan daha karmaşık. Yapay zeka bulmaca çözmek için eğitildiğinde, dış ortama yönelik eğitim verisi üretmek zorlaşıyor. Blok desenlerinin yanıtını çok az ek eğitimle çıkarabilmesi etkileyici.
o3-mini'nin programlama görevi o kadar da zor değildi. Claude 3.5 Sonnet'e aynı görev verildiğinde, ilk denemede başardı.
Francois Chollet'nin ARC'si oldukça ilginç ve zorlayıcı bir LLM benchmark'ı. Birçok kişi ARC'nin gerçek muhakemeyi temsil etmediğini eleştirdi, ancak ARC'nin ölçtüğü şeyin muhakeme için önemli olduğunu gösteriyor.
İnsan performansı %85, o3 high ise %87,5. Bu, insan düzeyi performansa ulaşabilen algoritmalar olduğunu gösteriyor. İnsanların AGI'nin yaklaştığını hissetmesinin nedenini açıklıyor.
o3, AGI'nin özsel bazı yönlerini içeriyor. ARC problemlerini çözmek, birden fazla temel bilgiyi kullanmayı ve uygun soyutlama düzeyini seçmeyi gerektiriyor.
o3 modelini çalıştırmanın maliyeti çok yüksek. Yine de ulusal ölçekte, ekonomik olmasa bile önemli bir ilerleme olabilir. İnsan benzeri zekaya sahip yapay zeka talep üzerine sunulabilirse, etkisi beklenenden daha hızlı ortaya çıkabilir.
ARC-AGI, AGI'ye ulaşıldığı anlamına gelmiyor. o3 hâlâ kolay görevlerde başarısız olabiliyor. ARC-AGI-2 benchmark'ı o3 için hâlâ zorlayıcı olacaktır.
ARC ya da herhangi bir benchmark, gerçek genel zekâyla karıştırılmamalı. Genel zekâ muhtemelen ancak önemli bir geriye dönük bakış avantajıyla tanımlanabilecek.

OpenAI o3, ARC-AGI-PUB'da çığır açan derecede yüksek puana ulaştı

ARC Prize ve AGI araştırmasının geleceği

OpenAI o3'ün ARC-AGI test sonuçları

Test veri seti ve yöntem

Başlıca sonuçlar (yüksek verim vs düşük verim)

Verimlilik ve performans ilişkisi

AGI üzerine tartışma

ARC-AGI ve AGI arasındaki fark

o3'ün başlıca farkı

Mevcut GPT modelleriyle karşılaştırma

Gelecek araştırma yönü

o3'ün açık kaynak analizi

Yeni nesil benchmark

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri