ARC-AGI'de GPT-4 ile %50 doğruluğa ulaşmak
ARC-AGI nedir?
- ARC-AGI, yapay zekanın genel akıl yürütme yeteneğini değerlendirmek için oluşturulmuş bir veri kümesidir.
- Renkli hücrelerden oluşan ızgara (grid) biçimindeki girdi-çıktı örneklerine bakıp dönüşüm kuralını çıkarsama problemlerinden oluşur.
- İnsanların ortalama doğruluğu eğitim setinde %85 olsa da, test seti çok daha zordur.
Yöntemim
- GPT-4 kullanarak problem başına yaklaşık 8.000 Python programı ürettim ve doğru çıktıyı veren programı seçtim.
- Bazı ek yaklaşımlar ve ayarlamalarla performansı büyük ölçüde artırdım:
- Few-shot prompt'lar: Adım adım akıl yürütme yapan prompt'lar kullanıldı.
- Kod düzeltme: Örnek çıktı sonuçlarına bakarak GPT-4'ün uygulamanın bazı kısımlarını düzeltmesi sağlandı.
- Özellik mühendisliği: Modele daha iyi ızgara temsilleri verildi.
- Özelleştirilmiş prompt'lar: Izgara boyutunun değiştiği ve değişmediği durumlar için farklı prompt'lar kullanıldı.
Daha fazla örneklemenin etkisi
- Örnek sayısı arttıkça performans yükseliyor.
- Örneğin 1024 örnekle %25 doğruluğa ulaşıldı, ancak 2048 örnekle %34 doğruluğa ulaşıldı.
Daha iyi prompt'ların ve kod düzeltmenin etkisi
- Prompt iyileştirmeleri ve kod düzeltme aşaması, doğruluğu artırmada önemli.
- Son sürümde %50 doğruluğa ulaşıldı.
Sınırlamalar ve öngörüler
- GPT-4'ün görsel algılama yeteneği ve kodlama becerisi sınırlı.
- Daha fazla örnekleme ve daha iyi prompt'lar gerekiyor.
- Yeni nesil LLM'lerin ARC-AGI performansını önemli ölçüde artırma olasılığı yüksek.
GN⁺ görüşü
- Görsel algılama yeteneği: GPT-4'ün görsel algılama yeteneği sınırlı olduğundan, daha iyi görsel algılama modellerine ihtiyaç var.
- Kodlama becerisi: GPT-4 kod yazarken sık sık basit hatalar yapıyor. Bunu iyileştirmek için daha iyi hata ayıklama araçları gerekiyor.
- Örnekleme maliyeti: Çok sayıda örnekleme gerektiği için maliyet yüksek olabilir. Daha verimli örnekleme yöntemlerine ihtiyaç var.
- Gelecek potansiyeli: Yeni nesil LLM'lerin ARC-AGI performansını önemli ölçüde artırma olasılığı yüksek. Bu da yapay zekanın genel akıl yürütme yeteneğini değerlendirmede önemli bir ölçüt haline gelebilir.
- Gerçek uygulamalar: ARC-AGI benzeri problem çözme yeteneklerinin gerçek uygulama alanlarında nasıl kullanılabileceğine dair daha fazla araştırma gerekiyor.
1 yorum
Hacker News görüşleri
ARC Prize ortak kurucusu: Ryan'ın araştırması, GPT-4o kullanarak 8.000 Python programı üretip doğru programı seçerek bunu ek test girdilerine uygulayan, ilginç ve yeni bir "LLM akıl yürütme" çalışması. Sonuçlar kamuya açık değerlendirme setinden geliyor ve doğrulanmış değil, ancak umut verici. Ryan'ın çabaları için tebrik ve teşekkürlerini iletiyor.
Makaleye eleştiri: Makale, sonuca ulaşmak için çeşitli manuel hileler kullanılmış olmasına rağmen buradan "mevcut LLM'ler ARC-AGI'de oldukça iyi performans gösterebilir" sonucuna sıçrıyor. Francois Chollet'ye yönelik saldırılar topluluğa zarar veriyor.
GPT-4 hakkındaki görüş: GPT-4 kötü bir AGI, GPT-1 bile AGI'ydi. İnsan zekâsı da kademeli olarak geliştiği için GPT-4 de metinsel düşünmeye özelleşmiş küçük bir beyin olarak görülebilir. ARC'nin genel zekâ için mutlak ölçüt olduğunu iddia etmek, zekânın büyük resmini kaçırmak anlamına geliyor.
GPT-4'ün ilk denemeleri: GPT-4 bulmacalarda "fena olmayan" sonuçlar verdi, ancak mantıksal kısımlarda başarısız olduğu durumlar vardı. Görsel-mekânsal unsurlar önemli ve çok modlu bir model gerekebilir. Python çözümlerini rastgele üretmek "insan dışı" bir yaklaşım.
LLM manipülasyonunun anlamı: Birçok kişi, LLM'leri manipüle ederek AGI testini geçmenin AGI testinin amacını anlamsızlaştırdığını düşünüyor. Ancak hangi manipülasyonların işe yaradığını bulmak faydalı. Sorunların çoğu örüntü eşleştirmeye dayanıyor.
Ana noktalar:
ARC-AGI'nin kusurları: ARC-AGI kusurlu görünüyor. AGI ile açıklanabilecek şeyler, eğitim setinde bulunmalarıyla da açıklanabilir.
Sistem 2 ve AGI: Çok sayıda program üretip değerlendirmek, AGI'nin Sistem 2 rolünü üstlenebilir. Bu, insanların zekice düşünme biçimine benziyor.
Fiziksel kavrayışın önemi: Bu meydan okuma fiziksel kavrayışa, mekânsal farkındalığa ve nesne sınırlarına dayanıyor. Nesneleri tanımlamak ve dönüşümleri ya da ilişkileri eşlemek önemli. Program aramasını ve LLM'leri birleştirerek çözülebilir.
GPT-4'ün planlama yeteneği: GPT-4, makalede anlatılana benzer planlar üretebilir. Buna özellik çıkarımı, program sentezi ve yinelemeli iyileştirme dahil. Kodlama ve görsel girdiler konusunda zayıflıkları var.