5 puan yazan GN⁺ 2025-01-30 | 1 yorum | WhatsApp'ta paylaş
  • ARC Prize Foundation, AGI’yi (genel yapay zeka) tanımlamayı, ölçmeyi ve yeni fikirleri teşvik etmeyi amaçlıyor
  • Henüz AGI’ye ulaşılmadı ve saf LLM (büyük dil modeli) ön eğitiminin ölçeklendirilmesi çözüm değil
  • 2023-24 boyunca LLM girişimlerine yaklaşık 20 milyar dolar yatırım yapılırken, AGI girişimlerine yalnızca yaklaşık 200 milyon dolar yatırım yapıldı

DeepSeek’in R1-Zero ve R1 analizi

  • DeepSeek’in duyurduğu R1-Zero ve R1 sistemleri, OpenAI’ın o1 sistemi seviyesine yakın sonuçlar göstermesiyle büyük ilgi topluyor
  • Hem R1-Zero hem de R1, ARC-AGI-1’de yaklaşık %15~20 puan aldı
  • Bu, GPT-4o’nun aldığı %5’e kıyasla çok daha yüksek bir skor
  • Son dönemde yapay zeka sektörünün ana akımı, LLM’lerin (büyük dil modelleri) basitçe ölçeklendirilmesine odaklandı; ancak bunun AGI’yi gerçekleştirmek için doğrudan bir çözüm olmadığı düşünülüyor
  • ARC Prize Foundation, ARC-AGI-1 adlı benchmark üzerinden, yeni problemler konusunda eğitim verilmemiş olsa bile uyum sağlayabilen yapay zeka sistemleri üzerine araştırmaları teşvik ediyor

R1-Zero, R1’den daha önemli

  • DeepSeek’in araştırma sonuçları R1-Zero ve R1’i ortaya çıkardı
  • R1-Zero, R1 ve OpenAI’ın o1(low compute) sistemi, ARC-AGI-1’de benzer şekilde %15~20 aralığında skorlar elde etti
  • OpenAI’ın 2024 sonlarında tanıttığı o3 sistemi ise ARC-AGI-1’de skoru %88’e kadar çıkararak yeni problemleri uyarlanabilir biçimde çözebildiğini gösterdi
  • Ancak o3’ün birçok yönü kapalı olduğu için araştırmacılar ayrıntılı teknikleri anlamakta zorlanıyor
  • R1-Zero’nun, R1’e kıyasla insan tarafından doğrudan etiketleme (SFT) sürecinden geçmemiş olması, ona gelecek açısından daha büyük bir değer kazandırıyor

R1-Zero insan darboğazını ortadan kaldırıyor

  • Mevcut akıl yürütme modelleri, problem çözme süreci (Chain-of-Thought, aşağıda CoT) için insan etiketlemesini (SFT) veya makine ödülünü (RL) birleştirerek eğitiliyor

  • R1-Zero, SFT olmadan, yani insan uzman etiketleri kullanılmadan, CoT’yi yalnızca pekiştirmeli öğrenme (RL) ile öğreniyor

  • ARC-AGI-1’de R1-Zero %14, R1 ise %15 alarak neredeyse aynı performansı gösterdi

  • MATH AIME 2024 gibi diğer benchmark’larda da R1-Zero ile R1’in sonuçları benzer görünüyor

  • Dil karışımı veya okunabilirlik sorunlarına dair endişeler vardı; ancak gerçek testlerde matematik ve kodlama alanlarında ciddi bir incoherence olmadan iyi çalıştığı görüldü

  • Buradan çıkan başlıca çıkarımlar şunlar

    • İnsan etiketlemesi olmadan da belirli alanlarda doğru ve anlaşılır akıl yürütme mümkün
    • R1-Zero, yalnızca pekiştirmeli öğrenmeyle kendi alana özgü token gösterimini (DSL) oluşturabiliyor
    • SFT, akıl yürütme kapsamını genişletmek için hâlâ gerekli olabilir
  • Nihayetinde R1-Zero, insan bağımlılığı olmadan kendi eğitim verisini üretebileceğini göstererek “insansız darboğaz” ölçeklenebilirliğine işaret ediyor

  • Aşağıda, ARC-AGI-1’de çeşitli sistemlerin aldığı skorlar, ortalama token sayıları ve çıkarım maliyetlerinin kısa bir özeti yer alıyor

    • r1-zero: %14, SFT yok, sıralı akıl yürütme araması yok, ortalama 11K token, maliyet yaklaşık $0.11
    • r1: %15.8, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 6K token, maliyet yaklaşık $0.06
    • o1(low): %20.5, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 7K token, maliyet yaklaşık $0.43
    • o1(med): %31, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 13K token, maliyet yaklaşık $0.79
    • o1(high): %35, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 22K token, maliyet yaklaşık $1.31
    • o3(low): %75.7, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 335K token, maliyet yaklaşık $20
    • o3(high): %87.5, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 57M token, maliyet yaklaşık $3,400

Güvenilirlik için maliyet

  • Bugünkü yapay zeka pazarında büyük değişimi tetikleyen ana akım, “daha fazla maliyetle doğruluk ve güvenilirliğin artırılabileceği” fikri
  • Dahası, ağırlık eğitim maliyetinden çıkarım maliyetine kayıyor
  • Çıkarım aşamasında çok fazla hesaplama kaynağı kullanıldığında daha doğru ve daha istikrarlı sonuçlar elde edilebiliyor
  • Şirketlerin çoğu, yapay zeka sistemlerinin güvenilirlik sorunları nedeniyle büyük ölçekli otomasyonu devreye alamadı
  • ARC-AGI alanındaki ilerlemenin yapay zeka ajanlarının güvenilirliğini artıracağı öngörülüyor; Anthropic, OpenAI ve Apple gibi şirketler de ajan tabanlı hizmetler hazırlıyor
  • Kullanıcılar, ihtiyaç duydukları doğruluk seviyesini elde etmek için daha fazla ödeme yapmaya istekli olma eğilimi gösterecek
  • Bu nedenle yapay zeka çıkarım talebinin çok daha fazla artması ve bunun da hesaplama kaynağı talebini yükseltmesi bekleniyor

Akıl yürütme artık öğrenme demek

  • Eskiden büyük ölçekli veriler toplanıyor ya da mevcut LLM’lerden sentetik veri üretilip eğitimde kullanılıyordu
  • Artık çıkarım sürecinde kullanıcı veya sistem gerçekten yeni ve geçerli veriler üretebiliyor
  • Bu, “akıl yürütmenin aynı zamanda öğrenme olduğu” yeni bir ekonomik dönüşüme işaret ediyor
  • Çok sayıda kullanıcıya sahip yapay zeka modelleri daha fazla çıkarım verisi toplayacak ve bu da doğrudan model iyileştirmesine dönüşecek
  • Eğer SFT (insan etiketlemesi) süreci bile gereksiz hâle gelirse, yalnızca büyük maliyet harcayarak arama, sentez ve doğrulamayı yineleyen sistemlerle de verimli öğrenme mümkün olabilir

Sonuç

  • Yapay zeka sistemlerine yönelik akıl yürütme talebi arttıkça, piyasadaki yeniden değerleme sürecinin de sürmesi bekleniyor
  • CoT yaklaşımı ile arama (search) tekniklerini birleştiren açık kaynaklı R1 sisteminin ortaya çıkmasıyla, daha fazla araştırmacı ve geliştiricinin sınırları test edip inovasyonu hızlandırması bekleniyor
  • R1-Zero ve R1’in yayımlanması, dünya genelindeki yapay zeka ilerlemesine büyük katkı sağlayacak
  • Çeşitli ekipler, ARC Prize 2025’i hedefleyerek R1 benzeri sistemleri kullanma kararlılığı gösteriyor; bu yüzden sonraki sonuçlar merakla bekleniyor
  • DeepSeek’in yayımladığı R1, AGI’ye giden yolda önemli ipuçları sunarak bilimsel ilerlemeye katkıda bulunduğu için olumlu değerlendiriliyor

1 yorum

 
GN⁺ 2025-01-30
Hacker News görüşü
  • Yapay zeka sistem geliştiricilerinin yeni veri üretimiyle ekonomik değişim yaratma ihtimali var. Müşteriler veri üretim maliyetini üstlenerek model kalitesini artırabilir

    • Ancak bu verilerin gerçekten yüksek kaliteli olup olmadığına dair şüpheci bir bakış da var
    • Mevcut SOTA modeller GPT-4 seviyesinde kalmış durumda ve önümüzdeki 2-3 yıl içinde daha da gelişmeleri mümkün
    • Akıl yürütme modellerini kullanarak veri üretip bunu akıl yürütmeyen modellere eğitim vermek için kullanmak umut verici bir fikir
    • Ancak akıl yürütmenin model ağırlıklarına ne kadar iyi aktarılabileceği belirsiz
    • OpenAI'nin zaten o3 eğitim verilerini kullanarak yeni bir model eğitmiş olması gerektiğini düşünenler var
  • Temel modelde iyileştirme gerekmiyor olabilir; genel amaçlı bir model yeterli olabilir

    • Önemli olan akıl yürütme modellerinin fiyatını düşürmek ve kalitesini artırmak
  • o3 sistemi, yeni problemlere uyum sağlayan bir bilgisayarın ilk pratik uygulamasını gösteriyor

    • Ancak OpenAI, o3'ü %75 kamuya açık eğitim setiyle eğittiğini duyurdu ve ARC-AGI verisinin performansa katkısı henüz test edilmedi
  • İnsan darboğazının ortadan kalktığı iddia ediliyor, ancak matematik ve bilgisayar bilimi dışındaki çoğu alanda doğrulanabilir ödülleri tanımlamak zor

  • Yapay zeka ekonomisinde iki büyük değişim yaşanıyor

    • Daha fazla ödeme yaparak daha yüksek doğruluk ve güvenilirlik elde edilebiliyor
    • Eğitim maliyeti çıkarım maliyetine kayıyor
    • Bu da çıkarıma olan talebi ve hesaplama talebini artıracak
  • o3, AGI-1'de %75 elde ederken R1 ve o1 %25'te kaldı

  • Çok fazla hesaplamanın çıkarıma kayması, mevcut yapay zeka yatırımlarını ciddi biçimde etkiliyor

    • Bu NVDA için kötü haber ve çıkarım odaklı çözümler daha iyi ekonomik yapı sunuyor
  • Baseten'den Mike, bu çalışmayı desteklemekten gurur duyduğunu belirtiyor

  • R1-Zero, insan darboğazı olmayan potansiyel bir ölçeklenme rejimi gösteriyor

    • Ancak RL yaklaşımının hâlâ çok fazla insan verisine ihtiyaç duyup duymadığı sorgulanıyor
  • R1, maliyet/performans açısından etkileyici sonuçlar gösteriyor

    • Karmaşık problemlerde veri üreticisi olarak R1 kullanmanın umut verici olduğu düşünülüyor
  • LLM'lerin geleceğinin kişiselleştirilmiş tekil uygulamalarda olacağı öngörülüyor

    • Yapay zeka ajanına istediğiniz uygulamayı ve gereksinimleri söylersiniz; o da backend'den frontend'e kadar her şeyi inşa eder
    • Yazılımı test eder, hataları düzeltir ve production'a dağıtır
    • Bugünün LLM'leri kusursuz olmasa da, kodu otomatik çalıştıran ve derleyen, hataları da LLM'ye geri bildiren sistemler ve iş akışları zaten mevcut