DeepSeek’in R1-Zero ve R1 Analizi

(arcprize.org)

5 puan yazan GN⁺ 2025-01-30 | 1 yorum | WhatsApp'ta paylaş

ARC Prize Foundation, AGI’yi (genel yapay zeka) tanımlamayı, ölçmeyi ve yeni fikirleri teşvik etmeyi amaçlıyor
Henüz AGI’ye ulaşılmadı ve saf LLM (büyük dil modeli) ön eğitiminin ölçeklendirilmesi çözüm değil
2023-24 boyunca LLM girişimlerine yaklaşık 20 milyar dolar yatırım yapılırken, AGI girişimlerine yalnızca yaklaşık 200 milyon dolar yatırım yapıldı

DeepSeek’in R1-Zero ve R1 analizi

DeepSeek’in duyurduğu R1-Zero ve R1 sistemleri, OpenAI’ın o1 sistemi seviyesine yakın sonuçlar göstermesiyle büyük ilgi topluyor
Hem R1-Zero hem de R1, ARC-AGI-1’de yaklaşık %15~20 puan aldı
Bu, GPT-4o’nun aldığı %5’e kıyasla çok daha yüksek bir skor
Son dönemde yapay zeka sektörünün ana akımı, LLM’lerin (büyük dil modelleri) basitçe ölçeklendirilmesine odaklandı; ancak bunun AGI’yi gerçekleştirmek için doğrudan bir çözüm olmadığı düşünülüyor
ARC Prize Foundation, ARC-AGI-1 adlı benchmark üzerinden, yeni problemler konusunda eğitim verilmemiş olsa bile uyum sağlayabilen yapay zeka sistemleri üzerine araştırmaları teşvik ediyor

R1-Zero, R1’den daha önemli

DeepSeek’in araştırma sonuçları R1-Zero ve R1’i ortaya çıkardı
R1-Zero, R1 ve OpenAI’ın o1(low compute) sistemi, ARC-AGI-1’de benzer şekilde %15~20 aralığında skorlar elde etti
OpenAI’ın 2024 sonlarında tanıttığı o3 sistemi ise ARC-AGI-1’de skoru %88’e kadar çıkararak yeni problemleri uyarlanabilir biçimde çözebildiğini gösterdi
Ancak o3’ün birçok yönü kapalı olduğu için araştırmacılar ayrıntılı teknikleri anlamakta zorlanıyor
R1-Zero’nun, R1’e kıyasla insan tarafından doğrudan etiketleme (SFT) sürecinden geçmemiş olması, ona gelecek açısından daha büyük bir değer kazandırıyor

R1-Zero insan darboğazını ortadan kaldırıyor

Mevcut akıl yürütme modelleri, problem çözme süreci (Chain-of-Thought, aşağıda CoT) için insan etiketlemesini (SFT) veya makine ödülünü (RL) birleştirerek eğitiliyor
R1-Zero, SFT olmadan, yani insan uzman etiketleri kullanılmadan, CoT’yi yalnızca pekiştirmeli öğrenme (RL) ile öğreniyor
ARC-AGI-1’de R1-Zero %14, R1 ise %15 alarak neredeyse aynı performansı gösterdi
MATH AIME 2024 gibi diğer benchmark’larda da R1-Zero ile R1’in sonuçları benzer görünüyor
Dil karışımı veya okunabilirlik sorunlarına dair endişeler vardı; ancak gerçek testlerde matematik ve kodlama alanlarında ciddi bir incoherence olmadan iyi çalıştığı görüldü
Buradan çıkan başlıca çıkarımlar şunlar
- İnsan etiketlemesi olmadan da belirli alanlarda doğru ve anlaşılır akıl yürütme mümkün
- R1-Zero, yalnızca pekiştirmeli öğrenmeyle kendi alana özgü token gösterimini (DSL) oluşturabiliyor
- SFT, akıl yürütme kapsamını genişletmek için hâlâ gerekli olabilir
Nihayetinde R1-Zero, insan bağımlılığı olmadan kendi eğitim verisini üretebileceğini göstererek “insansız darboğaz” ölçeklenebilirliğine işaret ediyor
Aşağıda, ARC-AGI-1’de çeşitli sistemlerin aldığı skorlar, ortalama token sayıları ve çıkarım maliyetlerinin kısa bir özeti yer alıyor
- r1-zero: %14, SFT yok, sıralı akıl yürütme araması yok, ortalama 11K token, maliyet yaklaşık $0.11
- r1: %15.8, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 6K token, maliyet yaklaşık $0.06
- o1(low): %20.5, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 7K token, maliyet yaklaşık $0.43
- o1(med): %31, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 13K token, maliyet yaklaşık $0.79
- o1(high): %35, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 22K token, maliyet yaklaşık $1.31
- o3(low): %75.7, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 335K token, maliyet yaklaşık $20
- o3(high): %87.5, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 57M token, maliyet yaklaşık $3,400

Güvenilirlik için maliyet

Bugünkü yapay zeka pazarında büyük değişimi tetikleyen ana akım, “daha fazla maliyetle doğruluk ve güvenilirliğin artırılabileceği” fikri
Dahası, ağırlık eğitim maliyetinden çıkarım maliyetine kayıyor
Çıkarım aşamasında çok fazla hesaplama kaynağı kullanıldığında daha doğru ve daha istikrarlı sonuçlar elde edilebiliyor
Şirketlerin çoğu, yapay zeka sistemlerinin güvenilirlik sorunları nedeniyle büyük ölçekli otomasyonu devreye alamadı
ARC-AGI alanındaki ilerlemenin yapay zeka ajanlarının güvenilirliğini artıracağı öngörülüyor; Anthropic, OpenAI ve Apple gibi şirketler de ajan tabanlı hizmetler hazırlıyor
Kullanıcılar, ihtiyaç duydukları doğruluk seviyesini elde etmek için daha fazla ödeme yapmaya istekli olma eğilimi gösterecek
Bu nedenle yapay zeka çıkarım talebinin çok daha fazla artması ve bunun da hesaplama kaynağı talebini yükseltmesi bekleniyor

Akıl yürütme artık öğrenme demek

Eskiden büyük ölçekli veriler toplanıyor ya da mevcut LLM’lerden sentetik veri üretilip eğitimde kullanılıyordu
Artık çıkarım sürecinde kullanıcı veya sistem gerçekten yeni ve geçerli veriler üretebiliyor
Bu, “akıl yürütmenin aynı zamanda öğrenme olduğu” yeni bir ekonomik dönüşüme işaret ediyor
Çok sayıda kullanıcıya sahip yapay zeka modelleri daha fazla çıkarım verisi toplayacak ve bu da doğrudan model iyileştirmesine dönüşecek
Eğer SFT (insan etiketlemesi) süreci bile gereksiz hâle gelirse, yalnızca büyük maliyet harcayarak arama, sentez ve doğrulamayı yineleyen sistemlerle de verimli öğrenme mümkün olabilir

Sonuç

Yapay zeka sistemlerine yönelik akıl yürütme talebi arttıkça, piyasadaki yeniden değerleme sürecinin de sürmesi bekleniyor
CoT yaklaşımı ile arama (search) tekniklerini birleştiren açık kaynaklı R1 sisteminin ortaya çıkmasıyla, daha fazla araştırmacı ve geliştiricinin sınırları test edip inovasyonu hızlandırması bekleniyor
R1-Zero ve R1’in yayımlanması, dünya genelindeki yapay zeka ilerlemesine büyük katkı sağlayacak
Çeşitli ekipler, ARC Prize 2025’i hedefleyerek R1 benzeri sistemleri kullanma kararlılığı gösteriyor; bu yüzden sonraki sonuçlar merakla bekleniyor
DeepSeek’in yayımladığı R1, AGI’ye giden yolda önemli ipuçları sunarak bilimsel ilerlemeye katkıda bulunduğu için olumlu değerlendiriliyor

1 yorum

GN⁺ 2025-01-30

Hacker News görüşü

Yapay zeka sistem geliştiricilerinin yeni veri üretimiyle ekonomik değişim yaratma ihtimali var. Müşteriler veri üretim maliyetini üstlenerek model kalitesini artırabilir
- Ancak bu verilerin gerçekten yüksek kaliteli olup olmadığına dair şüpheci bir bakış da var
- Mevcut SOTA modeller GPT-4 seviyesinde kalmış durumda ve önümüzdeki 2-3 yıl içinde daha da gelişmeleri mümkün
- Akıl yürütme modellerini kullanarak veri üretip bunu akıl yürütmeyen modellere eğitim vermek için kullanmak umut verici bir fikir
- Ancak akıl yürütmenin model ağırlıklarına ne kadar iyi aktarılabileceği belirsiz
- OpenAI'nin zaten o3 eğitim verilerini kullanarak yeni bir model eğitmiş olması gerektiğini düşünenler var
Temel modelde iyileştirme gerekmiyor olabilir; genel amaçlı bir model yeterli olabilir
- Önemli olan akıl yürütme modellerinin fiyatını düşürmek ve kalitesini artırmak
o3 sistemi, yeni problemlere uyum sağlayan bir bilgisayarın ilk pratik uygulamasını gösteriyor
- Ancak OpenAI, o3'ü %75 kamuya açık eğitim setiyle eğittiğini duyurdu ve ARC-AGI verisinin performansa katkısı henüz test edilmedi
İnsan darboğazının ortadan kalktığı iddia ediliyor, ancak matematik ve bilgisayar bilimi dışındaki çoğu alanda doğrulanabilir ödülleri tanımlamak zor
Yapay zeka ekonomisinde iki büyük değişim yaşanıyor
- Daha fazla ödeme yaparak daha yüksek doğruluk ve güvenilirlik elde edilebiliyor
- Eğitim maliyeti çıkarım maliyetine kayıyor
- Bu da çıkarıma olan talebi ve hesaplama talebini artıracak
o3, AGI-1'de %75 elde ederken R1 ve o1 %25'te kaldı
Çok fazla hesaplamanın çıkarıma kayması, mevcut yapay zeka yatırımlarını ciddi biçimde etkiliyor
- Bu NVDA için kötü haber ve çıkarım odaklı çözümler daha iyi ekonomik yapı sunuyor
Baseten'den Mike, bu çalışmayı desteklemekten gurur duyduğunu belirtiyor
R1-Zero, insan darboğazı olmayan potansiyel bir ölçeklenme rejimi gösteriyor
- Ancak RL yaklaşımının hâlâ çok fazla insan verisine ihtiyaç duyup duymadığı sorgulanıyor
R1, maliyet/performans açısından etkileyici sonuçlar gösteriyor
- Karmaşık problemlerde veri üreticisi olarak R1 kullanmanın umut verici olduğu düşünülüyor
LLM'lerin geleceğinin kişiselleştirilmiş tekil uygulamalarda olacağı öngörülüyor
- Yapay zeka ajanına istediğiniz uygulamayı ve gereksinimleri söylersiniz; o da backend'den frontend'e kadar her şeyi inşa eder
- Yazılımı test eder, hataları düzeltir ve production'a dağıtır
- Bugünün LLM'leri kusursuz olmasa da, kodu otomatik çalıştıran ve derleyen, hataları da LLM'ye geri bildiren sistemler ve iş akışları zaten mevcut

DeepSeek’in R1-Zero ve R1 Analizi

DeepSeek’in R1-Zero ve R1 analizi

R1-Zero, R1’den daha önemli

R1-Zero insan darboğazını ortadan kaldırıyor

Güvenilirlik için maliyet

Akıl yürütme artık öğrenme demek

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşü