DeepSeek’in R1-Zero ve R1 Analizi
(arcprize.org)- ARC Prize Foundation, AGI’yi (genel yapay zeka) tanımlamayı, ölçmeyi ve yeni fikirleri teşvik etmeyi amaçlıyor
- Henüz AGI’ye ulaşılmadı ve saf LLM (büyük dil modeli) ön eğitiminin ölçeklendirilmesi çözüm değil
- 2023-24 boyunca LLM girişimlerine yaklaşık 20 milyar dolar yatırım yapılırken, AGI girişimlerine yalnızca yaklaşık 200 milyon dolar yatırım yapıldı
DeepSeek’in R1-Zero ve R1 analizi
- DeepSeek’in duyurduğu R1-Zero ve R1 sistemleri, OpenAI’ın o1 sistemi seviyesine yakın sonuçlar göstermesiyle büyük ilgi topluyor
- Hem R1-Zero hem de R1, ARC-AGI-1’de yaklaşık %15~20 puan aldı
- Bu, GPT-4o’nun aldığı %5’e kıyasla çok daha yüksek bir skor
- Son dönemde yapay zeka sektörünün ana akımı, LLM’lerin (büyük dil modelleri) basitçe ölçeklendirilmesine odaklandı; ancak bunun AGI’yi gerçekleştirmek için doğrudan bir çözüm olmadığı düşünülüyor
- ARC Prize Foundation, ARC-AGI-1 adlı benchmark üzerinden, yeni problemler konusunda eğitim verilmemiş olsa bile uyum sağlayabilen yapay zeka sistemleri üzerine araştırmaları teşvik ediyor
R1-Zero, R1’den daha önemli
- DeepSeek’in araştırma sonuçları R1-Zero ve R1’i ortaya çıkardı
- R1-Zero, R1 ve OpenAI’ın o1(low compute) sistemi, ARC-AGI-1’de benzer şekilde %15~20 aralığında skorlar elde etti
- OpenAI’ın 2024 sonlarında tanıttığı o3 sistemi ise ARC-AGI-1’de skoru %88’e kadar çıkararak yeni problemleri uyarlanabilir biçimde çözebildiğini gösterdi
- Ancak o3’ün birçok yönü kapalı olduğu için araştırmacılar ayrıntılı teknikleri anlamakta zorlanıyor
- R1-Zero’nun, R1’e kıyasla insan tarafından doğrudan etiketleme (SFT) sürecinden geçmemiş olması, ona gelecek açısından daha büyük bir değer kazandırıyor
R1-Zero insan darboğazını ortadan kaldırıyor
-
Mevcut akıl yürütme modelleri, problem çözme süreci (Chain-of-Thought, aşağıda CoT) için insan etiketlemesini (SFT) veya makine ödülünü (RL) birleştirerek eğitiliyor
-
R1-Zero, SFT olmadan, yani insan uzman etiketleri kullanılmadan, CoT’yi yalnızca pekiştirmeli öğrenme (RL) ile öğreniyor
-
ARC-AGI-1’de R1-Zero %14, R1 ise %15 alarak neredeyse aynı performansı gösterdi
-
MATH AIME 2024 gibi diğer benchmark’larda da R1-Zero ile R1’in sonuçları benzer görünüyor
-
Dil karışımı veya okunabilirlik sorunlarına dair endişeler vardı; ancak gerçek testlerde matematik ve kodlama alanlarında ciddi bir incoherence olmadan iyi çalıştığı görüldü
-
Buradan çıkan başlıca çıkarımlar şunlar
- İnsan etiketlemesi olmadan da belirli alanlarda doğru ve anlaşılır akıl yürütme mümkün
- R1-Zero, yalnızca pekiştirmeli öğrenmeyle kendi alana özgü token gösterimini (DSL) oluşturabiliyor
- SFT, akıl yürütme kapsamını genişletmek için hâlâ gerekli olabilir
-
Nihayetinde R1-Zero, insan bağımlılığı olmadan kendi eğitim verisini üretebileceğini göstererek “insansız darboğaz” ölçeklenebilirliğine işaret ediyor
-
Aşağıda, ARC-AGI-1’de çeşitli sistemlerin aldığı skorlar, ortalama token sayıları ve çıkarım maliyetlerinin kısa bir özeti yer alıyor
- r1-zero: %14, SFT yok, sıralı akıl yürütme araması yok, ortalama 11K token, maliyet yaklaşık $0.11
- r1: %15.8, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 6K token, maliyet yaklaşık $0.06
- o1(low): %20.5, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 7K token, maliyet yaklaşık $0.43
- o1(med): %31, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 13K token, maliyet yaklaşık $0.79
- o1(high): %35, SFT uygulanmış, sıralı akıl yürütme araması yok, ortalama 22K token, maliyet yaklaşık $1.31
- o3(low): %75.7, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 335K token, maliyet yaklaşık $20
- o3(high): %87.5, SFT uygulanmış, arama ve örnekleme kullanılmış, ortalama 57M token, maliyet yaklaşık $3,400
Güvenilirlik için maliyet
- Bugünkü yapay zeka pazarında büyük değişimi tetikleyen ana akım, “daha fazla maliyetle doğruluk ve güvenilirliğin artırılabileceği” fikri
- Dahası, ağırlık eğitim maliyetinden çıkarım maliyetine kayıyor
- Çıkarım aşamasında çok fazla hesaplama kaynağı kullanıldığında daha doğru ve daha istikrarlı sonuçlar elde edilebiliyor
- Şirketlerin çoğu, yapay zeka sistemlerinin güvenilirlik sorunları nedeniyle büyük ölçekli otomasyonu devreye alamadı
- ARC-AGI alanındaki ilerlemenin yapay zeka ajanlarının güvenilirliğini artıracağı öngörülüyor; Anthropic, OpenAI ve Apple gibi şirketler de ajan tabanlı hizmetler hazırlıyor
- Kullanıcılar, ihtiyaç duydukları doğruluk seviyesini elde etmek için daha fazla ödeme yapmaya istekli olma eğilimi gösterecek
- Bu nedenle yapay zeka çıkarım talebinin çok daha fazla artması ve bunun da hesaplama kaynağı talebini yükseltmesi bekleniyor
Akıl yürütme artık öğrenme demek
- Eskiden büyük ölçekli veriler toplanıyor ya da mevcut LLM’lerden sentetik veri üretilip eğitimde kullanılıyordu
- Artık çıkarım sürecinde kullanıcı veya sistem gerçekten yeni ve geçerli veriler üretebiliyor
- Bu, “akıl yürütmenin aynı zamanda öğrenme olduğu” yeni bir ekonomik dönüşüme işaret ediyor
- Çok sayıda kullanıcıya sahip yapay zeka modelleri daha fazla çıkarım verisi toplayacak ve bu da doğrudan model iyileştirmesine dönüşecek
- Eğer SFT (insan etiketlemesi) süreci bile gereksiz hâle gelirse, yalnızca büyük maliyet harcayarak arama, sentez ve doğrulamayı yineleyen sistemlerle de verimli öğrenme mümkün olabilir
Sonuç
- Yapay zeka sistemlerine yönelik akıl yürütme talebi arttıkça, piyasadaki yeniden değerleme sürecinin de sürmesi bekleniyor
- CoT yaklaşımı ile arama (search) tekniklerini birleştiren açık kaynaklı R1 sisteminin ortaya çıkmasıyla, daha fazla araştırmacı ve geliştiricinin sınırları test edip inovasyonu hızlandırması bekleniyor
- R1-Zero ve R1’in yayımlanması, dünya genelindeki yapay zeka ilerlemesine büyük katkı sağlayacak
- Çeşitli ekipler, ARC Prize 2025’i hedefleyerek R1 benzeri sistemleri kullanma kararlılığı gösteriyor; bu yüzden sonraki sonuçlar merakla bekleniyor
- DeepSeek’in yayımladığı R1, AGI’ye giden yolda önemli ipuçları sunarak bilimsel ilerlemeye katkıda bulunduğu için olumlu değerlendiriliyor
1 yorum
Hacker News görüşü
Yapay zeka sistem geliştiricilerinin yeni veri üretimiyle ekonomik değişim yaratma ihtimali var. Müşteriler veri üretim maliyetini üstlenerek model kalitesini artırabilir
Temel modelde iyileştirme gerekmiyor olabilir; genel amaçlı bir model yeterli olabilir
o3 sistemi, yeni problemlere uyum sağlayan bir bilgisayarın ilk pratik uygulamasını gösteriyor
İnsan darboğazının ortadan kalktığı iddia ediliyor, ancak matematik ve bilgisayar bilimi dışındaki çoğu alanda doğrulanabilir ödülleri tanımlamak zor
Yapay zeka ekonomisinde iki büyük değişim yaşanıyor
o3, AGI-1'de %75 elde ederken R1 ve o1 %25'te kaldı
Çok fazla hesaplamanın çıkarıma kayması, mevcut yapay zeka yatırımlarını ciddi biçimde etkiliyor
Baseten'den Mike, bu çalışmayı desteklemekten gurur duyduğunu belirtiyor
R1-Zero, insan darboğazı olmayan potansiyel bir ölçeklenme rejimi gösteriyor
R1, maliyet/performans açısından etkileyici sonuçlar gösteriyor
LLM'lerin geleceğinin kişiselleştirilmiş tekil uygulamalarda olacağı öngörülüyor