R1 ve diğer her şeyin açıklaması

(timkellogg.me)

41 puan yazan GN⁺ 2025-01-27 | 9 yorum | WhatsApp'ta paylaş

Aniden ortaya çıkan R1’i ve o1 ile o3 gibi hızla değişen şeyleri anlamak için mevcut durumun özeti

Zaman çizelgesi

12 Eylül 2024: o1-preview yayımlandı
5 Aralık 2024: o1’in kararlı sürümü ve o1-pro yayımlandı
20 Aralık 2024: o3 duyuruldu (ARC-AGI’yi geçti, “AGI” olarak dikkat çekti)
26 Aralık 2024: DeepSeek V3 yayımlandı
20 Ocak 2025: DeepSeek R1 yayımlandı (o1’e benzer performans ama açık kaynak)
25 Ocak 2025: Hong Kong Üniversitesi araştırma ekibi R1 sonuçlarını başarıyla yeniden üretti
25 Ocak 2025: Huggingface, R1’i yeniden üreten tamamen açık kaynaklı open-r1 projesini duyurdu
Netleştirmek gerekirse
- o1, o3 ve R1’in tamamı çıkarım (Reasoning) modelidir
- DeepSeek V3 bir LLM’dir (temel model) ve çıkarım modeli bunun fine-tune edilmesiyle oluşturulur
- ARC-AGI-1, akışkan zekâya (fluid intelligence) yönelik en basit ve temel değerlendirmedir. Geçememek, alışılmadık durumlara uyum sağlama veya sorun çözmede neredeyse tamamen yetersiz olmak anlamına gelir

# Reasoning & Agents

Çıkarım modelleri != Agent’lar

Çıkarım (Reasoning) modelleri, yanıt üretmeden önce bir “düşünme” sürecinden geçen modellerdir
- LLM’ler token üreterek düşünür
- Bu yüzden modelin doğru cevabı bulmasını umarak çok sayıda token üretmesi için onu eğitiyoruz
Yapay zeka agent’ları (Agent) 2 şeyle tanımlanır
- Karar verme ve işi tamamlama için Autonomy (agency)
- Dış dünyayla etkileşim kurabilme (Interact) yeteneği
Bir LLM ya da çıkarım modeli tek başına yalnızca token ürettiği için bu iki işlevi yerine getiremez
- Gerçek kararları almak ve etkileşim yetenekleri sağlamak için yazılım gerekir
Agent’lar, yapay zekalardan oluşan sistemlerdir. Dünyayla otonom biçimde etkileşime girebilmeleri için birden fazla model ve yazılımın birleşimidir. Donanım için de aynı şey geçerlidir.

Çıkarım önemlidir

Çıkarım modellerinin agent’larla karıştırılmasının nedeni, şu anda darboğazın çıkarımda olmasıdır
İş planlamak, denetlemek, doğrulamak ve daha akıllı hale gelmek için çıkarım yeteneği zorunludur
Çıkarım yeteneği olmadan agent yapılamaz, ancak çıkarım benchmark’ları doygunluğa ulaştığında yeni zorluklar ortaya çıkacaktır

Çıkarım daha ucuz olmak zorunda

Agent’lar saatlerce, günlerce ya da 24/7 durmadan çalışır
Otonom davranmanın özü budur ve bu nedenle maliyet artar
Şu an için R1, o1’den yaklaşık 30 kat daha ucuzken benzer performans sunuyor

# R1 neden önemli

Ucuz, açık kaynaklı ve o1 ile o3’e benzer performansının doğrulanmış olması nedeniyle çok önemli
Yayımlanan belgelere dayanarak o1’in nasıl çalıştığına dair bazı tahminler vardı ve R1’in yayımlanan makalesi bunların neredeyse tamamını doğruluyor. Böylece o1’in o3 ve o4’e nasıl ölçeklendiğini de anlamış oluyoruz
Ayrıca açık kaynak olduğu için dünyadaki herkes kendi fikirleriyle bunu çalıştırabilir
Geçen hafta R1’i yeniden uygulamaya çalışanların zaman çizelgesine bakınca bunu görmek mümkün (bazıları bunu $30’a yaptığını da söylüyor)
İnovasyon, hızlı ve ucuz yinelemeler yapılabildiğinde gerçekleşir; R1 de böyle bir ortam yarattı
En önemlisi, R1’in karmaşık fikirler (DPO, MCTS) yerine basit bir RL yaklaşımıyla da yeterli çıkarım performansına ulaşılabildiğini göstermesi

# Yapay zeka gelişim eğilimleri

Ön eğitim (Pretraining) ölçeklemesinde sınıra ulaşılması

GPT-4’ten sonra, büyük veri ve hesaplama kaynaklarını basitçe artırmaya dayanan klasik “ölçekleme yasaları”nın sınırları görünmeye başladı
Veri bulma sorunu ve yeni çıkarım yöntemleri nedeniyle, eski yaklaşım tek başına artık büyük etki yaratmakta zorlanıyor şeklinde değerlendiriliyor

Çıkarım zamanı (Inference Time) ölçekleme yasaları

o1 ve r1 gibi çıkarım modelleri, “ne kadar uzun düşünürse performansı o kadar iyileşen” bir eğilim gösteriyor
Ancak daha iyi sonuç almak için, tam olarak nasıl daha fazla hesaplama yapılması gerektiği net değildi
Naif varsayım, düşünce zincirinin (CoT) işe yarayabileceği ve modele yalnızca CoT yapmasının öğretilmesinin yeterli olacağıydı
Sorun, çözüme giden en hızlı yolu nasıl verimli biçimde bulacağımızdı
- Entropix bunun için bir fikir; modelin iç sinyallerini kullanarak en verimli yolu buluyor
- Monte Carlo Tree Search (MCTS) gibi, çok sayıda yol üretip yalnızca tek bir yolu seçen yöntemler de vardı
CoT’nin en iyi yaklaşım olduğu ortaya çıktı
- R1, RL uygulanmış basit tek satırlı bir chain of thought (CoT) kullanıyor
- Muhtemelen o1’in de aynı şeyi yaptığı varsayılabilir

Küçültülmüş modeller (Down-Sized Models)

İlk başlangıç GPT-4-turbo ile oldu; ardından GPT-4o, Claude serisi ve diğer LLM modelleri geldi. Hepsi 2024 boyunca giderek küçüldü ve ucuzladı
Çıkarım için çok sayıda token üretmek gerektiğinden, model ne kadar küçükse hesaplama hızı o kadar artıyor ve verimlilik yükseliyor
“Daha küçük model = daha akıllı”

Pekiştirmeli öğrenme (Reinforcement Learning)

R1, GRPO (Group Rewards Policy Optimization) adlı basit bir RL yaklaşımı kullanarak modeli çıkarım anında CoT yapacak şekilde eğitti
Karmaşık doğrulayıcılara ya da harici LLM’lere ihtiyaç yok. Doğruluk ve çıktı biçimi için temel ödül işlevlerine sahip RL yeterli
R1-Zero, DeepSeek’in R1 sürümüdür; yalnızca GRPO’yu işler ve başka işlevleri desteklemez
- R1’den daha yüksek doğruluğa sahiptir ama İngilizce, Çince ve diğer diller arasında istediği gibi geçiş yaptığı için genel olarak çok dilli olmayan sıradan kullanıcılar için uygun değildir
R1-Zero neden diller arasında sıçrıyor?
- Benim düşüncem şu: “Çünkü her dil farklı türde kavramları daha etkili ifade ediyor”
- “what’s the german word for [paragraph of text]?” diye bir meme var
25 Ocak 2025 itibarıyla biri, “hangi RL olursa olsun işe yarar” olduğunu göstermeyi başardı
- GRPO, PPO ve PRIME’ın hepsini denediler; hepsi de iyi çalıştı
- Sihirli sayı 1.5B. Model parametreleri 1.5B’nin (1,5 milyar) üzerine çıktığında, hangi RL tekniği uygulanırsa uygulansın çıkarım yeteneği ortaya çıkıyor
Bunun ölçeği nereye kadar genişleyecek?

Model damıtma (Model Distillation)

R1, kendi önceki checkpoint’lerinden damıtıldı (distilled)
Damıtma, bir öğretmen (teacher) modelin öğrenci modele eğitim verisi üretmesidir ve genellikle öğretmenin öğrenciden daha büyük bir model olduğu varsayılır
- R1, aynı modelin önceki checkpoint’ini kullanarak supervised fine-tuning (SFT) için eğitim verisi üretti
- SFT ve RL’yi tekrarlayarak modeli iyileştirdi
Bu nereye kadar gidebilir?
Çok kısa süre önce (9 gün önce), GPT5’in var olduğu ve GPT4o’nun bunun yalnızca damıtılmış bir sürümü olduğu yönünde tahminler vardı
- Bu yazı, OpenAI ve Anthropic’in büyük modeller eğitip ardından bunları damıttığı, sonra da damıtılmış modelleri kullanarak daha büyük modeller ürettiği bir döngünün süreceği teorisini öne sürüyor
- R1 makalesinin, bunun mümkün olduğunu büyük ölçüde doğruladığını söylemek istiyorum (dolayısıyla gerçekten gerçekleşme olasılığı yüksek)
O halde bu çok uzun süre devam edebilir
Not: Bazı deneylere göre öğrenci model öğretmen modeli bile aşabilir. Bunun pratikte ne sıklıkla olduğu net değil
- Sezgisel olarak, damıtmanın öğrencinin sinyali bulmasına ve daha hızlı yakınsamasına yardımcı olabileceği düşünülebilir
- Model collapse hâlâ en büyük kaygı, ancak bu büyük ölçüde gereksiz bir korku gibi görünüyor
- Model çöküşü elbette her zaman mümkündür ama asla garanti değildir; ters yönde ilerleyip öğrencinin öğretmeni aşmasının da yolları vardır

# 2025 öngörüsü

Mevcut durum:
- Ön eğitim zorlaşıyor (ölmüş değil)
- Çıkarım ölçeklemesi
- Model küçültme
- RL ölçekleme yasaları
- Model damıtmanın getirdiği ölçekleme yasaları
Yapay zekadaki ilerleme hızının yavaşladığı söylenemez. Bir ölçekleme yasası yavaşladı ama dört yeni yasa ortaya çıktı
Bu eğilim bir süre daha hızlanarak devam edecek

Jeopolitik mesele: Distealing

“Distealing”, benim uydurduğum ve modeli “izinsiz damıtma” anlamına gelen bir kelime
Artık yazılım siyasettir ve bunun merkezinde yapay zeka var
- Yapay zeka neredeyse tüm siyasi eksenlerde hesaba katılıyor gibi görünüyor; en ilginç olanı ise Çin ile ABD
Strateji
- ABD: Muazzam finansman. Yapay zeka ateşine olabildiğince hızlı para dökmek
- Çin: Baskıcı ihracat kısıtlamaları nedeniyle daha ucuz çözümler bulmaları için daha zeki mühendisleri ve araştırmacıları devreye sokmak
- Avrupa: Regülasyon ya da açık kaynak yapay zeka; ikisinden biri de olur
DeepSeek’in o1’i izinsiz damıtıp damıtmadığına (“distealing”) dair tartışmalar var, ancak R1’in kopyaları dikkate alındığında şu anda R1’i bağımsız olarak geliştirmiş olma ihtimali daha güçlü konuşuluyor
- Ancak Çinli bir laboratuvarın OpenAI’ın en iyi modelini çok hızlı biçimde yakalaması gerilimi artırmış durumda
Yapay zeka yakında (henüz olmasa bile) yeteneklerini üstel bir hızla artıracak
- Bunun siyasi ve jeopolitik etkileri çok büyük olacak
- Hatta yapay zeka alanında çalışanların siyasete daha fazla ilgi göstermesi ve hangi politikaların iyi ya da kötü olduğuna dair daha açık fikirli olması gerekiyor

Sonuç

En önemli nokta, R1’in daha önce belirsiz olan kısımları netleştirmesidir
Bu nedenle yapay zekanın geleceği artık daha açık görünüyor ve bu hızın da giderek arttığı anlaşılıyor

9 yorum

xguru 2025-02-02

mammal 2025-01-27

Buna distillation deniyorsa, şimdi çıkıp azarlamak için de geç; çünkü daha LLaMA 1’in ilk dönemlerinden beri GPT’den damıtılan Alpaca ve Vicuna modelleri vardı ve bugün frontier lab’lerde bile birbirlerinin model çıktılarıyla eğitim yapmayan yer yok.

Aslında bugünün frontier modellerinin çoğu, GPT’den damıtılmış akraba çiftleşmesi genlerine laboratuvarın zevkine göre RLHF uygulanmış hâli.

mammal 2025-01-27

Şu anda asıl endişelenmemiz gereken şey Çin’in izinsiz damıtımı ya da sansürü değil.

Şok edici olan, DeepSeek’in çılgın verimliliğinin arkasındaki MLA, MTP, mixed precision framework ve GRPO’nun tamamen %100 Çin üniversitesi çıkışlı kişiler tarafından geliştirilmiş olması.

ABD’de bunun için ikinci bir Sputnik şoku denmeye bile başlandı...

luminance 2025-01-27

distealing, distilling yazmaya çalışırken yapılmış bir hata değil mi?

grogu 2025-01-27

Yazar, izinsiz damıtmayı ifade eden bir sözcüğü, distilling (damıtma) ile ayırt etmek için ve (aynı telaffuza dayanan bir tür kelime oyunu olarak) distealing kelimesini türetmiş gibi görünüyor (metinde buna değiniliyor).

luminance 2025-01-27

Açıklama için teşekkürler.

savvykang 2025-01-27

> Geopolitics: Distealing
> Jeopolitik meseleler: Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing", benim uydurduğum bir terim; modellerin "izinsiz distilasyonu" anlamına geliyor

luminance 2025-01-27

Demek ki orijinal metinde içerik varmış. Teşekkürler.

GN⁺ 2025-01-27

Hacker News yorumu

R1'in karmaşık fikirleri basit pekiştirmeli öğrenmeyle değiştirdiği iddiasına karşılık, gerçekte pekiştirmeli öğrenme ile denetimli öğrenmeyi karışık biçimde kullandığı belirtiliyor. Denetimli öğrenmede kullanılan veriler büyük olasılıkla model tarafından üretilmiş değil, insanlar tarafından seçilmişti
- R1'i yeniden üretmeye yönelik girişimler var ve bazıları bunun 30 dolara yapılabileceğini iddia ediyor, ancak bu R1'in kendisi değil, R1'in ince ayarı olabilir
- Hugging Face R1'i yeniden üretmeye çalışıyor, ancak bu oldukça büyük bir iş ve 30 dolarla çözülebilecek bir şey değil
Makalede çok fazla abartı var, bu yüzden güvenmek zor
- Çeşitli modellerin benchmark'ları matematik ve kodlama doğruluğuna odaklanıyor, ancak belirli kullanım senaryolarında bu yetenekler önemli değil. Kavramları benchmark etmek zor
- Distillation yoluyla matematik ve kodlama unsurlarını çıkaran bir model oluşturulup oluşturulamayacağı sorusu gündeme geliyor
R1'in ana akım haberlerde yer alması kafa karışıklığı ve alarm yarattı. Çin'in ABD'yi tehdit etmediğini açıklamak zor
- Yapay zekanın yeteneklerinin geometrik olarak artacağı sonucuna ilişkin olarak, R1'in açık kaynak bir model olarak o1 seviyesine ulaşmış olması eldeki tek veri noktası. Bunlar birbiriyle çok da ilişkili olmayan iki konu
Yapay zekanın zaten akıl yürütme yapıp yapmadığı sorusu gündeme geliyor
- ARC-AGI, insanlar için basit ama yapay zeka için çok zor olan bir benchmark. Bunu çözmenin, yapay zekanın insanlarla aynı şeyleri yapabileceği anlamına geldiği yönünde bir yanlış anlama var
- ARC-AGI'nin yaratıcısı François Chollet, ARC-AGI-1'in ne kadar basit olduğunu ve bunu çözmenin ne anlama geldiğini açıklıyor
- ARC-AGI-1'i geçmek, sistemin sıfır olmayan akışkan zekaya sahip olduğunu gösterir, ancak sistemin zeka seviyesini ya da insan zekasına ne kadar yakın olduğunu göstermez
Yapay zekanın yeteneklerinin yakında geometrik olarak artacağı sonucu yeterli temelden yoksun. Yazarın bu sonuca nasıl ulaştığını bilmek iyi olurdu

R1 ve diğer her şeyin açıklaması

Zaman çizelgesi

# Reasoning & Agents

Çıkarım modelleri != Agent’lar

Çıkarım önemlidir

Çıkarım daha ucuz olmak zorunda

# R1 neden önemli

# Yapay zeka gelişim eğilimleri

Ön eğitim (Pretraining) ölçeklemesinde sınıra ulaşılması

Çıkarım zamanı (Inference Time) ölçekleme yasaları

Küçültülmüş modeller (Down-Sized Models)

Pekiştirmeli öğrenme (Reinforcement Learning)

Model damıtma (Model Distillation)

# 2025 öngörüsü

Jeopolitik mesele: Distealing

Sonuç

İlgili okumalar

9 yorum

Hacker News yorumu