- Aniden ortaya çıkan R1’i ve o1 ile o3 gibi hızla değişen şeyleri anlamak için mevcut durumun özeti
Zaman çizelgesi
- 12 Eylül 2024: o1-preview yayımlandı
- 5 Aralık 2024: o1’in kararlı sürümü ve o1-pro yayımlandı
- 20 Aralık 2024: o3 duyuruldu (ARC-AGI’yi geçti, “AGI” olarak dikkat çekti)
- 26 Aralık 2024: DeepSeek V3 yayımlandı
- 20 Ocak 2025: DeepSeek R1 yayımlandı (o1’e benzer performans ama açık kaynak)
- 25 Ocak 2025: Hong Kong Üniversitesi araştırma ekibi R1 sonuçlarını başarıyla yeniden üretti
- 25 Ocak 2025: Huggingface, R1’i yeniden üreten tamamen açık kaynaklı open-r1 projesini duyurdu
- Netleştirmek gerekirse
- o1, o3 ve R1’in tamamı çıkarım (Reasoning) modelidir
- DeepSeek V3 bir LLM’dir (temel model) ve çıkarım modeli bunun fine-tune edilmesiyle oluşturulur
- ARC-AGI-1, akışkan zekâya (fluid intelligence) yönelik en basit ve temel değerlendirmedir. Geçememek, alışılmadık durumlara uyum sağlama veya sorun çözmede neredeyse tamamen yetersiz olmak anlamına gelir
# Reasoning & Agents
Çıkarım modelleri != Agent’lar
- Çıkarım (Reasoning) modelleri, yanıt üretmeden önce bir “düşünme” sürecinden geçen modellerdir
- LLM’ler token üreterek düşünür
- Bu yüzden modelin doğru cevabı bulmasını umarak çok sayıda token üretmesi için onu eğitiyoruz
- Yapay zeka agent’ları (Agent) 2 şeyle tanımlanır
- Karar verme ve işi tamamlama için Autonomy (agency)
- Dış dünyayla etkileşim kurabilme (Interact) yeteneği
- Bir LLM ya da çıkarım modeli tek başına yalnızca token ürettiği için bu iki işlevi yerine getiremez
- Gerçek kararları almak ve etkileşim yetenekleri sağlamak için yazılım gerekir
- Agent’lar, yapay zekalardan oluşan sistemlerdir. Dünyayla otonom biçimde etkileşime girebilmeleri için birden fazla model ve yazılımın birleşimidir. Donanım için de aynı şey geçerlidir.
Çıkarım önemlidir
- Çıkarım modellerinin agent’larla karıştırılmasının nedeni, şu anda darboğazın çıkarımda olmasıdır
- İş planlamak, denetlemek, doğrulamak ve daha akıllı hale gelmek için çıkarım yeteneği zorunludur
- Çıkarım yeteneği olmadan agent yapılamaz, ancak çıkarım benchmark’ları doygunluğa ulaştığında yeni zorluklar ortaya çıkacaktır
Çıkarım daha ucuz olmak zorunda
- Agent’lar saatlerce, günlerce ya da 24/7 durmadan çalışır
- Otonom davranmanın özü budur ve bu nedenle maliyet artar
- Şu an için R1, o1’den yaklaşık 30 kat daha ucuzken benzer performans sunuyor
# R1 neden önemli
- Ucuz, açık kaynaklı ve o1 ile o3’e benzer performansının doğrulanmış olması nedeniyle çok önemli
- Yayımlanan belgelere dayanarak o1’in nasıl çalıştığına dair bazı tahminler vardı ve R1’in yayımlanan makalesi bunların neredeyse tamamını doğruluyor. Böylece o1’in o3 ve o4’e nasıl ölçeklendiğini de anlamış oluyoruz
- Ayrıca açık kaynak olduğu için dünyadaki herkes kendi fikirleriyle bunu çalıştırabilir
- Geçen hafta R1’i yeniden uygulamaya çalışanların zaman çizelgesine bakınca bunu görmek mümkün (bazıları bunu $30’a yaptığını da söylüyor)
- İnovasyon, hızlı ve ucuz yinelemeler yapılabildiğinde gerçekleşir; R1 de böyle bir ortam yarattı
- En önemlisi, R1’in karmaşık fikirler (DPO, MCTS) yerine basit bir RL yaklaşımıyla da yeterli çıkarım performansına ulaşılabildiğini göstermesi
# Yapay zeka gelişim eğilimleri
Ön eğitim (Pretraining) ölçeklemesinde sınıra ulaşılması
- GPT-4’ten sonra, büyük veri ve hesaplama kaynaklarını basitçe artırmaya dayanan klasik “ölçekleme yasaları”nın sınırları görünmeye başladı
- Veri bulma sorunu ve yeni çıkarım yöntemleri nedeniyle, eski yaklaşım tek başına artık büyük etki yaratmakta zorlanıyor şeklinde değerlendiriliyor
Çıkarım zamanı (Inference Time) ölçekleme yasaları
- o1 ve r1 gibi çıkarım modelleri, “ne kadar uzun düşünürse performansı o kadar iyileşen” bir eğilim gösteriyor
- Ancak daha iyi sonuç almak için, tam olarak nasıl daha fazla hesaplama yapılması gerektiği net değildi
- Naif varsayım, düşünce zincirinin (CoT) işe yarayabileceği ve modele yalnızca CoT yapmasının öğretilmesinin yeterli olacağıydı
- Sorun, çözüme giden en hızlı yolu nasıl verimli biçimde bulacağımızdı
- Entropix bunun için bir fikir; modelin iç sinyallerini kullanarak en verimli yolu buluyor
- Monte Carlo Tree Search (MCTS) gibi, çok sayıda yol üretip yalnızca tek bir yolu seçen yöntemler de vardı
- CoT’nin en iyi yaklaşım olduğu ortaya çıktı
- R1, RL uygulanmış basit tek satırlı bir chain of thought (CoT) kullanıyor
- Muhtemelen o1’in de aynı şeyi yaptığı varsayılabilir
Küçültülmüş modeller (Down-Sized Models)
- İlk başlangıç GPT-4-turbo ile oldu; ardından GPT-4o, Claude serisi ve diğer LLM modelleri geldi. Hepsi 2024 boyunca giderek küçüldü ve ucuzladı
- Çıkarım için çok sayıda token üretmek gerektiğinden, model ne kadar küçükse hesaplama hızı o kadar artıyor ve verimlilik yükseliyor
- “Daha küçük model = daha akıllı”
Pekiştirmeli öğrenme (Reinforcement Learning)
- R1, GRPO (Group Rewards Policy Optimization) adlı basit bir RL yaklaşımı kullanarak modeli çıkarım anında CoT yapacak şekilde eğitti
- Karmaşık doğrulayıcılara ya da harici LLM’lere ihtiyaç yok. Doğruluk ve çıktı biçimi için temel ödül işlevlerine sahip RL yeterli
- R1-Zero, DeepSeek’in R1 sürümüdür; yalnızca GRPO’yu işler ve başka işlevleri desteklemez
- R1’den daha yüksek doğruluğa sahiptir ama İngilizce, Çince ve diğer diller arasında istediği gibi geçiş yaptığı için genel olarak çok dilli olmayan sıradan kullanıcılar için uygun değildir
- R1-Zero neden diller arasında sıçrıyor?
- Benim düşüncem şu: “Çünkü her dil farklı türde kavramları daha etkili ifade ediyor”
- “what’s the german word for [paragraph of text]?” diye bir meme var
- 25 Ocak 2025 itibarıyla biri, “hangi RL olursa olsun işe yarar” olduğunu göstermeyi başardı
- GRPO, PPO ve PRIME’ın hepsini denediler; hepsi de iyi çalıştı
- Sihirli sayı 1.5B. Model parametreleri 1.5B’nin (1,5 milyar) üzerine çıktığında, hangi RL tekniği uygulanırsa uygulansın çıkarım yeteneği ortaya çıkıyor
- Bunun ölçeği nereye kadar genişleyecek?
Model damıtma (Model Distillation)
- R1, kendi önceki checkpoint’lerinden damıtıldı (distilled)
- Damıtma, bir öğretmen (teacher) modelin öğrenci modele eğitim verisi üretmesidir ve genellikle öğretmenin öğrenciden daha büyük bir model olduğu varsayılır
- R1, aynı modelin önceki checkpoint’ini kullanarak supervised fine-tuning (SFT) için eğitim verisi üretti
- SFT ve RL’yi tekrarlayarak modeli iyileştirdi
- Bu nereye kadar gidebilir?
- Çok kısa süre önce (9 gün önce), GPT5’in var olduğu ve GPT4o’nun bunun yalnızca damıtılmış bir sürümü olduğu yönünde tahminler vardı
- Bu yazı, OpenAI ve Anthropic’in büyük modeller eğitip ardından bunları damıttığı, sonra da damıtılmış modelleri kullanarak daha büyük modeller ürettiği bir döngünün süreceği teorisini öne sürüyor
- R1 makalesinin, bunun mümkün olduğunu büyük ölçüde doğruladığını söylemek istiyorum (dolayısıyla gerçekten gerçekleşme olasılığı yüksek)
- O halde bu çok uzun süre devam edebilir
- Not: Bazı deneylere göre öğrenci model öğretmen modeli bile aşabilir. Bunun pratikte ne sıklıkla olduğu net değil
- Sezgisel olarak, damıtmanın öğrencinin sinyali bulmasına ve daha hızlı yakınsamasına yardımcı olabileceği düşünülebilir
- Model collapse hâlâ en büyük kaygı, ancak bu büyük ölçüde gereksiz bir korku gibi görünüyor
- Model çöküşü elbette her zaman mümkündür ama asla garanti değildir; ters yönde ilerleyip öğrencinin öğretmeni aşmasının da yolları vardır
# 2025 öngörüsü
- Mevcut durum:
- Ön eğitim zorlaşıyor (ölmüş değil)
- Çıkarım ölçeklemesi
- Model küçültme
- RL ölçekleme yasaları
- Model damıtmanın getirdiği ölçekleme yasaları
- Yapay zekadaki ilerleme hızının yavaşladığı söylenemez. Bir ölçekleme yasası yavaşladı ama dört yeni yasa ortaya çıktı
- Bu eğilim bir süre daha hızlanarak devam edecek
Jeopolitik mesele: Distealing
- “Distealing”, benim uydurduğum ve modeli “izinsiz damıtma” anlamına gelen bir kelime
- Artık yazılım siyasettir ve bunun merkezinde yapay zeka var
- Yapay zeka neredeyse tüm siyasi eksenlerde hesaba katılıyor gibi görünüyor; en ilginç olanı ise Çin ile ABD
- Strateji
- ABD: Muazzam finansman. Yapay zeka ateşine olabildiğince hızlı para dökmek
- Çin: Baskıcı ihracat kısıtlamaları nedeniyle daha ucuz çözümler bulmaları için daha zeki mühendisleri ve araştırmacıları devreye sokmak
- Avrupa: Regülasyon ya da açık kaynak yapay zeka; ikisinden biri de olur
- DeepSeek’in o1’i izinsiz damıtıp damıtmadığına (“distealing”) dair tartışmalar var, ancak R1’in kopyaları dikkate alındığında şu anda R1’i bağımsız olarak geliştirmiş olma ihtimali daha güçlü konuşuluyor
- Ancak Çinli bir laboratuvarın OpenAI’ın en iyi modelini çok hızlı biçimde yakalaması gerilimi artırmış durumda
- Yapay zeka yakında (henüz olmasa bile) yeteneklerini üstel bir hızla artıracak
- Bunun siyasi ve jeopolitik etkileri çok büyük olacak
- Hatta yapay zeka alanında çalışanların siyasete daha fazla ilgi göstermesi ve hangi politikaların iyi ya da kötü olduğuna dair daha açık fikirli olması gerekiyor
Sonuç
- En önemli nokta, R1’in daha önce belirsiz olan kısımları netleştirmesidir
- Bu nedenle yapay zekanın geleceği artık daha açık görünüyor ve bu hızın da giderek arttığı anlaşılıyor
9 yorum
Buna
distillationdeniyorsa, şimdi çıkıp azarlamak için de geç; çünkü daha LLaMA 1’in ilk dönemlerinden beri GPT’den damıtılan Alpaca ve Vicuna modelleri vardı ve bugün frontier lab’lerde bile birbirlerinin model çıktılarıyla eğitim yapmayan yer yok.Aslında bugünün frontier modellerinin çoğu, GPT’den damıtılmış akraba çiftleşmesi genlerine laboratuvarın zevkine göre RLHF uygulanmış hâli.
Şu anda asıl endişelenmemiz gereken şey Çin’in izinsiz damıtımı ya da sansürü değil.
Şok edici olan, DeepSeek’in çılgın verimliliğinin arkasındaki MLA, MTP, mixed precision framework ve GRPO’nun tamamen %100 Çin üniversitesi çıkışlı kişiler tarafından geliştirilmiş olması.
ABD’de bunun için ikinci bir Sputnik şoku denmeye bile başlandı...
distealing,distillingyazmaya çalışırken yapılmış bir hata değil mi?Yazar, izinsiz damıtmayı ifade eden bir sözcüğü,
distilling(damıtma) ile ayırt etmek için ve (aynı telaffuza dayanan bir tür kelime oyunu olarak)distealingkelimesini türetmiş gibi görünüyor (metinde buna değiniliyor).Açıklama için teşekkürler.
> Geopolitics: Distealing
> Jeopolitik meseleler: Distealing
> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> "Distealing", benim uydurduğum bir terim; modellerin "izinsiz distilasyonu" anlamına geliyor
Demek ki orijinal metinde içerik varmış. Teşekkürler.
Hacker News yorumu
R1'in karmaşık fikirleri basit pekiştirmeli öğrenmeyle değiştirdiği iddiasına karşılık, gerçekte pekiştirmeli öğrenme ile denetimli öğrenmeyi karışık biçimde kullandığı belirtiliyor. Denetimli öğrenmede kullanılan veriler büyük olasılıkla model tarafından üretilmiş değil, insanlar tarafından seçilmişti
Makalede çok fazla abartı var, bu yüzden güvenmek zor
R1'in ana akım haberlerde yer alması kafa karışıklığı ve alarm yarattı. Çin'in ABD'yi tehdit etmediğini açıklamak zor
Yapay zekanın zaten akıl yürütme yapıp yapmadığı sorusu gündeme geliyor
Yapay zekanın yeteneklerinin yakında geometrik olarak artacağı sonucu yeterli temelden yoksun. Yazarın bu sonuca nasıl ulaştığını bilmek iyi olurdu