DeepScaleR: RL kullanarak 1.5B modelle O1-Preview’ı geride bırakmak

(pretty-radio-b75.notion.site)

5 puan yazan GN⁺ 2025-02-12 | 1 yorum | WhatsApp'ta paylaş

DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B modelinin pekiştirmeli öğrenme (RL) ile ince ayarlanmış sürümü
AIME2024 Pass@1 doğruluğunda %43,1’e ulaştı (temel modele göre +%14,3 iyileşme),
→ OpenAI o1-preview performansını geride bırakıyor!
3.800 A100 GPU saati ($4500) ile eğitildi → 70.000 A100 GPU saatine kıyasla 18,42 kat daha verimli RL ölçeklendirmesi
Veri kümesi, kod ve eğitim logları açık kaynak olarak yayımlandı → herkes RL kullanarak zeka ölçeklendirmesini deneyebilir

RL ile küçük modelleri güçlendirme

Deepseek-R1, OpenAI o1 ile yarışabilecek bir açık kaynak model, ancak tam eğitim süreci gizli
Az hesaplama gücüyle güçlü akıl yürütme modelleri geliştirmenin yollarını RL ile araştırıyor
Mevcut RL’in en büyük sınırlaması yüksek maliyet:
→ Deepseek-R1 deneyini yeniden üretmek için en az 70.000 A100 GPU saati gerekiyor
Çözüm:
- yüksek performanslı bilgi damıtımı (distillation) modeli kullanımı
- RL’i kademeli olarak genişleten "Iterative Lengthening" tekniğinin uygulanması → hesaplama maliyeti 3.800 A100 GPU saatine indirildi

Veri kümesi oluşturma

AIME (1984-2023) + AMC (2023 öncesi) + Omni-MATH + Still veri kümeleri kullanıldı
Veri temizleme süreci:
1. Cevap çıkarma: gemini-1.5-pro-002 kullanılarak resmi çözümlerden cevap çıkarıldı
2. Tekrar kaldırma: sentence-transformers/all-MiniLM-L6-v2 gömmeleri temel alınarak benzer sorular çıkarıldı
3. Puanlanamayan soruların filtrelenmesi: sympy ile otomatik değerlendirmesi zor olan sorular kaldırıldı
Sonuçta 40.000 soru-cevap çifti elde edildi; veri kümesinin ileride genişletilmesi planlanıyor
Reklam

Ödül fonksiyonu (Reward Function)

Deepseek-R1 ile aynı şekilde "Outcome Reward Model (ORM)" uygulandı:
- 1 puan: doğru biçimde verilmiş cevap (sympy doğrulamasını geçer)
- 0 puan: yanlış cevap, biçim hatası (<think>...</think> eksikliği vb.)
"Süreç tabanlı ödül (Process Reward Model, PRM)" kullanılmamasının nedeni:
- ödül hack’ini (reward hacking) önlemek → modelin yalnızca biçimi taklit etmeye yönelmesini engellemek

"Iterative Lengthening": RL eğitimini aşamalı olarak genişleten teknik

Step 1: 8K bağlamla RL eğitimine başlama

Neden:
- yanlış cevapların ortalaması 20.346 token, doğru cevapların ortalaması 6.395 token → uzun yanıtlar hatalı olma olasılığını artırıyor
- en baştan uzun bağlamla eğitmek verimsiz → önce 8K’da optimize edildi
Reklam
Sonuç:
- AIME Pass@1 %28,9 → %33,9 (+%5)
- gereksiz token sayısı azaldı → ortalama yanıt uzunluğu 10.484 token kısaldı

Step 2: 16K bağlama genişletme

1.000 eğitim adımından sonra modelin daha uzun düşünme (akıl yürütme) eğilimi gösterdiği görüldü
Ancak 8K sınırı nedeniyle eğitim etkisi sınırlı kaldı → 16K’ya genişletildi
Avantajlar:
- en baştan 16K ile eğitmeye göre 2 kattan daha hızlı (ortalama yanıt uzunluğunun 3.000 → 9.000 tokena çıkmasını önlüyor)
- AIME2024 doğruluğu %38’e ulaştı

Step 3: "24K Magic" - son performans artışı

16K’de performans durakladı → son kez 24K bağlama genişletildi
Sonuç olarak AIME2024 Pass@1 doğruluğu %43,1’e ulaştı ve OpenAI o1-preview geride bırakıldı!

Nihai değerlendirme sonuçları

DeepScaleR modeli; AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench gibi çeşitli matematik kıyaslamalarında değerlendirildi
AIME2024 bazında DeepScaleR-1.5B-Preview doğruluğu %43,1 ile OpenAI o1-preview modelinden daha iyi
MATH 500 ve AMC 2023 gibi testlerde de 1.5B model olmasına rağmen 7B modellerle aynı ya da daha yüksek performans gösterdi
Önceki çalışmalarla (RL tabanlı rStar, PRIME, SimpleRL) karşılaştırıldığında da en yüksek verimliliği gösterdi

Temel özet (Key Takeaways)

Küçük modellerde de RL ölçeklendirmesi mümkün
Reklam
- Daha önce RL’in yalnızca büyük modellerde etkili olduğu düşünülüyordu
- Ancak yüksek kaliteli verilerle ince ayarlanmış küçük modeller de RL ile güçlü akıl yürütme yeteneği öğrenebiliyor
- DeepScaleR, AIME doğruluğunu %28,9’dan %43,1’e çıkardı
"Iterative Lengthening" tekniğiyle etkili bağlam uzunluğu genişletmesi mümkün
- Önceki araştırmalar 16K üzeri bağlamlarda performans artışının sınırlı olduğunu bildirmişti
- 8K → 16K → 24K kademeli genişleme ile performans en üst düzeye çıkarıldı

Sonuç: RL ölçeklendirmesinin demokratikleşmesi

DeepScaleR-1.5B-Preview, O1-preview’ı geride bırakan ilk açık kaynak RL modeli
Yalnızca 3.800 A100 GPU saati ($4500) ile yüksek performanslı model kurulabileceğini göstererek düşük maliyetli RL araştırmasının mümkün olduğunu kanıtlıyor
Açık kaynak topluluğuyla birlikte RL tabanlı akıl yürütme modellerini geliştirmeyi sürdürmeyi planlıyorlar

🔗 Açık kaynak materyaller:

1 yorum

GN⁺ 2025-02-12

Hacker News yorumları

Bu model, belirli bir problemi çözmek için benchmark’a göre ayarlanmış ve diğer görevlerde O1-Preview’e kıyasla daha kötü performans gösteriyor. Özellikle bu problemi çözmek istemiyorsanız dikkat etmeye değmez. Yine de etkileyici
Küçük güçlendirilmiş modeller kazanacak. Medeniyetimize, şirketlerimize, ekiplerimize bakın: çok sayıda uzmanlaşmış insan var, tek bir devasa dahi yok
Şu anki sorun, mevcut benchmark’lara aşırı vurgu yapılması. İdeal olarak benchmark’lar kullanıcı KPI’larıyla karşılaştırılarak yapılmalı
Önemli olan, belirli görevlerde güçlü performans gösterebilen 1B bir modeli eğitmek için basit ve güvenilir bir formül olması. Daha önce böyle bir şey yoktu. Edge cihazlar çok daha akıllı hale gelecek
Çok saf olabilirim ama bu benchmark’lara güvenen var mı? Bunlar gerçekten anlamlı mı? Fazlasıyla kolay manipüle edilebiliyor gibi görünüyor ve modellerin birbirleriyle nasıl karşılaştırıldığını doğru şekilde anlamanın bir yolu gibi gelmiyor. Benchmark’a benzer ama modelin daha önce görmediği problemler eklendiğinde performansın ciddi biçimde düştüğü görülüyor
Yeni "akıl yürütme" modellerini test etmek için iyi ve basit bir prompt var mı? "strawberry kelimesindeki R harflerini say" artık biraz sıkıcı
Bunu Ollama ve en küçük quantized GGUF sürümüyle (769MB) yerelde deniyorum
Buradaki yanıtları kontrol ettikten sonra doğru cevabı aldım: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 . Ancak başlarken kritik bir hata yaptı
CoT modelleri harici fonksiyonları çağırabiliyor mu? Bir hesap makinesine erişimi olsa ne olurdu?
Bu şekilde sansürlenmemiş bir model elde edebilsek gerçekten harika olurdu
Aslında oldukça aptalca. ASCII dizisini çözmesini istedim ve saçma bir yanıt verdi. phi-4 Q4’ü denedim, o doğru bildi. 9GB’a karşı 2GB (akıl yürütme). 2GB’a yeterli bilgi sığdırılamayacağı için, genel matematik problemlerini çözmek veya eğitim verisinde ne olduğunu bilmek dışında pek kullanışlı görünmüyor
Üniversitedeyken buna açıkçası overfitting deniyordu. Değerlendirme setinin dışında iyi çalışıyor gibi görünmüyor

DeepScaleR: RL kullanarak 1.5B modelle O1-Preview’ı geride bırakmak

RL ile küçük modelleri güçlendirme

Veri kümesi oluşturma

Ödül fonksiyonu (Reward Function)

"Iterative Lengthening": RL eğitimini aşamalı olarak genişleten teknik

Step 1: 8K bağlamla RL eğitimine başlama

Step 2: 16K bağlama genişletme

Step 3: "24K Magic" - son performans artışı

Nihai değerlendirme sonuçları

Temel özet (Key Takeaways)

Sonuç: RL ölçeklendirmesinin demokratikleşmesi

İlgili okumalar

1 yorum

Hacker News yorumları