DeepScaleR: RL kullanarak 1.5B modelle O1-Preview’ı geride bırakmak
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B modelinin pekiştirmeli öğrenme (RL) ile ince ayarlanmış sürümü
- AIME2024 Pass@1 doğruluğunda %43,1’e ulaştı (temel modele göre +%14,3 iyileşme),
→ OpenAIo1-previewperformansını geride bırakıyor! - 3.800 A100 GPU saati ($4500) ile eğitildi → 70.000 A100 GPU saatine kıyasla 18,42 kat daha verimli RL ölçeklendirmesi
- Veri kümesi, kod ve eğitim logları açık kaynak olarak yayımlandı → herkes RL kullanarak zeka ölçeklendirmesini deneyebilir
RL ile küçük modelleri güçlendirme
- Deepseek-R1, OpenAI
o1ile yarışabilecek bir açık kaynak model, ancak tam eğitim süreci gizli - Az hesaplama gücüyle güçlü akıl yürütme modelleri geliştirmenin yollarını RL ile araştırıyor
- Mevcut RL’in en büyük sınırlaması yüksek maliyet:
→Deepseek-R1deneyini yeniden üretmek için en az 70.000 A100 GPU saati gerekiyor - Çözüm:
- yüksek performanslı bilgi damıtımı (distillation) modeli kullanımı
- RL’i kademeli olarak genişleten "Iterative Lengthening" tekniğinin uygulanması → hesaplama maliyeti 3.800 A100 GPU saatine indirildi
Veri kümesi oluşturma
-
AIME (1984-2023) + AMC (2023 öncesi) + Omni-MATH + Still veri kümeleri kullanıldı
-
Veri temizleme süreci:
- Cevap çıkarma:
gemini-1.5-pro-002kullanılarak resmi çözümlerden cevap çıkarıldı - Tekrar kaldırma:
sentence-transformers/all-MiniLM-L6-v2gömmeleri temel alınarak benzer sorular çıkarıldı - Puanlanamayan soruların filtrelenmesi:
sympyile otomatik değerlendirmesi zor olan sorular kaldırıldı
- Cevap çıkarma:
-
Sonuçta 40.000 soru-cevap çifti elde edildi; veri kümesinin ileride genişletilmesi planlanıyor
Ödül fonksiyonu (Reward Function)
-
Deepseek-R1 ile aynı şekilde "Outcome Reward Model (ORM)" uygulandı:
1 puan: doğru biçimde verilmiş cevap (sympydoğrulamasını geçer)0 puan: yanlış cevap, biçim hatası (<think>...</think>eksikliği vb.)
-
"Süreç tabanlı ödül (Process Reward Model, PRM)" kullanılmamasının nedeni:
- ödül hack’ini (reward hacking) önlemek → modelin yalnızca biçimi taklit etmeye yönelmesini engellemek
"Iterative Lengthening": RL eğitimini aşamalı olarak genişleten teknik
Step 1: 8K bağlamla RL eğitimine başlama
- Neden:
- yanlış cevapların ortalaması 20.346 token, doğru cevapların ortalaması 6.395 token → uzun yanıtlar hatalı olma olasılığını artırıyor
- en baştan uzun bağlamla eğitmek verimsiz → önce 8K’da optimize edildi
- Sonuç:
- AIME Pass@1 %28,9 → %33,9 (+%5)
- gereksiz token sayısı azaldı → ortalama yanıt uzunluğu 10.484 token kısaldı
Step 2: 16K bağlama genişletme
- 1.000 eğitim adımından sonra modelin daha uzun düşünme (akıl yürütme) eğilimi gösterdiği görüldü
- Ancak 8K sınırı nedeniyle eğitim etkisi sınırlı kaldı → 16K’ya genişletildi
- Avantajlar:
- en baştan 16K ile eğitmeye göre 2 kattan daha hızlı (ortalama yanıt uzunluğunun 3.000 → 9.000 tokena çıkmasını önlüyor)
- AIME2024 doğruluğu %38’e ulaştı
Step 3: "24K Magic" - son performans artışı
- 16K’de performans durakladı → son kez 24K bağlama genişletildi
- Sonuç olarak AIME2024 Pass@1 doğruluğu %43,1’e ulaştı ve OpenAI
o1-previewgeride bırakıldı!
Nihai değerlendirme sonuçları
- DeepScaleR modeli; AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench gibi çeşitli matematik kıyaslamalarında değerlendirildi
- AIME2024 bazında DeepScaleR-1.5B-Preview doğruluğu %43,1 ile OpenAI
o1-previewmodelinden daha iyi - MATH 500 ve AMC 2023 gibi testlerde de 1.5B model olmasına rağmen 7B modellerle aynı ya da daha yüksek performans gösterdi
- Önceki çalışmalarla (RL tabanlı rStar, PRIME, SimpleRL) karşılaştırıldığında da en yüksek verimliliği gösterdi
Temel özet (Key Takeaways)
-
Küçük modellerde de RL ölçeklendirmesi mümkün
- Daha önce RL’in yalnızca büyük modellerde etkili olduğu düşünülüyordu
- Ancak yüksek kaliteli verilerle ince ayarlanmış küçük modeller de RL ile güçlü akıl yürütme yeteneği öğrenebiliyor
- DeepScaleR, AIME doğruluğunu %28,9’dan %43,1’e çıkardı
-
"Iterative Lengthening" tekniğiyle etkili bağlam uzunluğu genişletmesi mümkün
- Önceki araştırmalar 16K üzeri bağlamlarda performans artışının sınırlı olduğunu bildirmişti
- 8K → 16K → 24K kademeli genişleme ile performans en üst düzeye çıkarıldı
Sonuç: RL ölçeklendirmesinin demokratikleşmesi
- DeepScaleR-1.5B-Preview, O1-preview’ı geride bırakan ilk açık kaynak RL modeli
- Yalnızca 3.800 A100 GPU saati ($4500) ile yüksek performanslı model kurulabileceğini göstererek düşük maliyetli RL araştırmasının mümkün olduğunu kanıtlıyor
- Açık kaynak topluluğuyla birlikte RL tabanlı akıl yürütme modellerini geliştirmeyi sürdürmeyi planlıyorlar
🔗 Açık kaynak materyaller:
1 yorum
Hacker News yorumları