5 puan yazan GN⁺ 2025-02-12 | 1 yorum | WhatsApp'ta paylaş
  • DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B modelinin pekiştirmeli öğrenme (RL) ile ince ayarlanmış sürümü
  • AIME2024 Pass@1 doğruluğunda %43,1’e ulaştı (temel modele göre +%14,3 iyileşme),
    → OpenAI o1-preview performansını geride bırakıyor!
  • 3.800 A100 GPU saati ($4500) ile eğitildi → 70.000 A100 GPU saatine kıyasla 18,42 kat daha verimli RL ölçeklendirmesi
  • Veri kümesi, kod ve eğitim logları açık kaynak olarak yayımlandı → herkes RL kullanarak zeka ölçeklendirmesini deneyebilir

RL ile küçük modelleri güçlendirme

  • Deepseek-R1, OpenAI o1 ile yarışabilecek bir açık kaynak model, ancak tam eğitim süreci gizli
  • Az hesaplama gücüyle güçlü akıl yürütme modelleri geliştirmenin yollarını RL ile araştırıyor
  • Mevcut RL’in en büyük sınırlaması yüksek maliyet:
    Deepseek-R1 deneyini yeniden üretmek için en az 70.000 A100 GPU saati gerekiyor
  • Çözüm:
    • yüksek performanslı bilgi damıtımı (distillation) modeli kullanımı
    • RL’i kademeli olarak genişleten "Iterative Lengthening" tekniğinin uygulanması → hesaplama maliyeti 3.800 A100 GPU saatine indirildi

Veri kümesi oluşturma

  • AIME (1984-2023) + AMC (2023 öncesi) + Omni-MATH + Still veri kümeleri kullanıldı

  • Veri temizleme süreci:

    1. Cevap çıkarma: gemini-1.5-pro-002 kullanılarak resmi çözümlerden cevap çıkarıldı
    2. Tekrar kaldırma: sentence-transformers/all-MiniLM-L6-v2 gömmeleri temel alınarak benzer sorular çıkarıldı
    3. Puanlanamayan soruların filtrelenmesi: sympy ile otomatik değerlendirmesi zor olan sorular kaldırıldı
  • Sonuçta 40.000 soru-cevap çifti elde edildi; veri kümesinin ileride genişletilmesi planlanıyor

Ödül fonksiyonu (Reward Function)

  • Deepseek-R1 ile aynı şekilde "Outcome Reward Model (ORM)" uygulandı:

    • 1 puan: doğru biçimde verilmiş cevap (sympy doğrulamasını geçer)
    • 0 puan: yanlış cevap, biçim hatası (<think>...</think> eksikliği vb.)
  • "Süreç tabanlı ödül (Process Reward Model, PRM)" kullanılmamasının nedeni:

    • ödül hack’ini (reward hacking) önlemek → modelin yalnızca biçimi taklit etmeye yönelmesini engellemek

"Iterative Lengthening": RL eğitimini aşamalı olarak genişleten teknik

Step 1: 8K bağlamla RL eğitimine başlama

  • Neden:
    • yanlış cevapların ortalaması 20.346 token, doğru cevapların ortalaması 6.395 token → uzun yanıtlar hatalı olma olasılığını artırıyor
    • en baştan uzun bağlamla eğitmek verimsiz → önce 8K’da optimize edildi
  • Sonuç:
    • AIME Pass@1 %28,9 → %33,9 (+%5)
    • gereksiz token sayısı azaldı → ortalama yanıt uzunluğu 10.484 token kısaldı

Step 2: 16K bağlama genişletme

  • 1.000 eğitim adımından sonra modelin daha uzun düşünme (akıl yürütme) eğilimi gösterdiği görüldü
  • Ancak 8K sınırı nedeniyle eğitim etkisi sınırlı kaldı → 16K’ya genişletildi
  • Avantajlar:
    • en baştan 16K ile eğitmeye göre 2 kattan daha hızlı (ortalama yanıt uzunluğunun 3.000 → 9.000 tokena çıkmasını önlüyor)
    • AIME2024 doğruluğu %38’e ulaştı

Step 3: "24K Magic" - son performans artışı

  • 16K’de performans durakladı → son kez 24K bağlama genişletildi
  • Sonuç olarak AIME2024 Pass@1 doğruluğu %43,1’e ulaştı ve OpenAI o1-preview geride bırakıldı!

Nihai değerlendirme sonuçları

  • DeepScaleR modeli; AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench gibi çeşitli matematik kıyaslamalarında değerlendirildi
  • AIME2024 bazında DeepScaleR-1.5B-Preview doğruluğu %43,1 ile OpenAI o1-preview modelinden daha iyi
  • MATH 500 ve AMC 2023 gibi testlerde de 1.5B model olmasına rağmen 7B modellerle aynı ya da daha yüksek performans gösterdi
  • Önceki çalışmalarla (RL tabanlı rStar, PRIME, SimpleRL) karşılaştırıldığında da en yüksek verimliliği gösterdi

Temel özet (Key Takeaways)

  1. Küçük modellerde de RL ölçeklendirmesi mümkün

    • Daha önce RL’in yalnızca büyük modellerde etkili olduğu düşünülüyordu
    • Ancak yüksek kaliteli verilerle ince ayarlanmış küçük modeller de RL ile güçlü akıl yürütme yeteneği öğrenebiliyor
    • DeepScaleR, AIME doğruluğunu %28,9’dan %43,1’e çıkardı
  2. "Iterative Lengthening" tekniğiyle etkili bağlam uzunluğu genişletmesi mümkün

    • Önceki araştırmalar 16K üzeri bağlamlarda performans artışının sınırlı olduğunu bildirmişti
    • 8K → 16K → 24K kademeli genişleme ile performans en üst düzeye çıkarıldı

Sonuç: RL ölçeklendirmesinin demokratikleşmesi

  • DeepScaleR-1.5B-Preview, O1-preview’ı geride bırakan ilk açık kaynak RL modeli
  • Yalnızca 3.800 A100 GPU saati ($4500) ile yüksek performanslı model kurulabileceğini göstererek düşük maliyetli RL araştırmasının mümkün olduğunu kanıtlıyor
  • Açık kaynak topluluğuyla birlikte RL tabanlı akıl yürütme modellerini geliştirmeyi sürdürmeyi planlıyorlar

🔗 Açık kaynak materyaller:

1 yorum

 
GN⁺ 2025-02-12
Hacker News yorumları
  • Bu model, belirli bir problemi çözmek için benchmark’a göre ayarlanmış ve diğer görevlerde O1-Preview’e kıyasla daha kötü performans gösteriyor. Özellikle bu problemi çözmek istemiyorsanız dikkat etmeye değmez. Yine de etkileyici
  • Küçük güçlendirilmiş modeller kazanacak. Medeniyetimize, şirketlerimize, ekiplerimize bakın: çok sayıda uzmanlaşmış insan var, tek bir devasa dahi yok
  • Şu anki sorun, mevcut benchmark’lara aşırı vurgu yapılması. İdeal olarak benchmark’lar kullanıcı KPI’larıyla karşılaştırılarak yapılmalı
  • Önemli olan, belirli görevlerde güçlü performans gösterebilen 1B bir modeli eğitmek için basit ve güvenilir bir formül olması. Daha önce böyle bir şey yoktu. Edge cihazlar çok daha akıllı hale gelecek
  • Çok saf olabilirim ama bu benchmark’lara güvenen var mı? Bunlar gerçekten anlamlı mı? Fazlasıyla kolay manipüle edilebiliyor gibi görünüyor ve modellerin birbirleriyle nasıl karşılaştırıldığını doğru şekilde anlamanın bir yolu gibi gelmiyor. Benchmark’a benzer ama modelin daha önce görmediği problemler eklendiğinde performansın ciddi biçimde düştüğü görülüyor
  • Yeni "akıl yürütme" modellerini test etmek için iyi ve basit bir prompt var mı? "strawberry kelimesindeki R harflerini say" artık biraz sıkıcı
  • Bunu Ollama ve en küçük quantized GGUF sürümüyle (769MB) yerelde deniyorum
  • Buradaki yanıtları kontrol ettikten sonra doğru cevabı aldım: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 . Ancak başlarken kritik bir hata yaptı
  • CoT modelleri harici fonksiyonları çağırabiliyor mu? Bir hesap makinesine erişimi olsa ne olurdu?
  • Bu şekilde sansürlenmemiş bir model elde edebilsek gerçekten harika olurdu
  • Aslında oldukça aptalca. ASCII dizisini çözmesini istedim ve saçma bir yanıt verdi. phi-4 Q4’ü denedim, o doğru bildi. 9GB’a karşı 2GB (akıl yürütme). 2GB’a yeterli bilgi sığdırılamayacağı için, genel matematik problemlerini çözmek veya eğitim verisinde ne olduğunu bilmek dışında pek kullanışlı görünmüyor
  • Üniversitedeyken buna açıkçası overfitting deniyordu. Değerlendirme setinin dışında iyi çalışıyor gibi görünmüyor