Open-R1: DeepSeek-R1’in tamamen açık kaynak yeniden üretim projesi

(huggingface.co)

16 puan yazan GN⁺ 2025-01-29 | Henüz yorum yok. | WhatsApp'ta paylaş

DeepSeek-R1 nedir?

OpenAI’nin o1 modeli, LLM'lerin akıl yürütme görevlerini daha iyi yerine getirebilmesi için daha fazla hesaplama kullanılarak eğitildi.
DeepSeek-R1, OpenAI’nin o1 modeline benzer veya daha iyi performans gösteriyor ve saf pekiştirmeli öğrenme (RL) yoluyla insan denetimi olmadan akıl yürütmeyi öğreniyor.
DeepSeek-R1’in yayımlanması, veri toplama, model eğitimi ve ölçekleme yasaları hakkında çeşitli soruları gündeme getirdi.

DeepSeek-R1, DeepSeek-V3 temel alınarak oluşturulmuş bir akıl yürütme modeli ve 671B Mixture of Experts (MoE) modeli.
DeepSeek-R1-Zero yalnızca pekiştirmeli öğrenme kullanılarak eğitildi ve verimliliği artırmak için Group Relative Policy Optimization (GRPO) kullanıldı.
DeepSeek-R1, ilk aşamada küçük ölçekli örnekler kullanarak açıklık ve okunabilirliği iyileştirdikten sonra, pekiştirmeli öğrenme ve arıtma aşamalarından geçerek tutarlı yanıtlar üretiyor.

DeepSeek-R1’in yayımlanması topluluk için büyük bir katkı oldu, ancak veri kümesi ve kod paylaşılmadı.
Open-R1 projesi, DeepSeek-R1’in veri ve eğitim hattını yeniden oluşturmayı ve pekiştirmeli öğrenmenin akıl yürütmeyi nasıl geliştirdiğine dair şeffaflık sağlamayı amaçlıyor.

R1-Distill modelini yeniden üretmek: DeepSeek-R1’den yüksek kaliteli akıl yürütme veri kümesi çıkarımı ve distilasyon eğitimi
R1-Zero’nun saf RL eğitim hattını kopyalamak: büyük ölçekli matematik, mantık ve kod veri kümeleri oluşturmak
Temel model → SFT → RL şeklinde adım adım eğitim süreci kurmak

Open-R1 projesine katkı sağlama yolları arasında koda katkı yapmak ve Hugging Face üzerindeki tartışmalara katılmak gibi seçenekler bulunuyor.
Bu proje yalnızca sonuçları yeniden üretmeye değil, aynı zamanda içgörüleri toplulukla paylaşmaya da odaklanıyor.