DeepSeek-R1 nedir?
- OpenAI’nin o1 modeli, LLM'lerin akıl yürütme görevlerini daha iyi yerine getirebilmesi için daha fazla hesaplama kullanılarak eğitildi.
- DeepSeek-R1, OpenAI’nin o1 modeline benzer veya daha iyi performans gösteriyor ve saf pekiştirmeli öğrenme (RL) yoluyla insan denetimi olmadan akıl yürütmeyi öğreniyor.
- DeepSeek-R1’in yayımlanması, veri toplama, model eğitimi ve ölçekleme yasaları hakkında çeşitli soruları gündeme getirdi.
Bunu nasıl yaptılar?
- DeepSeek-R1, DeepSeek-V3 temel alınarak oluşturulmuş bir akıl yürütme modeli ve 671B Mixture of Experts (MoE) modeli.
- DeepSeek-R1-Zero yalnızca pekiştirmeli öğrenme kullanılarak eğitildi ve verimliliği artırmak için Group Relative Policy Optimization (GRPO) kullanıldı.
- DeepSeek-R1, ilk aşamada küçük ölçekli örnekler kullanarak açıklık ve okunabilirliği iyileştirdikten sonra, pekiştirmeli öğrenme ve arıtma aşamalarından geçerek tutarlı yanıtlar üretiyor.
Open-R1: eksik parçalar
- DeepSeek-R1’in yayımlanması topluluk için büyük bir katkı oldu, ancak veri kümesi ve kod paylaşılmadı.
- Open-R1 projesi, DeepSeek-R1’in veri ve eğitim hattını yeniden oluşturmayı ve pekiştirmeli öğrenmenin akıl yürütmeyi nasıl geliştirdiğine dair şeffaflık sağlamayı amaçlıyor.
Open-R1’in adım adım planı
- R1-Distill modelini yeniden üretmek: DeepSeek-R1’den yüksek kaliteli akıl yürütme veri kümesi çıkarımı ve distilasyon eğitimi
- R1-Zero’nun saf RL eğitim hattını kopyalamak: büyük ölçekli matematik, mantık ve kod veri kümeleri oluşturmak
- Temel model → SFT → RL şeklinde adım adım eğitim süreci kurmak
Nasıl katkı sağlanır
- Open-R1 projesine katkı sağlama yolları arasında koda katkı yapmak ve Hugging Face üzerindeki tartışmalara katılmak gibi seçenekler bulunuyor.
- Bu proje yalnızca sonuçları yeniden üretmeye değil, aynı zamanda içgörüleri toplulukla paylaşmaya da odaklanıyor.
Henüz yorum yok.