16 puan yazan GN⁺ 2025-01-29 | Henüz yorum yok. | WhatsApp'ta paylaş

DeepSeek-R1 nedir?

  • OpenAI’nin o1 modeli, LLM'lerin akıl yürütme görevlerini daha iyi yerine getirebilmesi için daha fazla hesaplama kullanılarak eğitildi.
  • DeepSeek-R1, OpenAI’nin o1 modeline benzer veya daha iyi performans gösteriyor ve saf pekiştirmeli öğrenme (RL) yoluyla insan denetimi olmadan akıl yürütmeyi öğreniyor.
  • DeepSeek-R1’in yayımlanması, veri toplama, model eğitimi ve ölçekleme yasaları hakkında çeşitli soruları gündeme getirdi.

Bunu nasıl yaptılar?

  • DeepSeek-R1, DeepSeek-V3 temel alınarak oluşturulmuş bir akıl yürütme modeli ve 671B Mixture of Experts (MoE) modeli.
  • DeepSeek-R1-Zero yalnızca pekiştirmeli öğrenme kullanılarak eğitildi ve verimliliği artırmak için Group Relative Policy Optimization (GRPO) kullanıldı.
  • DeepSeek-R1, ilk aşamada küçük ölçekli örnekler kullanarak açıklık ve okunabilirliği iyileştirdikten sonra, pekiştirmeli öğrenme ve arıtma aşamalarından geçerek tutarlı yanıtlar üretiyor.

Open-R1: eksik parçalar

  • DeepSeek-R1’in yayımlanması topluluk için büyük bir katkı oldu, ancak veri kümesi ve kod paylaşılmadı.
  • Open-R1 projesi, DeepSeek-R1’in veri ve eğitim hattını yeniden oluşturmayı ve pekiştirmeli öğrenmenin akıl yürütmeyi nasıl geliştirdiğine dair şeffaflık sağlamayı amaçlıyor.

Open-R1’in adım adım planı

  1. R1-Distill modelini yeniden üretmek: DeepSeek-R1’den yüksek kaliteli akıl yürütme veri kümesi çıkarımı ve distilasyon eğitimi
  2. R1-Zero’nun saf RL eğitim hattını kopyalamak: büyük ölçekli matematik, mantık ve kod veri kümeleri oluşturmak
  3. Temel model → SFT → RL şeklinde adım adım eğitim süreci kurmak

Nasıl katkı sağlanır

  • Open-R1 projesine katkı sağlama yolları arasında koda katkı yapmak ve Hugging Face üzerindeki tartışmalara katılmak gibi seçenekler bulunuyor.
  • Bu proje yalnızca sonuçları yeniden üretmeye değil, aynı zamanda içgörüleri toplulukla paylaşmaya da odaklanıyor.

Henüz yorum yok.

Henüz yorum yok.