Resimli DeepSeek-R1
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
DeepSeek-R1'e giriş
- DeepSeek-R1, yapay zeka ilerlemesinde önemli bir dönüm noktasıdır ve ML araştırma-geliştirme topluluğu üzerinde büyük etki yaratmıştır.
- Bu model açık ağırlıklı bir modeldir ve küçük boyutlu distile sürümleri de sunulur.
- OpenAI O1 gibi akıl yürütme modellerini yeniden üretmeye yönelik eğitim yöntemlerini paylaşır ve yansıtır.
-
LLM eğitiminin özeti
- DeepSeek-R1, mevcut LLM'lere benzer şekilde her seferinde bir token üretir ve matematik ile akıl yürütme problemlerini çözmede üstündür.
- Yüksek kaliteli bir LLM oluşturmanın genel süreci şöyledir:
- Büyük miktarda web verisi kullanarak bir sonraki kelimeyi tahmin etmeye dayanan dil modelleme aşaması.
- Modelin talimatları takip etmesini ve sorulara yanıt vermesini sağlayan denetimli ince ayar aşaması.
- Model davranışını insan tercihleriyle uyumlu hale getiren tercih hizalama aşaması.
-
DeepSeek-R1 eğitim süreci
- DeepSeek-R1, DeepSeek-V3 modelinin temel modelini kullanır ve SFT ile tercih hizalama aşamalarından geçer.
- R1 oluşturma sürecinde dikkat çeken üç özel nokta vardır:
- Uzun akıl yürütme zinciri SFT verisi: 600 bin uzun akıl yürütme örneği içerir.
- Geçici yüksek kaliteli akıl yürütme LLM'i: Akıl yürütmeye özel bu model, az miktarda etiketli veri ve büyük ölçekli pekiştirmeli öğrenme ile oluşturulmuştur.
- Büyük ölçekli pekiştirmeli öğrenmeyle akıl yürütme modeli üretimi: R1-Zero adlı model üzerinden akıl yürütme örnekleri üretilir ve bununla genel model eğitilir.
-
R1-Zero'nun özellikleri
- R1-Zero, etiketlenmiş bir SFT eğitim seti olmadan da akıl yürütme görevlerinde üstündür.
- Bu, modern temel modellerin belirli bir kalite ve yetenek seviyesini aşmakta olduğunu gösterir.
- Akıl yürütme problemleri otomatik olarak doğrulanabilir veya etiketlenebilir.
-
SFT akıl yürütme verisi üretimi
- Geçici akıl yürütme modeli, birkaç bin akıl yürütme problemi örneği kullanılarak SFT eğitim aşamasından geçer.
- Bu veri, R1-Zero çıktılarının okunmasını kolaylaştıracak şekilde işlenmesiyle oluşturulur.
-
Genel RL eğitim aşaması
- R1, hem akıl yürütme hem de akıl yürütme dışı görevlerde üstündür.
- Faydalılık ve güvenlik ödül modelleri kullanılarak çeşitli uygulamalara uyarlanır.
-
Mimari
- DeepSeek-R1, 61 Transformer decoder bloğundan oluşur.
- İlk üçü yoğun katmanlardan, geri kalanı ise mixture-of-experts katmanlarından oluşur.
-
Sonuç
- DeepSeek-R1 modelinin temel kavramlarını anlamaya yardımcı olur.
- Ek bilgiler için Hands-On Large Language Models kitabına veya GitHub'a bakılabilir.
Henüz yorum yok.