2 puan yazan GN⁺ 2025-01-28 | Henüz yorum yok. | WhatsApp'ta paylaş

The Illustrated DeepSeek-R1

  • DeepSeek-R1'e giriş

    • DeepSeek-R1, yapay zeka ilerlemesinde önemli bir dönüm noktasıdır ve ML araştırma-geliştirme topluluğu üzerinde büyük etki yaratmıştır.
    • Bu model açık ağırlıklı bir modeldir ve küçük boyutlu distile sürümleri de sunulur.
    • OpenAI O1 gibi akıl yürütme modellerini yeniden üretmeye yönelik eğitim yöntemlerini paylaşır ve yansıtır.
  • LLM eğitiminin özeti

    • DeepSeek-R1, mevcut LLM'lere benzer şekilde her seferinde bir token üretir ve matematik ile akıl yürütme problemlerini çözmede üstündür.
    • Yüksek kaliteli bir LLM oluşturmanın genel süreci şöyledir:
      1. Büyük miktarda web verisi kullanarak bir sonraki kelimeyi tahmin etmeye dayanan dil modelleme aşaması.
      2. Modelin talimatları takip etmesini ve sorulara yanıt vermesini sağlayan denetimli ince ayar aşaması.
      3. Model davranışını insan tercihleriyle uyumlu hale getiren tercih hizalama aşaması.
  • DeepSeek-R1 eğitim süreci

    • DeepSeek-R1, DeepSeek-V3 modelinin temel modelini kullanır ve SFT ile tercih hizalama aşamalarından geçer.
    • R1 oluşturma sürecinde dikkat çeken üç özel nokta vardır:
      1. Uzun akıl yürütme zinciri SFT verisi: 600 bin uzun akıl yürütme örneği içerir.
      2. Geçici yüksek kaliteli akıl yürütme LLM'i: Akıl yürütmeye özel bu model, az miktarda etiketli veri ve büyük ölçekli pekiştirmeli öğrenme ile oluşturulmuştur.
      3. Büyük ölçekli pekiştirmeli öğrenmeyle akıl yürütme modeli üretimi: R1-Zero adlı model üzerinden akıl yürütme örnekleri üretilir ve bununla genel model eğitilir.
  • R1-Zero'nun özellikleri

    • R1-Zero, etiketlenmiş bir SFT eğitim seti olmadan da akıl yürütme görevlerinde üstündür.
    • Bu, modern temel modellerin belirli bir kalite ve yetenek seviyesini aşmakta olduğunu gösterir.
    • Akıl yürütme problemleri otomatik olarak doğrulanabilir veya etiketlenebilir.
  • SFT akıl yürütme verisi üretimi

    • Geçici akıl yürütme modeli, birkaç bin akıl yürütme problemi örneği kullanılarak SFT eğitim aşamasından geçer.
    • Bu veri, R1-Zero çıktılarının okunmasını kolaylaştıracak şekilde işlenmesiyle oluşturulur.
  • Genel RL eğitim aşaması

    • R1, hem akıl yürütme hem de akıl yürütme dışı görevlerde üstündür.
    • Faydalılık ve güvenlik ödül modelleri kullanılarak çeşitli uygulamalara uyarlanır.
  • Mimari

    • DeepSeek-R1, 61 Transformer decoder bloğundan oluşur.
    • İlk üçü yoğun katmanlardan, geri kalanı ise mixture-of-experts katmanlarından oluşur.
  • Sonuç

    • DeepSeek-R1 modelinin temel kavramlarını anlamaya yardımcı olur.
    • Ek bilgiler için Hands-On Large Language Models kitabına veya GitHub'a bakılabilir.

Henüz yorum yok.

Henüz yorum yok.