8 puan yazan GN⁺ 2025-01-21 | 5 yorum | WhatsApp'ta paylaş
  • DeepSeek, ilk nesil muhakeme modeli olan DeepSeek-R1-Zero ve DeepSeek-R1 modellerini duyurdu
  • DeepSeek-R1-Zero yalnızca büyük ölçekli reinforcement learning (RL) ile eğitildi ve kendi başına çeşitli muhakeme yetenekleri edindi
  • Ancak tekrar/okunabilirlik sorunları ve dil karışımı ortaya çıktığı için, bunları gidermek ve performansı artırmak amacıyla SFT aşaması eklenen DeepSeek-R1 sunuldu
  • DeepSeek-R1, matematik, kod ve muhakeme görevlerinde OpenAI-o1 seviyesinde performansa ulaşıyor
  • Araştırma topluluğunu desteklemek için DeepSeek-R1-Zero, DeepSeek-R1 ve bu modellerden muhakeme kalıpları aktarılıp oluşturulan distillation modelleri yayımlandı
  • Özellikle DeepSeek-R1-Distill-Qwen-32B modeli, OpenAI-o1-mini'yi aşan performans elde etti

Model özeti

  • Post-Training: temel model üzerinde büyük ölçekli reinforcement learning

    • DeepSeek-R1-Zero, SFT olmadan yalnızca RL uygulanan ilk nesil modeldir
    • RL süreci sayesinde Chain-of-thought keşif yeteneği, öz doğrulama, reflection gibi çeşitli muhakeme kalıplarını edindi
    • Bu, "SFT olmadan da büyük modellerin yalnızca RL ile güçlü muhakeme yetenekleri kazanabileceğini" gösteriyor
    • DeepSeek-R1 ise bu süreci temel alıp araya SFT ekleyerek muhakeme yeteneğini ve genel dil kullanım becerisini daha da güçlendirdi
  • Distillation: küçük modeller de güçlü olabilir

    • Büyük modelin öğrendiği muhakeme kalıplarının küçük modellere de aktarılabileceği gösterildi
    • DeepSeek-R1'in ürettiği veriler kullanılarak Qwen, Llama serileri gibi modellere fine-tuning uygulandı ve küçük dense modeller de başarılı performans gösterdi
    • 1.5B, 7B, 8B, 14B, 32B, 70B gibi farklı boyutlarda distill modeller yayımlandı

Model indirme

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Parametreler: toplam 671B (gerçekte etkin parametre sayısı 37B)
    • Bağlam uzunluğu 128K
    • HuggingFace üzerinden indirilebilir ve DeepSeek-V3-Base modeli temel alınarak RL yöntemiyle eğitildi

DeepSeek-R1-Distill Models

  • Qwen2.5 ve Llama3 serileri temel alınarak distillation yapıldı
  • 1.5B'den 70B'ye kadar farklı parametre boyutları sunuluyor
  • DeepSeek-R1'in ürettiği yüksek kaliteli muhakeme verileriyle fine-tuning yapıldı
  • Bazı ayarlar (tokenizer, config) değiştirildiği için belirtilen ayarların kullanılması gerekiyor

Değerlendirme sonuçları

DeepSeek-R1-Evaluation

  • DeepSeek-R1; İngilizce (MMLU, DROP vb.), kod (Codeforces, LiveCodeBench vb.), matematik (AIME, MATH-500 vb.) ve Çince (C-Eval vb.) alanlarında yüksek puanlar aldı
  • Özellikle matematik tarafında AIME, MATH-500 gibi testlerde yüksek pass@1 sonuçları gösterdi
  • OpenAI-o1-mini, Claude, GPT-4 gibi modellerle karşılaştırıldığında birçok kalemde rekabetçi performans sergiledi

Distilled Model Evaluation

  • Distillation modelleri de matematik (AIME, MATH vb.) ve kod (Codeforces vb.) benchmark'larında dikkat çekici sonuçlar gösterdi
  • DeepSeek-R1-Distill-Qwen-32B ve DeepSeek-R1-Distill-Llama-70B, yüksek pass@1 ve kod çözme performansıyla daha küçük modellerin kullanım potansiyeline işaret ediyor

Sohbet sitesi & API platformu

Yerelde çalıştırma yöntemi

DeepSeek-R1 Models

  • DeepSeek-V3 deposuna bakarak 128K token maksimum uzunluk ayarı gibi ayrıntılar kontrol edildikten sonra çalıştırılabilir

DeepSeek-R1-Distill Models

  • Qwen ve Llama modelleriyle aynı şekilde kullanılabilir
  • Örnek: vLLM, SGLang gibi araçlarla hızlıca servis edilebilir
  • Sıcaklığın (temperature) yaklaşık 0.5~0.7 olarak ayarlanması önerilir

Lisans

  • DeepSeek-R1 serisi MIT lisansı altında dağıtılıyor
  • Ancak Qwen tabanlı modellerin Apache 2.0, Llama tabanlı modellerin ise llama3.x lisansını izlediğine dikkat edilmeli
  • Ticari kullanım izni, değiştirme ve türev model oluşturma gibi esnek bir lisans politikasına sahip

5 yorum

 
crawler 2025-01-21

Böyle yorumlara düzgün görünen bağlantılar ekleyen ya da ana metinden alıntı yapan kişiler de gördüm; acaba yorumlarda kullanılabilecek sözdizimlerinin topluca açıklandığı bir yer var mı? Birkaç gündür bakınca siteyi giderek daha çok beğenmeye başladım, ben de yorum yazmak istiyorum gibi oldu.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown desteği
> Hem gövde hem de yorumlarda desteklenir.
> Temel olarak CommonMark kurallarını takip eder.
> Görseller desteklenmez.

 
crawler 2025-01-21

Teşekkür ederim. Başka bir yorumda alıntı yapmayı deneyecektim ama düzenleyemediğim için güvenli olsun diye kullanmadım; demek ki Markdown doğruymuş.
İşe yarar şekilde kullanacağım haha

 
GN⁺ 2025-01-21
Hacker News görüşleri
  • Llama 3'ün quantized sürümünü kullanarak deneyler yürütüyor. Modeli Ollama ve llm-ollama eklentisiyle çalıştırıp log kaydı alıyor. Model yüklendikten sonra uvx kullanarak çeşitli prompt'ları test edebiliyor. Deney sonuçlarını blogunda yazmış.

  • DeepSeek-R1-Zero; tekrar, okunabilirlik sorunları ve dil karışımı gibi problemler yaşıyordu. Bunu çözmek için DeepSeek-R1 devreye alındı. OpenAI o1 ve QwQ-32B-Preview ile yapılan deneylerde QwQ'nun tekrar döngülerine girme eğilimi vardı. DeepSeek-R1 bu sorunları çözüyor. MIT lisansı ile sunulduğu için daha fazla kişinin değerlendirme yapabilmesi mümkün oldu.

  • "strawberry" kelimesindeki 'r' sayısını soran soruda modelin kendi kendisiyle tartışarak doğru cevabı bulma sürecini gösterdiğini söylüyor. Bu sürecin eğlenceli olduğu belirtiliyor.

  • ChatGPT o1, DeepSeek'in DeepThink'i ve Gemini 2.0 Flash Thinking Experimental karşılaştırıldığında en iyi sonucun ChatGPT o1'de olduğu, DeepSeek'in ise en zayıf kaldığı ifade ediliyor. DeepSeek-R1 test edildiğinde ise önceye göre daha iyi performans gösterdiği görülmüş. Kendi kullanım senaryolarında LLM'lerin daha faydalı olduğunu düşünmüş.

  • Llama 8B modelinin Claude 3.5 Sonnet'ten daha güçlü olduğunu gösteren benchmark sonuçları paylaşılmış. Küçük bir modelin bu kadar güçlü performans göstermesi şaşırtıcı bulunmuş.

  • Bir yıl önce kurulmuş küçük bir şirketin OpenAI ile rekabet edebilmesi şaşırtıcı bulunuyor. Çin'in yapay zeka alanında ABD'nin önüne geçtiği ve modelleri açık kaynak olarak sunduğu için gerçek bir "Open AI" şirketi olduğu değerlendiriliyor.

  • DS3 için başlangıçta beklenti yüksekti ancak function calling sorunları, yanıt kalitesinde düşüş ve destek eksikliği gibi problemler fark edildi. Yine de bunun sonucu olarak diğer API'lere giden trafik azaldığı için gecikme süreleri iyileşti.

  • 7b ve 8b sürümleri arasındaki fark konusunda kafa karışıklığı dile getiriliyor. Ollama'ya Qwen 7B sürümünü yüklediğini belirtiyor.