DeepSeek-R1 modeli duyuruldu

(github.com/deepseek-ai)

8 puan yazan GN⁺ 2025-01-21 | 5 yorum | WhatsApp'ta paylaş

DeepSeek, ilk nesil muhakeme modeli olan DeepSeek-R1-Zero ve DeepSeek-R1 modellerini duyurdu
DeepSeek-R1-Zero yalnızca büyük ölçekli reinforcement learning (RL) ile eğitildi ve kendi başına çeşitli muhakeme yetenekleri edindi
Ancak tekrar/okunabilirlik sorunları ve dil karışımı ortaya çıktığı için, bunları gidermek ve performansı artırmak amacıyla SFT aşaması eklenen DeepSeek-R1 sunuldu
DeepSeek-R1, matematik, kod ve muhakeme görevlerinde OpenAI-o1 seviyesinde performansa ulaşıyor
Araştırma topluluğunu desteklemek için DeepSeek-R1-Zero, DeepSeek-R1 ve bu modellerden muhakeme kalıpları aktarılıp oluşturulan distillation modelleri yayımlandı
Özellikle DeepSeek-R1-Distill-Qwen-32B modeli, OpenAI-o1-mini'yi aşan performans elde etti

Model özeti

Post-Training: temel model üzerinde büyük ölçekli reinforcement learning
- DeepSeek-R1-Zero, SFT olmadan yalnızca RL uygulanan ilk nesil modeldir
- RL süreci sayesinde Chain-of-thought keşif yeteneği, öz doğrulama, reflection gibi çeşitli muhakeme kalıplarını edindi
- Bu, "SFT olmadan da büyük modellerin yalnızca RL ile güçlü muhakeme yetenekleri kazanabileceğini" gösteriyor
- DeepSeek-R1 ise bu süreci temel alıp araya SFT ekleyerek muhakeme yeteneğini ve genel dil kullanım becerisini daha da güçlendirdi
Distillation: küçük modeller de güçlü olabilir
- Büyük modelin öğrendiği muhakeme kalıplarının küçük modellere de aktarılabileceği gösterildi
- DeepSeek-R1'in ürettiği veriler kullanılarak Qwen, Llama serileri gibi modellere fine-tuning uygulandı ve küçük dense modeller de başarılı performans gösterdi
- 1.5B, 7B, 8B, 14B, 32B, 70B gibi farklı boyutlarda distill modeller yayımlandı

Model indirme

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- Parametreler: toplam 671B (gerçekte etkin parametre sayısı 37B)
- Bağlam uzunluğu 128K
- HuggingFace üzerinden indirilebilir ve DeepSeek-V3-Base modeli temel alınarak RL yöntemiyle eğitildi

DeepSeek-R1-Distill Models

Qwen2.5 ve Llama3 serileri temel alınarak distillation yapıldı
1.5B'den 70B'ye kadar farklı parametre boyutları sunuluyor
DeepSeek-R1'in ürettiği yüksek kaliteli muhakeme verileriyle fine-tuning yapıldı
Bazı ayarlar (tokenizer, config) değiştirildiği için belirtilen ayarların kullanılması gerekiyor

Değerlendirme sonuçları

DeepSeek-R1-Evaluation

DeepSeek-R1; İngilizce (MMLU, DROP vb.), kod (Codeforces, LiveCodeBench vb.), matematik (AIME, MATH-500 vb.) ve Çince (C-Eval vb.) alanlarında yüksek puanlar aldı
Özellikle matematik tarafında AIME, MATH-500 gibi testlerde yüksek pass@1 sonuçları gösterdi
OpenAI-o1-mini, Claude, GPT-4 gibi modellerle karşılaştırıldığında birçok kalemde rekabetçi performans sergiledi

Distilled Model Evaluation

Distillation modelleri de matematik (AIME, MATH vb.) ve kod (Codeforces vb.) benchmark'larında dikkat çekici sonuçlar gösterdi
DeepSeek-R1-Distill-Qwen-32B ve DeepSeek-R1-Distill-Llama-70B, yüksek pass@1 ve kod çözme performansıyla daha küçük modellerin kullanım potansiyeline işaret ediyor

Sohbet sitesi & API platformu

chat.deepseek.com üzerinden DeepSeek-R1 ile sohbet deneyimi yaşanabiliyor
OpenAI uyumlu API platformu platform.deepseek.com da sunuluyor

Yerelde çalıştırma yöntemi

DeepSeek-R1 Models

DeepSeek-V3 deposuna bakarak 128K token maksimum uzunluk ayarı gibi ayrıntılar kontrol edildikten sonra çalıştırılabilir

DeepSeek-R1-Distill Models

Qwen ve Llama modelleriyle aynı şekilde kullanılabilir
Örnek: vLLM, SGLang gibi araçlarla hızlıca servis edilebilir
Sıcaklığın (temperature) yaklaşık 0.5~0.7 olarak ayarlanması önerilir

Lisans

DeepSeek-R1 serisi MIT lisansı altında dağıtılıyor
Ancak Qwen tabanlı modellerin Apache 2.0, Llama tabanlı modellerin ise llama3.x lisansını izlediğine dikkat edilmeli
Ticari kullanım izni, değiştirme ve türev model oluşturma gibi esnek bir lisans politikasına sahip

5 yorum

xguru 2025-01-21

Deepseek - Çin'in yapay zeka rekabetine liderlik eden sessiz dev
Deepseek V3, aşırı uyum olup olmadığını test eden benchmark'ta iyi bir performans göstermedi
DeepSeek v3 hakkında notlar - "Gerçekten GPT-4o veya 3.5 Sonnet'ten daha mı iyi?"

crawler 2025-01-21

Böyle yorumlara düzgün görünen bağlantılar ekleyen ya da ana metinden alıntı yapan kişiler de gördüm; acaba yorumlarda kullanılabilecek sözdizimlerinin topluca açıklandığı bir yer var mı? Birkaç gündür bakınca siteyi giderek daha çok beğenmeye başladım, ben de yorum yazmak istiyorum gibi oldu.

savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown desteği
> Hem gövde hem de yorumlarda desteklenir.
> Temel olarak CommonMark kurallarını takip eder.
> Görseller desteklenmez.

crawler 2025-01-21

Teşekkür ederim. Başka bir yorumda alıntı yapmayı deneyecektim ama düzenleyemediğim için güvenli olsun diye kullanmadım; demek ki Markdown doğruymuş.
İşe yarar şekilde kullanacağım haha

GN⁺ 2025-01-21

Hacker News görüşleri

Llama 3'ün quantized sürümünü kullanarak deneyler yürütüyor. Modeli Ollama ve llm-ollama eklentisiyle çalıştırıp log kaydı alıyor. Model yüklendikten sonra uvx kullanarak çeşitli prompt'ları test edebiliyor. Deney sonuçlarını blogunda yazmış.
DeepSeek-R1-Zero; tekrar, okunabilirlik sorunları ve dil karışımı gibi problemler yaşıyordu. Bunu çözmek için DeepSeek-R1 devreye alındı. OpenAI o1 ve QwQ-32B-Preview ile yapılan deneylerde QwQ'nun tekrar döngülerine girme eğilimi vardı. DeepSeek-R1 bu sorunları çözüyor. MIT lisansı ile sunulduğu için daha fazla kişinin değerlendirme yapabilmesi mümkün oldu.
"strawberry" kelimesindeki 'r' sayısını soran soruda modelin kendi kendisiyle tartışarak doğru cevabı bulma sürecini gösterdiğini söylüyor. Bu sürecin eğlenceli olduğu belirtiliyor.
ChatGPT o1, DeepSeek'in DeepThink'i ve Gemini 2.0 Flash Thinking Experimental karşılaştırıldığında en iyi sonucun ChatGPT o1'de olduğu, DeepSeek'in ise en zayıf kaldığı ifade ediliyor. DeepSeek-R1 test edildiğinde ise önceye göre daha iyi performans gösterdiği görülmüş. Kendi kullanım senaryolarında LLM'lerin daha faydalı olduğunu düşünmüş.
Llama 8B modelinin Claude 3.5 Sonnet'ten daha güçlü olduğunu gösteren benchmark sonuçları paylaşılmış. Küçük bir modelin bu kadar güçlü performans göstermesi şaşırtıcı bulunmuş.
Bir yıl önce kurulmuş küçük bir şirketin OpenAI ile rekabet edebilmesi şaşırtıcı bulunuyor. Çin'in yapay zeka alanında ABD'nin önüne geçtiği ve modelleri açık kaynak olarak sunduğu için gerçek bir "Open AI" şirketi olduğu değerlendiriliyor.
DS3 için başlangıçta beklenti yüksekti ancak function calling sorunları, yanıt kalitesinde düşüş ve destek eksikliği gibi problemler fark edildi. Yine de bunun sonucu olarak diğer API'lere giden trafik azaldığı için gecikme süreleri iyileşti.
7b ve 8b sürümleri arasındaki fark konusunda kafa karışıklığı dile getiriliyor. Ollama'ya Qwen 7B sürümünü yüklediğini belirtiyor.

DeepSeek-R1 modeli duyuruldu

Model özeti

Model indirme

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Değerlendirme sonuçları

DeepSeek-R1-Evaluation

Distilled Model Evaluation

Sohbet sitesi & API platformu

Yerelde çalıştırma yöntemi

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Lisans

İlgili okumalar

5 yorum

Hacker News görüşleri