DeepSeek-R1: Pekiştirmeli öğrenme yoluyla büyük dil modellerinin akıl yürütme yeteneğini geliştirme

(arxiv.org)

3 puan yazan GN⁺ 2025-01-26 | 1 yorum | WhatsApp'ta paylaş

DeepSeek-R1: LLM'lerin akıl yürütme yeteneğini güçlendirme
- İlk nesil akıl yürütme modelleri olan DeepSeek-R1-Zero ve DeepSeek-R1 tanıtılıyor
- DeepSeek-R1-Zero, büyük ölçekli pekiştirmeli öğrenmeyle eğitildi ve denetimli ince ayar olmadan da üstün akıl yürütme yeteneği gösterdi
- Ancak okunabilirlik sorunları ve dil karışımı gibi zorluklarla karşılaştı
- Bu sorunları gidermek ve akıl yürütme performansını artırmak için, çok aşamalı eğitim ve pekiştirmeli öğrenme öncesi başlangıç verilerinin kullanımını içeren DeepSeek-R1 tanıtıldı
- DeepSeek-R1, OpenAI-o1-1217 ile benzer performansa ulaşıyor
- Araştırma topluluğunu desteklemek için, DeepSeek-R1-Zero, DeepSeek-R1 ve Qwen ile Llama tabanlı damıtılmış 6 yoğun model (1.5B, 7B, 8B, 14B, 32B, 70B) açık kaynak olarak sunuluyor
Konular ve alıntı
- Konular: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- Alıntı: arXiv:2501.12948 [cs.CL]
Gönderim geçmişi
- Gönderen: Wenfeng Liang
- Gönderim tarihi: 22 Ocak 2025
Erişim yöntemi
- Makaleye PDF, HTML, TeX kaynağı gibi çeşitli biçimlerde erişilebilir
Kaynakça ve alıntı araçları
- Çeşitli kaynakça ve alıntı araçları sunuluyor
Kod, veri, medya
- İlgili kod ve veri sağlanıyor
arXivLabs hakkında bilgi
- arXivLabs hakkında açıklama ve destek bilgileri sunuluyor

1 yorum

GN⁺ 2025-01-26

Hacker News görüşleri

DeepSeek V3 makalesi zorunlu ön okuma olarak görülüyor
- R1 + Sonnet kombinasyonu diğer kombinasyonlardan daha iyi
- Birden fazla yerde bağımsız yeniden üretim çalışmaları yürütülüyor
- R1 damıtımı çok kolay, bu yüzden sıkça görülecek
- DeepSeek-R1 Silikon Vadisi'nde büyük yankı uyandırdı
Ollama'nın r1-14b modelini kullandığımda, modelin gerçek zamanlı olarak farklı yaklaşımlar denemesi ve alternatifler arasından seçim yapması insana özgü bir davranışı hatırlatıyor
DeepSeek V3, Claude Sonnet'in sorun yaşamaya başladığı anda tam zamanında ortaya çıktı
- DeepSeek'in fiyatı çok ucuz olduğu için büyük avantaj sağlıyor
- Aider ve Cursor'da tamamen DeepSeek'e geçtim
DeepSeek'in sohbet özelliği, ChatGPT Pro'dan daha kullanımı kolay
- Modelin düşünce süreci okunabildiği için hata ayıklama kolaylaşıyor
GPT-O1 modelinin düşünme sürecinin modelin içinde gerçekleşmesine şaşırdım
- OpenAI'ın O1'in düşünce sürecini açıklayıp açıklamayacağını merak ediyorum
DeepSeek R1'in yalnızca performansı değil, küçük damıtılmış modelleri de etkileyici
- Qwen tabanlı 7b damıtılmış model de harika
- 32b damıtılmış model ev sunucusunda varsayılan model olarak kullanılıyor
Larry Ellison ve Masayoshi Son, ASI aracılığıyla ölümsüzlüğü hedefliyor
- ASI geliştirmek için devasa yatırımlar yapıyorlar
Arxiv'de 100'den fazla yazar, ekip adıyla makale yayımlıyor
- Bu durum ekip çalışmasına ve motivasyona katkı sağlıyor

DeepSeek-R1: Pekiştirmeli öğrenme yoluyla büyük dil modellerinin akıl yürütme yeteneğini geliştirme

DeepSeek-R1: LLM'lerin akıl yürütme yeteneğini güçlendirme

Konular ve alıntı

Gönderim geçmişi

Erişim yöntemi

Kaynakça ve alıntı araçları

Kod, veri, medya

arXivLabs hakkında bilgi

İlgili okumalar

1 yorum

Hacker News görüşleri