-
DeepSeek-R1: LLM'lerin akıl yürütme yeteneğini güçlendirme
- İlk nesil akıl yürütme modelleri olan DeepSeek-R1-Zero ve DeepSeek-R1 tanıtılıyor
- DeepSeek-R1-Zero, büyük ölçekli pekiştirmeli öğrenmeyle eğitildi ve denetimli ince ayar olmadan da üstün akıl yürütme yeteneği gösterdi
- Ancak okunabilirlik sorunları ve dil karışımı gibi zorluklarla karşılaştı
- Bu sorunları gidermek ve akıl yürütme performansını artırmak için, çok aşamalı eğitim ve pekiştirmeli öğrenme öncesi başlangıç verilerinin kullanımını içeren DeepSeek-R1 tanıtıldı
- DeepSeek-R1, OpenAI-o1-1217 ile benzer performansa ulaşıyor
- Araştırma topluluğunu desteklemek için, DeepSeek-R1-Zero, DeepSeek-R1 ve Qwen ile Llama tabanlı damıtılmış 6 yoğun model (1.5B, 7B, 8B, 14B, 32B, 70B) açık kaynak olarak sunuluyor
-
Konular ve alıntı
- Konular: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
- Alıntı: arXiv:2501.12948 [cs.CL]
-
Gönderim geçmişi
- Gönderen: Wenfeng Liang
- Gönderim tarihi: 22 Ocak 2025
-
Erişim yöntemi
- Makaleye PDF, HTML, TeX kaynağı gibi çeşitli biçimlerde erişilebilir
-
Kaynakça ve alıntı araçları
- Çeşitli kaynakça ve alıntı araçları sunuluyor
-
Kod, veri, medya
- İlgili kod ve veri sağlanıyor
-
arXivLabs hakkında bilgi
- arXivLabs hakkında açıklama ve destek bilgileri sunuluyor
1 yorum
Hacker News görüşleri
DeepSeek V3 makalesi zorunlu ön okuma olarak görülüyor
Ollama'nın r1-14b modelini kullandığımda, modelin gerçek zamanlı olarak farklı yaklaşımlar denemesi ve alternatifler arasından seçim yapması insana özgü bir davranışı hatırlatıyor
DeepSeek V3, Claude Sonnet'in sorun yaşamaya başladığı anda tam zamanında ortaya çıktı
DeepSeek'in sohbet özelliği, ChatGPT Pro'dan daha kullanımı kolay
GPT-O1 modelinin düşünme sürecinin modelin içinde gerçekleşmesine şaşırdım
DeepSeek R1'in yalnızca performansı değil, küçük damıtılmış modelleri de etkileyici
Larry Ellison ve Masayoshi Son, ASI aracılığıyla ölümsüzlüğü hedefliyor
Arxiv'de 100'den fazla yazar, ekip adıyla makale yayımlıyor