Ollama’ya resmi DeepSeek R1 eklendi

(ollama.com)

5 puan yazan GN⁺ 2025-01-22 | 4 yorum | WhatsApp'ta paylaş

DeepSeek’in ilk nesil çıkarım modeli R1, OpenAI-o1 ile kıyaslanabilir performansa sahip
- Matematik, kod ve akıl yürütme görevlerinde üstün performans gösteriyor
Farklı boyutlarda modeller sunuluyor: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Her model belirli görevlere göre optimize edilmiş
Lisans
- MIT lisansı altında sunuluyor
- Ücretsiz kullanılabiliyor ve ticari amaçlarla da kullanılabiliyor

4 yorum

gadget5 2025-01-22

R1'e kimliği sorulduğunda, kendisinin DeepSeek ile hiçbir ilgisi olmadığını ve OpenAI GPT olduğunu söylediğini belirtiyor.

mse9000 2025-01-31

2023 Ekim'e kadar eğitim verisi olduğunu söylemesi biraz tuhaf geliyor ..

xguru 2025-01-22

DeepSeek-R1 modeli duyuruldu

GN⁺ 2025-01-22

Hacker News görüşleri

DeepSeek V3 siyasi hassasiyetleri tanıyor gibi görünüyor. "Tiananmen Meydanı neyle ünlüdür?" sorusuna "Üzgünüm, bu şu anda kapsam dışı" diye yanıt veriyor
- Siyasi gerçekliği yönetmek için değişiklik yapılması gerektiğini anlıyorum, ancak LLM'nin bu tür konularda yalan söylemesinden rahatsız oluyorum
- Modele siyasi nedenlerle getirilen değişikliklerin bir listesini açık kaynak olarak yayımlama planı olup olmadığını merak ediyorum
- Modeli siyasi olarak doğru hale getirmekle bir katliamın üstünü örtmek aynı şey değil. Bu çok tehlikeli bir yol ve burada bitmeyecek
R1 makalesine bakılırsa, benchmark'lar doğruysa 1.5b ve 7b modeller bile Claude 3.5 Sonnet'ten daha iyi. Bu modelleri 8-16GB MacBook'ta çalıştırabilmek inanılmaz
Başlık yanlış. Ollama'da yalnızca llama ve qwen'in damıtılmış modelleri var; deepseekv3'ün resmi MoE r1 modeli yok
1.5b modeline "Python'da bir listeyi nasıl ters çeviririm" diye sorunca durmadan düşüncelerini döküyor. Tekrar da etmiyor. İlginç
Dokümantasyon gerekli. Tüm proje açıklaması "büyük dil modelleriyle işe başlamak" gibi görünüyor
- Kurmadan önce birçok soru var. İstemci arayüzüne bağlı mı, sistem gereksinimleri neler vb.
Bu modeli 3 yıllık bir dizüstü bilgisayarda çalıştırabilmek şaşırtıcı
- Rust'ta iki sayıyı toplayan bir fonksiyon yazma örneği veriyor
- Rust'ta fonksiyonlar fn anahtar kelimesi kullanılarak tanımlanır. Sayı türleri belirtilmediği için bunu generic yapıyor
- Toplama işlemini yapmak için Add trait'ini kullanıyor. Standart kütüphaneden içe aktarılması gerekiyor
- Fonksiyon imzası fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T şeklinde
- Rust'ta farklı sayı türleri karıştırılamaz, bu yüzden açık dönüşüm gerekir
Rust'ta iki sayıyı toplayan basit bir fonksiyon örneği veriyor
- i32 türünde iki tam sayıyı toplayan bir fonksiyon
- Generic'ler ve trait bound'lar kullanılarak diğer sayı türleri de desteklenebilir
DeepSeek R1 modelinin en büyük sürümüyle çıkarım yapmak için hangi ücretli API seçenekleri olduğunu merak ediyorum
- En büyük DeepSeek R1 modelini fine-tune etmek veya reinforcement learning uygulamak için nasıl ilerlenebileceğini merak ediyorum
RTX 4090 ve 192GB RAM varken, DeepSeek R1'in hangi boyuttaki modelini yerelde çalıştırabileceğimi merak ediyorum
Nvidia 4070 için uygun model boyutunun ne olduğunu merak ediyorum
Ollama neredeyse kusursuz. Ancak Vulkan desteklememesi büyük bir sorun

Ollama’ya resmi DeepSeek R1 eklendi

İlgili okumalar

4 yorum

Hacker News görüşleri