5 puan yazan GN⁺ 2025-01-22 | 4 yorum | WhatsApp'ta paylaş
  • DeepSeek’in ilk nesil çıkarım modeli R1, OpenAI-o1 ile kıyaslanabilir performansa sahip
    • Matematik, kod ve akıl yürütme görevlerinde üstün performans gösteriyor
  • Farklı boyutlarda modeller sunuluyor: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Her model belirli görevlere göre optimize edilmiş
  • Lisans
    • MIT lisansı altında sunuluyor
    • Ücretsiz kullanılabiliyor ve ticari amaçlarla da kullanılabiliyor

4 yorum

 
gadget5 2025-01-22

R1'e kimliği sorulduğunda, kendisinin DeepSeek ile hiçbir ilgisi olmadığını ve OpenAI GPT olduğunu söylediğini belirtiyor.

 
mse9000 2025-01-31

2023 Ekim'e kadar eğitim verisi olduğunu söylemesi biraz tuhaf geliyor ..

 
GN⁺ 2025-01-22
Hacker News görüşleri
  • DeepSeek V3 siyasi hassasiyetleri tanıyor gibi görünüyor. "Tiananmen Meydanı neyle ünlüdür?" sorusuna "Üzgünüm, bu şu anda kapsam dışı" diye yanıt veriyor

    • Siyasi gerçekliği yönetmek için değişiklik yapılması gerektiğini anlıyorum, ancak LLM'nin bu tür konularda yalan söylemesinden rahatsız oluyorum
    • Modele siyasi nedenlerle getirilen değişikliklerin bir listesini açık kaynak olarak yayımlama planı olup olmadığını merak ediyorum
    • Modeli siyasi olarak doğru hale getirmekle bir katliamın üstünü örtmek aynı şey değil. Bu çok tehlikeli bir yol ve burada bitmeyecek
  • R1 makalesine bakılırsa, benchmark'lar doğruysa 1.5b ve 7b modeller bile Claude 3.5 Sonnet'ten daha iyi. Bu modelleri 8-16GB MacBook'ta çalıştırabilmek inanılmaz

  • Başlık yanlış. Ollama'da yalnızca llama ve qwen'in damıtılmış modelleri var; deepseekv3'ün resmi MoE r1 modeli yok

  • 1.5b modeline "Python'da bir listeyi nasıl ters çeviririm" diye sorunca durmadan düşüncelerini döküyor. Tekrar da etmiyor. İlginç

  • Dokümantasyon gerekli. Tüm proje açıklaması "büyük dil modelleriyle işe başlamak" gibi görünüyor

    • Kurmadan önce birçok soru var. İstemci arayüzüne bağlı mı, sistem gereksinimleri neler vb.
  • Bu modeli 3 yıllık bir dizüstü bilgisayarda çalıştırabilmek şaşırtıcı

    • Rust'ta iki sayıyı toplayan bir fonksiyon yazma örneği veriyor
    • Rust'ta fonksiyonlar fn anahtar kelimesi kullanılarak tanımlanır. Sayı türleri belirtilmediği için bunu generic yapıyor
    • Toplama işlemini yapmak için Add trait'ini kullanıyor. Standart kütüphaneden içe aktarılması gerekiyor
    • Fonksiyon imzası fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T şeklinde
    • Rust'ta farklı sayı türleri karıştırılamaz, bu yüzden açık dönüşüm gerekir
  • Rust'ta iki sayıyı toplayan basit bir fonksiyon örneği veriyor

    • i32 türünde iki tam sayıyı toplayan bir fonksiyon
    • Generic'ler ve trait bound'lar kullanılarak diğer sayı türleri de desteklenebilir
  • DeepSeek R1 modelinin en büyük sürümüyle çıkarım yapmak için hangi ücretli API seçenekleri olduğunu merak ediyorum

    • En büyük DeepSeek R1 modelini fine-tune etmek veya reinforcement learning uygulamak için nasıl ilerlenebileceğini merak ediyorum
  • RTX 4090 ve 192GB RAM varken, DeepSeek R1'in hangi boyuttaki modelini yerelde çalıştırabileceğimi merak ediyorum

  • Nvidia 4070 için uygun model boyutunun ne olduğunu merak ediyorum

  • Ollama neredeyse kusursuz. Ancak Vulkan desteklememesi büyük bir sorun