Deepseek R1-0528 sürümü

(huggingface.co)

1 puan yazan GN⁺ 2025-05-29 | 1 yorum | WhatsApp'ta paylaş

Deepseek R1-0528, en yeni LLM olarak yayımlandı
Bu model açık kaynak olarak sunularak erişilebilirliği ve kullanım alanlarını artırıyor
Çeşitli doğal dil işleme ve üretim görevlerinde güçlü performans gösteriyor
Daha hızlı ve verimli bir mimari sayesinde araştırma ve pratik kullanım için avantaj sağlıyor
Yapay zeka alanında rekabetçi ek bir seçenek olarak öne çıkıyor

Deepseek R1-0528 modeline giriş

Deepseek R1-0528, doğal dili anlama ve üretme alanlarında kullanılabilen en yeni büyük dil modelidir (LLM)
Model, Hugging Face üzerinden açık kaynak olarak yayımlandığı için araştırmacılar ve geliştiriciler tarafından serbestçe kullanılabilir
DeepSeek-AI tarafından geliştirilen R1-0528 modeli, büyük ölçekli veri kümeleriyle eğitildi ve metin özetleme, çeviri, soru yanıtlama, kod üretimi gibi çeşitli doğal dil işleme ve üretim görevlerinde uygulanabilir
Daha önce yayımlanmış açık kaynak modellerle karşılaştırıldığında daha yüksek çıkarım hızı ve optimize edilmiş ağ yapısı ile öne çıkıyor
Bu güçlü yönleri sayesinde, araştırma ve gerçek endüstri ortamlarında hızlı ve doğru sonuçlar isteyen geliştiriciler için tercih edilebilecek bir seçenek olarak dikkat çekiyor

Modelin ayırt edici özellikleri ve avantajları

Deepseek R1-0528, ölçeklenebilirlik, verimlilik ve hız açısından mevcut LLM modellerinden ayrışıyor
Geliştiricilerin modeli kolayca özelleştirebilmesi ve farklı dillere ya da alanlara özel olarak uygulayabilmesi için modüler bir yapı benimsiyor
Geliştirilmiş algoritmalar sayesinde eğitim ve çıkarım aşamalarındaki işleme hızı artırıldı
Tüm kullanıcılar Hugging Face kütüphanesi üzerinden modeli kolayca yükleyip kullanabilir

Kullanım alanları ve beklenen etkiler

Yapay zeka araştırmaları, chatbot'lar, otomatik belge üretimi, kod yardımcıları gibi çeşitli pratik senaryolarda kullanılabilir
Açık kaynak olarak yayımlanması sayesinde gerçek veri kümelerine uygulama ve model performansını doğrulama daha özgür hale gelebilir
DeepSeek R1-0528'in yayımlanması, küresel yapay zeka topluluğunda sağlıklı rekabet ortamını ve teknolojik ilerlemeyi teşvik ediyor

1 yorum

GN⁺ 2025-05-29

Hacker News görüşleri

İlk olarak, DeepSeek R1'in openrouter üzerinden 7 sağlayıcıda kullanılabildiğini öğrendim
Link
28 Mayıs tarihli orijinal DeepSeek R1 güncellemesi; performansı OpenAI o1 ile benzer seviyede
Açık kaynak olarak reasoning token'ları da yayımlanmış durumda
Toplam parametre sayısı 671B ve çıkarım sırasında yalnızca 37B etkinleşiyor
Tamamen açık kaynak bir model
- İndirilebilir bir model olup olmadığını merak ediyorum
  openrouter'a alışık değilim ve ollama'da modeli bulamadım, bu yüzden daha fazla araştırmak istiyorum
- Modelin hangi verilerle eğitildiğine dair hiçbir açıklama yok
  İndirilebilir ağırlıklar yayımlandı ama temelde yeniden üretilebilir bir açık kaynak değil
  Eğitim verisini de doğrudan yayımlayan "Open R1" adlı bir proje vardı,
  şu an ne durumda olduğunu merak ediyorum
  Link
- DeepSeek R1'in açık kaynak olduğu iddiasına katılmıyorum
  İndirilebilir olması onun açık kaynak olduğu anlamına gelmez; bunu vurgulamak istiyorum
  Link
DeepSeek R1 hakkında neredeyse hiç bilgi olmaması hayal kırıklığı yaratıyor
Benchmark bilgisi de yok; bana eski Mistral'ın torrent magnet linkini tweet'le bıraktığı günleri hatırlattı
- Günümüzde benchmark'ların çok anlamlı olmadığını düşünüyorum
  Odak noktası yalnızca kamuya açık testlere modeli uydurmak olmuş,
  genellenebilirliği artıracak esaslı gelişmeler ise ihmal ediliyor
  Huggingface leaderboard'una bakınca çeşitli açık kaynak modellerin fine-tune edilmiş sürümleri üst sıralarda, ama pratikte yaygın kullanılmıyorlar
  Link
- Benchmark tablosunda "Overall" ve "Median" puanları görünüyor,
  ama tam olarak hangi alanların test edildiğine dair bilgi yok
  Genel olarak en yeni modellerle benzer görünüyor, ancak maliyet tarafında küçük bir avantajı var
  Dezavantajı ise önceki r1'e benzer biçimde yavaş çıkarım hızı (çok fazla token tüketiyor)
  Tablo linki
- DeepSeek'in duyuru tarzı eski Mistral'a benziyor; bunun kasıtlı bir selam duruşu olup olmadığını merak ediyorum
- DeepSeek genelde modeli yayımladıktan hemen ertesi gün makaleyi de yüklüyor
  Takvimi biraz daha iyi ayarlasalar daha derli toplu olurdu, çünkü şu anda haber biraz dağınık ilerliyor
DeepSeek'in, eski iOS sürümü kurulu bir iPod Touch'ta çalışabilen nadir LLM'lerden biri olması ilginç
DeepSeek'in yeni güncellemeleri büyük olaymış gibi sunmadan pat diye yayımlaması hoşuma gidiyor
Büyük iyileştirmeler olsa bile ayrı bir tanıtım olmadan sessizce bırakılan bu tarzı seviyorum
- Gerçekten büyük bir iyileştirme olup olmadığını merak ediyorum
  Benchmark gibi resmî karşılaştırma verileri var mı, bilmek isterim
- OpenAI ve hatta Anthropic son dönemde yeni modelleri abartılı biçimde tanıtıp
  'bu model ne kadar tehlikeli, nasıl kaçıyor, insanları nasıl kandırıyor, çekirdek sunucuları nasıl hackledi' gibi anlatılar ekleyerek
  kâbusvari bir hava yaratırken, DeepSeek bunu abartıya kaçmadan sade biçimde yayımlıyor
- Aslında resmî duyurunun WeChat üzerinden yapıldığı anlaşılıyor
- Bu sessiz yayımlama tarzı güzel ama yine de benchmark gibi sayısal veriler de verilse daha iyi olurdu
- Nvidia bilanço açıklamasıyla aynı gün yayımlanmış olması da eğlenceli bir tesadüf gibi geliyor
Böyle büyük bir LLM'yi sıradan birinin yavaş da olsa kullanabilmesi için tam olarak nasıl bir donanım gerektiğini merak ediyorum
Son kullanıcıların ayarları kolayca kısarak ya da model boyutunu küçülterek kullanmasının bir yolu olup olmadığını da bilmek istiyorum
- DeepSeek R1'i offloading ve 1.58bit quantization ile yerel cihazda çalıştırmayı başarmışlar
  İlgili bilgi: Link
  Yeni sürüm üzerinde de çalışılıyor
- 4bit quantized sürüm M3 Ultra 512GB üzerinde çalışabiliyor
  Fiyatı oldukça yüksek
  Başka bir yol olarak 500GB DDR5 RAM'e sahip yüksek performanslı CPU sistemleri kullanılabilir
  Bu da ucuz değil ve M3 Ultra'dan daha yavaş
  Bir diğer seçenek de birkaç Nvidia GPU ile toplam 500GB VRAM oluşturmak
  Bu en pahalı seçenek ama hızı daha yüksek
- Çift soketli sunucu anakartına 768GB DDR5 RAM ve prompt işleme için en az 16GB GPU eklemek gerekiyor
  8~10 token/saniye hızında çalıştırmak için yüz binlerce lira gerekiyor
- 2 bin dolarlık ikinci el çift soket Xeon sistemine DDR4 768GB takarak
  4bit quantized sürümü saniyede yaklaşık 1.5 token hızında çalıştırıyorum
- Amazon üzerinde 10 bin token başına yaklaşık 1 sent maliyetle kullanılabiliyor
  EC2 instance'ını elle kurmaya yönelik bir rehber de var
  Örnek olarak g6e.48xlarge instance'ı (192 vCPU, 1536GB RAM, 8 adet L40S Tensor Core GPU, her biri 48GB VRAM)
  Aylık kullanım maliyeti yaklaşık 22 bin dolar seviyesinde
  Bedrock DeepSeek rehberi
  Manuel dağıtım rehberi
En son R1 sürümü için beklenti yüksek
685B parametre ölçeğinde; model kartı, release note'lar, değişiklik detayları ve context window bilgisi yok
Orijinal R1'in çıktı kalitesi etkileyiciydi ama token tüketiminin yüksek olması eksiydi
Daha fazla bilginin yayımlanmasını bekliyorum
o4 mini high'a kıyasla yaklaşık yarı fiyatına olup performans farkının büyük olmaması da ilgi çekici
Sağlayıcıların çoğunun quantized sürümleri yüklediğini de gördüm
DeepSeek'e benzer performans almak için en az 8 adet h100 80GB GPU gerekiyor
- Saatlik maliyetin yaklaşık 16~24 dolar olacağını tahmin ediyorum
  Çok fazla token kullanılıyorsa OpenAI'a kıyasla çok daha ucuza kullanılabilir
Groq'ta DeepSeek'i bir an önce denemek istiyorum
- Groq'ta gerçek DeepSeek model desteği yok
  Şu anda yalnızca DeepSeek-r1-distill-llama-70b destekleniyor ve bu, llama 70b üzerine distilled edilmiş bir model
  Groq model rehberi

Deepseek R1-0528 sürümü

Deepseek R1-0528 modeline giriş

Modelin ayırt edici özellikleri ve avantajları

Kullanım alanları ve beklenen etkiler

İlgili okumalar

1 yorum

Hacker News görüşleri