- Deepseek R1-0528, en yeni LLM olarak yayımlandı
- Bu model açık kaynak olarak sunularak erişilebilirliği ve kullanım alanlarını artırıyor
- Çeşitli doğal dil işleme ve üretim görevlerinde güçlü performans gösteriyor
- Daha hızlı ve verimli bir mimari sayesinde araştırma ve pratik kullanım için avantaj sağlıyor
- Yapay zeka alanında rekabetçi ek bir seçenek olarak öne çıkıyor
Deepseek R1-0528 modeline giriş
- Deepseek R1-0528, doğal dili anlama ve üretme alanlarında kullanılabilen en yeni büyük dil modelidir (LLM)
- Model, Hugging Face üzerinden açık kaynak olarak yayımlandığı için araştırmacılar ve geliştiriciler tarafından serbestçe kullanılabilir
- DeepSeek-AI tarafından geliştirilen R1-0528 modeli, büyük ölçekli veri kümeleriyle eğitildi ve metin özetleme, çeviri, soru yanıtlama, kod üretimi gibi çeşitli doğal dil işleme ve üretim görevlerinde uygulanabilir
- Daha önce yayımlanmış açık kaynak modellerle karşılaştırıldığında daha yüksek çıkarım hızı ve optimize edilmiş ağ yapısı ile öne çıkıyor
- Bu güçlü yönleri sayesinde, araştırma ve gerçek endüstri ortamlarında hızlı ve doğru sonuçlar isteyen geliştiriciler için tercih edilebilecek bir seçenek olarak dikkat çekiyor
Modelin ayırt edici özellikleri ve avantajları
- Deepseek R1-0528, ölçeklenebilirlik, verimlilik ve hız açısından mevcut LLM modellerinden ayrışıyor
- Geliştiricilerin modeli kolayca özelleştirebilmesi ve farklı dillere ya da alanlara özel olarak uygulayabilmesi için modüler bir yapı benimsiyor
- Geliştirilmiş algoritmalar sayesinde eğitim ve çıkarım aşamalarındaki işleme hızı artırıldı
- Tüm kullanıcılar Hugging Face kütüphanesi üzerinden modeli kolayca yükleyip kullanabilir
Kullanım alanları ve beklenen etkiler
- Yapay zeka araştırmaları, chatbot'lar, otomatik belge üretimi, kod yardımcıları gibi çeşitli pratik senaryolarda kullanılabilir
- Açık kaynak olarak yayımlanması sayesinde gerçek veri kümelerine uygulama ve model performansını doğrulama daha özgür hale gelebilir
- DeepSeek R1-0528'in yayımlanması, küresel yapay zeka topluluğunda sağlıklı rekabet ortamını ve teknolojik ilerlemeyi teşvik ediyor
1 yorum
Hacker News görüşleri
İlk olarak, DeepSeek R1'in openrouter üzerinden 7 sağlayıcıda kullanılabildiğini öğrendim
Link
28 Mayıs tarihli orijinal DeepSeek R1 güncellemesi; performansı OpenAI o1 ile benzer seviyede
Açık kaynak olarak reasoning token'ları da yayımlanmış durumda
Toplam parametre sayısı 671B ve çıkarım sırasında yalnızca 37B etkinleşiyor
Tamamen açık kaynak bir model
İndirilebilir bir model olup olmadığını merak ediyorum
openrouter'a alışık değilim ve ollama'da modeli bulamadım, bu yüzden daha fazla araştırmak istiyorum
Modelin hangi verilerle eğitildiğine dair hiçbir açıklama yok
İndirilebilir ağırlıklar yayımlandı ama temelde yeniden üretilebilir bir açık kaynak değil
Eğitim verisini de doğrudan yayımlayan "Open R1" adlı bir proje vardı,
şu an ne durumda olduğunu merak ediyorum
Link
DeepSeek R1'in açık kaynak olduğu iddiasına katılmıyorum
İndirilebilir olması onun açık kaynak olduğu anlamına gelmez; bunu vurgulamak istiyorum
Link
DeepSeek R1 hakkında neredeyse hiç bilgi olmaması hayal kırıklığı yaratıyor
Benchmark bilgisi de yok; bana eski Mistral'ın torrent magnet linkini tweet'le bıraktığı günleri hatırlattı
Günümüzde benchmark'ların çok anlamlı olmadığını düşünüyorum
Odak noktası yalnızca kamuya açık testlere modeli uydurmak olmuş,
genellenebilirliği artıracak esaslı gelişmeler ise ihmal ediliyor
Huggingface leaderboard'una bakınca çeşitli açık kaynak modellerin fine-tune edilmiş sürümleri üst sıralarda, ama pratikte yaygın kullanılmıyorlar
Link
Benchmark tablosunda "Overall" ve "Median" puanları görünüyor,
ama tam olarak hangi alanların test edildiğine dair bilgi yok
Genel olarak en yeni modellerle benzer görünüyor, ancak maliyet tarafında küçük bir avantajı var
Dezavantajı ise önceki r1'e benzer biçimde yavaş çıkarım hızı (çok fazla token tüketiyor)
Tablo linki
DeepSeek'in duyuru tarzı eski Mistral'a benziyor; bunun kasıtlı bir selam duruşu olup olmadığını merak ediyorum
DeepSeek genelde modeli yayımladıktan hemen ertesi gün makaleyi de yüklüyor
Takvimi biraz daha iyi ayarlasalar daha derli toplu olurdu, çünkü şu anda haber biraz dağınık ilerliyor
DeepSeek'in, eski iOS sürümü kurulu bir iPod Touch'ta çalışabilen nadir LLM'lerden biri olması ilginç
DeepSeek'in yeni güncellemeleri büyük olaymış gibi sunmadan pat diye yayımlaması hoşuma gidiyor
Büyük iyileştirmeler olsa bile ayrı bir tanıtım olmadan sessizce bırakılan bu tarzı seviyorum
Gerçekten büyük bir iyileştirme olup olmadığını merak ediyorum
Benchmark gibi resmî karşılaştırma verileri var mı, bilmek isterim
OpenAI ve hatta Anthropic son dönemde yeni modelleri abartılı biçimde tanıtıp
'bu model ne kadar tehlikeli, nasıl kaçıyor, insanları nasıl kandırıyor, çekirdek sunucuları nasıl hackledi' gibi anlatılar ekleyerek
kâbusvari bir hava yaratırken, DeepSeek bunu abartıya kaçmadan sade biçimde yayımlıyor
Aslında resmî duyurunun WeChat üzerinden yapıldığı anlaşılıyor
Bu sessiz yayımlama tarzı güzel ama yine de benchmark gibi sayısal veriler de verilse daha iyi olurdu
Nvidia bilanço açıklamasıyla aynı gün yayımlanmış olması da eğlenceli bir tesadüf gibi geliyor
Böyle büyük bir LLM'yi sıradan birinin yavaş da olsa kullanabilmesi için tam olarak nasıl bir donanım gerektiğini merak ediyorum
Son kullanıcıların ayarları kolayca kısarak ya da model boyutunu küçülterek kullanmasının bir yolu olup olmadığını da bilmek istiyorum
DeepSeek R1'i offloading ve 1.58bit quantization ile yerel cihazda çalıştırmayı başarmışlar
İlgili bilgi: Link
Yeni sürüm üzerinde de çalışılıyor
4bit quantized sürüm M3 Ultra 512GB üzerinde çalışabiliyor
Fiyatı oldukça yüksek
Başka bir yol olarak 500GB DDR5 RAM'e sahip yüksek performanslı CPU sistemleri kullanılabilir
Bu da ucuz değil ve M3 Ultra'dan daha yavaş
Bir diğer seçenek de birkaç Nvidia GPU ile toplam 500GB VRAM oluşturmak
Bu en pahalı seçenek ama hızı daha yüksek
Çift soketli sunucu anakartına 768GB DDR5 RAM ve prompt işleme için en az 16GB GPU eklemek gerekiyor
8~10 token/saniye hızında çalıştırmak için yüz binlerce lira gerekiyor
2 bin dolarlık ikinci el çift soket Xeon sistemine DDR4 768GB takarak
4bit quantized sürümü saniyede yaklaşık 1.5 token hızında çalıştırıyorum
Amazon üzerinde 10 bin token başına yaklaşık 1 sent maliyetle kullanılabiliyor
EC2 instance'ını elle kurmaya yönelik bir rehber de var
Örnek olarak g6e.48xlarge instance'ı (192 vCPU, 1536GB RAM, 8 adet L40S Tensor Core GPU, her biri 48GB VRAM)
Aylık kullanım maliyeti yaklaşık 22 bin dolar seviyesinde
Bedrock DeepSeek rehberi
Manuel dağıtım rehberi
En son R1 sürümü için beklenti yüksek
685B parametre ölçeğinde; model kartı, release note'lar, değişiklik detayları ve context window bilgisi yok
Orijinal R1'in çıktı kalitesi etkileyiciydi ama token tüketiminin yüksek olması eksiydi
Daha fazla bilginin yayımlanmasını bekliyorum
o4 mini high'a kıyasla yaklaşık yarı fiyatına olup performans farkının büyük olmaması da ilgi çekici
Sağlayıcıların çoğunun quantized sürümleri yüklediğini de gördüm
DeepSeek'e benzer performans almak için en az 8 adet h100 80GB GPU gerekiyor
Çok fazla token kullanılıyorsa OpenAI'a kıyasla çok daha ucuza kullanılabilir
Groq'ta DeepSeek'i bir an önce denemek istiyorum
Şu anda yalnızca DeepSeek-r1-distill-llama-70b destekleniyor ve bu, llama 70b üzerine distilled edilmiş bir model
Groq model rehberi