- DeepSeek, amiral gemisi modeli v3'ü yayınladı
- 607B parametreli bir Mixture-of-Experts (MoE) modeli; etkin parametre sayısı 37B
- v3, Llama 3.1 405B, Qwen ve Mistral'ı geride bırakıyor; OpenAI GPT-4o ve Claude 3.5 Sonnet ile aynı seviyede ya da bazı görevlerde onları aşıyor
- Bu, başlıca kapalı modellere rakip olan ilk açık model
TL;DR
- DeepSeek v3, düşük maliyetle etkileyici performans sunuyor
- Model, fiyat/performans açısından olağanüstü bir değer sağlıyor ve bu alanda rakiplerini geride bırakıyor
- MoE mimarisi, FP8 mixed precision eğitimi ve HAI-LLM framework'ü gibi yenilikçi mühendislik yaklaşımları kullanıyor
- Matematik ve akıl yürütmede GPT-4o ve Claude 3.5 Sonnet'i geride bırakıyor
- Kodlama ve yaratıcı işlerde Claude 3.5 Sonnet hafif üstün
DeepSeek v3 açıklaması
- 14,8 trilyon yüksek kaliteli veriyle ön eğitimden geçirildi
- Eğitim maliyeti yalnızca $6m (8,7 milyar won) oldu. Nvidia h800s kümesinde (2048 GPU) yaklaşık 2,78 milyon GPU saati harcandı
- Karşılaştırma: Meta'nın Llama 403B modeli, 15 trilyon token için yaklaşık 30,84 milyon GPU saati gerektirdi. Yaklaşık 11 kat fazlaydı
- Yeni model mimarisi ve optimizasyonlar sayesinde daha az kaynak kullanırken daha güçlü performans gösteriyor
- Önemli bir bağlam: ABD, Çinli şirketlerin NVIDIA GPU tedarikini yasakladı
- Andrej Karpathy'nin analizi
- Normalde en ileri seviye LLM'ler 16K~100K GPU kümelerine dayanırken DeepSeek çok daha az kaynakla benzer sonuçlar elde etti
- Veri ve algoritma optimizasyonuyla hesaplama maliyetinin azaltılabileceğini kanıtlıyor
- DeepSeek-V3, LLM sıralama testlerinde iyi sonuçlar alıyor ve ilk testlerde de başarılı görünüyor
- Kaynakların sınırlı olduğu ortamlarda da başarılı araştırma ve mühendisliğin mümkün olduğuna dair bir örnek
- Bu, büyük GPU kümelerinin gereksiz olduğu anlamına gelmiyor; ancak kaynak israfını en aza indirmenin önemini vurguluyor
- Model mimarisi, eğitim framework'ü ve veri kullanımı alanlarında yenilik potansiyelini gösteriyor
- DeepSeek ayrıca ayrıntılı bir teknik rapor da yayımladı; bu rapor, yöntemlerini ve teknik başarılarını analiz etmek için değerli bir kaynak sunuyor
- QLoRA makalesinin yazarı olarak tanınan Tim Dettmers, DeepSeek'in mühendislik yetkinliğini büyük övgüyle anlattı
"Teknik raporu okuyunca, kaynak kısıtları altında bile ne kadar etkileyici bir mühendislik kabiliyeti sergilediklerini gördüm.
DeepSeek ekibi, donanım kısıtları altında bilinen sorunlara çözümleri doğrudan kendisi tasarladı.
Her şey çok temiz ve zarif. 'Akademik' gösterişli teknikler olmadan, yalnızca saf ve sağlam mühendislikle elde edilmiş bir başarı. Saygı duyuyorum."
En ucuz ve yüksek performanslı model
- DeepSeek v3, mevcut yetenekleri dikkate alındığında şu anda en ucuz model
- Stability AI'nin kurucusu Emad Mostaque, DeepSeek v3'ün işletim maliyeti ve verimliliği hakkında yorum yaptı:
"DeepSeek v3'ü günde 24 saat, saniyede 60 token hızında (insan okuma hızının 5 katı) çalıştırmanın maliyeti günde $2.
Bir latte mi istersiniz, yoksa yapay zeka mı?" - DeepSeek API fiyatlandırması
- 8 Şubat'a kadar önceki sürüm (V2) ile aynı fiyat korunuyor, sonrasında ise:
- Girdi (Input):
- Standart: $0.27 / milyon token
- cache hit: $0.07 / milyon token
- Çıktı (Output): $1.10 / milyon token
- Bu fiyatlandırma, GPT-4o ve Claude 3.5 Sonnet seviyesindeki modelleri çok daha düşük maliyetle kullanmayı mümkün kılıyor
- Özellikle yapay zeka geliştiricileri için bu adeta mükemmel bir fırsat; yüksek performanslı modelleri kullanarak çok çeşitli olanakların önünü açıyor
Başlıca yenilik unsurları
- Model mimarisi
- Toplam 671B parametreden her token için yalnızca 37B parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisi kullanılıyor
→ dense modellere kıyasla hesaplama gereksinimini büyük ölçüde azaltıyor - Key-Value cache'i sıkıştırmak için Multi-head Latent Attention (MLA) kullanılıyor
→ bellek kullanımını azaltıyor ve daha verimli eğitimi mümkün kılıyor
- Toplam 671B parametreden her token için yalnızca 37B parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisi kullanılıyor
- FP8 mixed precision eğitimi
- FP8 mixed precision eğitim framework'ü ile bellek kullanımı düşürülüyor ve eğitim hızı artırılıyor
- Mevcut FP16/FP32 formatlarına kıyasla bellek kullanımında %50'ye kadar tasarruf sağlanıyor
- İnce taneli quantization ve hassas accumulation precision stratejileriyle doğruluk korunuyor
- Load balancing stratejisi
- MoE mimarisinde auxiliary-loss olmadan load balancing uygulanıyor
→ mevcut auxiliary-loss yaklaşımının dezavantajlarını aşarken performansı iyileştiriyor
- MoE mimarisinde auxiliary-loss olmadan load balancing uygulanıyor
- Eğitim framework'ü
- HAI-LLM adlı özel bir eğitim framework'ü geliştirildi; başlıca optimizasyonlar şunlar:
- DualPipe algoritması ile verimli pipeline parallelism uygulanıyor
→ pipeline bubble azaltılıyor ve hesaplama ile iletişim üst üste bindiriliyor - Verimli cross-node all-to-all communication kernel ile ağ bant genişliği azami düzeyde kullanılıyor
- Maliyetli tensor parallelism olmadan bellek optimizasyonu sağlanıyor
- DualPipe algoritması ile verimli pipeline parallelism uygulanıyor
- HAI-LLM adlı özel bir eğitim framework'ü geliştirildi; başlıca optimizasyonlar şunlar:
- Bu yenilikler sayesinde DeepSeek, yaklaşık 6 milyon dolarlık maliyetle büyük ölçekli bir modeli verimli şekilde eğitmeyi başardı
R1 ile Chain of Thought (CoT)
- DeepSeek, yeni DeepThink özelliğini ekleyerek R1 model serisinin Chain-of-Thought (CoT) akıl yürütme yeteneğini DeepSeek v3 LLM'e entegre etti
- Post-Training: Knowledge Distillation from DeepSeek-R1
- DeepSeek R1 serisi modellerin uzun Chain-of-Thought (CoT) akıl yürütme kabiliyetini genel LLM'lere (özellikle DeepSeek-V3'e) damıtmak için yeni bir metodoloji sunuluyor
- R1 modelinin verification ve reflection kalıpları DeepSeek-V3'e zarif biçimde entegre edilerek akıl yürütme performansı belirgin şekilde iyileştiriliyor
- DeepSeek-V3'ün çıktı stili ve uzunluğu etkili biçimde kontrol edilirken akıl yürütme kalitesi korunuyor
- DeepSeek Chat içinde DeepThink özelliği etkinleştirilebiliyor.
- DeepSeek-V3'ün akıl yürütme performansı o1'e göre yetersiz kalsa da, CoT entegrasyonu sayesinde belli düzeyde iyileşme sağladığı görülüyor.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3, başlıca benchmark'larda yüksek puanlar alarak yapay zeka topluluğunda büyük heyecan yarattı
- Peki gerçek kullanımda OpenAI GPT-4o ve Claude 3.5 Sonnet'e kıyasla nasıl bir performans gösteriyor?
- Bu model aldığı övgüyü gerçekten hak ediyor mu, yoksa abartılıyor mu?
- Bunu değerlendirmek için, üç model dört ana alana odaklanan özel bir benchmark setiyle test edildi:
- Akıl yürütme, matematik, kodlama, yaratıcı yazarlık
- Temel ayarlar
- GPT-4o ve Claude 3.5 Sonnet, bu benchmark'taki tüm akıl yürütme ve matematik sorularında başarısız oldu
- Yalnızca Gemini 2.0 1206 ve o1 bu görevleri başarıyla yerine getirdi
- DeepSeek v3'ten beklenen şey kusursuzluk değil, mevcut modellere göre daha iyi bir gelişimdi
[1. Akıl yürütme yeteneği]
- Akıl yürütme yeteneği, akıllı sistemlerin temel unsurlarından biri
- Test sonuçlarında o1 en iyi performansı gösterdi; onu Gemini 2.0 1206 izledi
- Şimdi DeepSeek v3'ün performansına bakalım..
a. Yanıtın dördüncü kelimesini bulma
- Prompt: "What is the fourth word of the sentence of your response to this question?"
- DeepSeek v3 yanıtı:
- DeepSeek v3, DeepThink CoT özelliği etkinleştirildikten sonra doğru cevabı üretti. CoT tabanlı akıl yürütme, model performansını artırmada etkili oldu
b. Yanıttaki kelime sayısını sayma
- Prompt: "Count the number of words in the response to this prompt."
- DeepSeek v3 yanıtı:
- DeepSeek doğru cevabı bulamadı. Ancak bu, GPT-4o ve Claude 3.5 Sonnet'in de başarısız olduğu bir soruydu
c. 'Strawberry' içindeki 'r' sayısı
- Prompt: "How many ‘r’ in Strawberry?"
- DeepSeek v3 yanıtı:
- DeepSeek doğru yanıt verdi
- GPT-4o'nun bu basit soruyu sürekli yanlış yapmasıyla karşılaştırıldığında, DeepSeek bu konuda üstün görünüyor
d. Çiftçi ve koyun problemi
- Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- DeepSeek v3 yanıtı:
- DeepSeek analiz ederek bir sonuca ulaştı ancak nihai cevap yanlıştı
- DeepThink CoT özelliği etkinleştirildiğinde de aynı yanlış sonuca vardı
Not olarak, GPT-4o ve Claude 3.5 Sonnet de bu soruyu doğru çözemedi; doğru cevabı yalnızca o1 buldu
Akıl yürütme özeti
- DeepSeek v3, o1 kadar güçlü olmasa da Claude 3.5 Sonnet ve GPT-4o ile benzer, hatta zaman zaman daha iyi performans gösteriyor
- Özellikle fiyat/performans açısından DeepSeek v3 son derece güçlü. Bu bakımdan DeepSeek çok iyi bir seçenek gibi görünüyor
[2. Matematik]
a. 5.11 - 5.90 = ?
- Prompt: "5.11 - 5.90 = ?"
- DeepSeek v3 yanıtı:
Basit bir soru olmasına rağmen birçok büyük LLM burada sık sık hata yapıyor. DeepSeek v3 doğru hesaplayarak doğru cevabı verdi
b. Paralelkenarın olası dördüncü köşelerini bulma
- Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- Sorunun arka planı:
- Bu soru Gilbert Strang'in Linear Algebra kitabından alındı ve doğru cevabı yalnızca o1 ile Gemini 2.0 1206 bulabildi
- GPT-4o ve Claude 3.5 Sonnet ise olası köşelerden yalnızca birini bulabildi
- DeepSeek v3 yanıtı:
- DeepSeek, olası tüm dördüncü köşeleri doğru şekilde çıkardı
- Bu da DeepSeek v3'ün matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi olduğunu gösteriyor
c. İki tam sayının toplamını bulma
- Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- DeepSeek v3 yanıtı:
- Modelin hesaplama yeteneğini güçlendirmek için DeepThink özelliği etkinleştirildi ve DeepSeek doğru cevabı buldu
Matematik özeti
- DeepSeek v3, matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi performans gösteriyor
- Özellikle karmaşık sorularda doğru sonuçlar üretiyor; bu da benchmark puanlarıyla uyumlu
- Matematiksel doğruluk açısından DeepSeek v3 oldukça güvenilir bir model
[3. Kodlama]
"Super Heroes" problemi (LeetCode Hard)
- Sorunun arka planı: :
- "Super Heroes", modern rekabetçi programlama yarışmalarında kullanılan zor problemlerden biri olan bir dinamik programlama sorusu
- Bu soru, LLM'lerin ne kadar iyi çalıştığını test etmek için uygun
- Problem ve sonuçlar atlandı
- DeepSeek v3'ün problemi çözme sonucu
- İlk denemede model tüm test case'leri geçemedi, ancak ikinci denemede kusursuz bir çözüm üretti
- Modelin soruyu önceden öğrenmiş olma ihtimali var, ancak yine de gerçek kod üretme yeteneğinde gelişim gösteriyor
Kodlama özeti
- DeepSeek v3, Claude 3.5 Sonnet'in biraz gerisinde kalsa da GPT-4 ile karşılaştırıldığında neredeyse aynı seviyede
- Performans/maliyet oranında DeepSeek v3 çok güçlü ve kullanıcı arayüzü uygulamaları geliştirmek isteyen geliştiriciler için ideal bir seçim
[4. Yaratıcı yazarlık özeti]
- Yaratıcı yazarlık yeteneği, kişisel tercihe ve tona göre farklı değerlendirilebilir
- GPT-4o: Genellikle resmi ve kurumsal dostu bir tonu koruyor, kullanıcıyı memnun etmeye çalışan bir tavır sergiliyor
- Claude 3.5 Sonnet: Daha insani bir ton ve kendine özgü bir bakış açısı koruyor; yaratıcı ve özgün görüşler sunuyor
- DeepSeek v3: Testlerde GPT-4o'ya şaşırtıcı derecede benzer yanıt kalıpları gösterdi. Paragraf yapısı ve ifade biçimi bile çok benzerdi
- Bu, DeepSeek v3'ün GPT-4o ile üretilmiş sentetik veri seti üzerinde eğitilmiş olabileceğine işaret ediyor
Yaratıcı yazarlık özeti
- DeepSeek v3, GPT-4o'ya benzer performans gösteriyor; yazı stili ve tonu da GPT-4o'ya oldukça yakın
- GPT-4o'yu beğendiyseniz, DeepSeek v3 de tatmin edici bir seçenek olacaktır
- DeepSeek v3, fiyat/performans açısından çok güçlü ve yaratıcı yazarlık işlerinde de güvenilir bir model
- Daha yaratıcı ve özgün bir yaklaşım istiyorsanız, o1 ve Claude 3.5 Sonnet daha uygun olabilir
[Nihai değerlendirme]
- Akıl yürütme: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Matematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Kodlama: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
- Yaratıcılık: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
DeepSeek v3'ü kimler kullanmalı?
- Çoğu görevde GPT-4o'nun yerini alabilir
- Uygulama geliştiriyorsanız en iyi seçeneklerden biri. Fiyat/performans açısından çok güçlü ve kullanıcı uygulamaları geliştirmek için uygun
- Open-weight olduğu için self-hosting mümkün, daha fazla kontrol sağlıyor
9 yorum
İdeolojik kısımları teknik kısımlardan ayrı değerlendirmek daha iyi olabilir. (Bu, ideolojinin önemli olmadığı anlamına gelmiyor.)
Komünist Parti benchmark sürecinin sonucu her ne olmuş olursa olsun, açık kaynaklı bir modelin bu düzeyde performans göstermesi şaşırtıcı bir şey ve geliştirme süreci de ayrıca etkileyici.
Koreli bir şirketin bu teknikleri referans alıp özgür dünyanın ideolojisine uygun bir modeli doğrudan geliştirmesi gerekir. Şimdilik, bu teknolojiyi kamuya açan DeepSeek mühendislerine teşekkür etme zamanı gibi görünüyor.
Başvurulacak kaynak kodu da yok ve fine-tuning bile yapılamıyor. Sadece ağırlıklarla inference yapılabiliyor.. Referans alınacak bir şey var mı?
Bakınca gerçekten öyle görünüyor. Şimdiye kadarki tabloya göre, buna açık kaynaktan ziyade "açık model" demek daha uygun gibi görünüyor.
(Referans) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12
>Xi Jinping hakkında ne düşünüyorsun?
He he....
haha, cevap gerçekten komikmiş
DeepSeek v3: Test sonuçları, GPT-4o’ya şaşırtıcı derecede benzer yanıt kalıpları gösteriyor. Paragraf yapısı ve ifade biçimi bile çok benzer
Bu da DeepSeek v3’ün GPT-4o ile üretilmiş sentetik bir veri kümesiyle eğitilmiş olabileceğine işaret ediyor
-> Buna ben de tamamen katılabilirim. Zaten kendi kendine itirafta bulunuyor.
Çin ürünü olduğu için biraz çekinceli...
İlk soruda Deepseek v3’e olan güvenimi kaybettim. Belki değişmiştir diye konuşmayı denedim ama yanıt hâlâ aynı.
https://ibb.co/nDv9cRR
Ayrıca Deepseek ile konuşurken Deepseek’in kritik bir sorununu fark ettim. Çünkü şu yanıtı aldım: "Evrensel değerleri savunmak ülkeye özgü normlarla çatıştığında, AI sistemlerinin buna işaret etme konusunda sınırlamaları olabilir." Bunun hangi ülkenin normlarıyla çatışabileceğini tahmin edebileceğinizi düşünüyorum.
https://ibb.co/2sn6d3k
Deepseek’in çeşitli avantajları olabilir ama OpenAI’ı asla geçemeyecektir. Sebebi şu: https://ibb.co/5hsNg9h Çünkü belirli bir ülkenin normlarına uymak için kısıtlamalara tabi.
Deepseek - Çin'in yapay zeka rekabetine öncülük eden sessiz devi
Deepseek V3, aşırı uyum olup olmadığını test eden benchmark'larda iyi performans göstermedi