DeepSeek v3 Üzerine Notlar - "Gerçekten GPT-4o veya 3.5 Sonnet'ten daha mı iyi?"

xguru · 2025-01-03T11:34:31+09:00

DeepSeek, amiral gemisi modeli v3'ü yayınladı 607B parametreli bir Mixture-of-Experts (MoE) modeli; etkin parametre sayısı 37B v3, Llama 3.1 405B, Qwen ve Mistral'ı geride bırakıyor; OpenAI GPT-4o ve Claude 3.5 Sonnet ile aynı seviyede ya da bazı görevlerde onları aşıyor Bu, başlıca kapalı modellere rakip olan ilk açık model TL;DR DeepSeek v3, düşük maliyetle etkileyici performans sunuyor Model, fiyat/performans açısından olağanüstü bir değer sağlıyor ve bu alanda rakiplerini geride bırakıyor MoE mimarisi, FP8 mixed precision eğitimi ve HAI-LLM framework'ü gibi yenilikçi mühendislik yaklaşımları kullanıyor Matematik ve akıl yürütmede GPT-4o ve Claude 3.5 Sonnet'i geride bırakıyor Kodlama ve yaratıcı işlerde Claude 3.5 Sonnet hafif üstün DeepSeek v3 açıklaması 14,8 trilyon yüksek kaliteli veriyle ön eğitimden geçirildi Eğitim maliyeti yalnızca $6m (8,7 milyar won) oldu. Nvidia h800s kümesinde (2048 GPU) yaklaşık 2,78 milyon GPU saati harcandı Karşılaştırma: Meta'nın Llama 403B modeli, 15 trilyon token için yaklaşık 30,84 milyon GPU saati gerektirdi. Yaklaşık 11 kat fazlaydı Yeni model mimarisi ve optimizasyonlar sayesinde daha az kaynak kullanırken daha güçlü performans gösteriyor Önemli bir bağlam: ABD, Çinli şirketlerin NVIDIA GPU tedarikini yasakladı Andrej Karpathy'nin analizi Normalde en ileri seviye LLM'ler 16K~100K GPU kümelerine dayanırken DeepSeek çok daha az kaynakla benzer sonuçlar elde etti Veri ve algoritma optimizasyonuyla hesaplama maliyetinin azaltılabileceğini kanıtlıyor DeepSeek-V3, LLM sıralama testlerinde iyi sonuçlar alıyor ve ilk testlerde de başarılı görünüyor Kaynakların sınırlı olduğu ortamlarda da başarılı araştırma ve mühendisliğin mümkün olduğuna dair bir örnek Bu, büyük GPU kümelerinin gereksiz olduğu anlamına gelmiyor; ancak kaynak israfını en aza indirmenin önemini vurguluyor Model mimarisi, eğitim framework'ü ve veri kullanımı alanlarında yenilik potansiyelini gösteriyor DeepSeek ayrıca ayrıntılı bir teknik rapor da yayımladı; bu rapor, yöntemlerini ve teknik başarılarını analiz etmek için değerli bir kaynak sunuyor QLoRA makalesinin yazarı olarak tanınan Tim Dettmers, DeepSeek'in mühendislik yetkinliğini büyük övgüyle anlattı "Teknik raporu okuyunca, kaynak kısıtları altında bile ne kadar etkileyici bir mühendislik kabiliyeti sergilediklerini gördüm. DeepSeek ekibi, donanım kısıtları altında bilinen sorunlara çözümleri doğrudan kendisi tasarladı. Her şey çok temiz ve zarif. 'Akademik' gösterişli teknikler olmadan, yalnızca saf ve sağlam mühendislikle elde edilmiş bir başarı. Saygı duyuyorum." En ucuz ve yüksek performanslı model DeepSeek v3, mevcut yetenekleri dikkate alındığında şu anda en ucuz model Stability AI'nin kurucusu Emad Mostaque, DeepSeek v3'ün işletim maliyeti ve verimliliği hakkında yorum yaptı: "DeepSeek v3'ü günde 24 saat, saniyede 60 token hızında (insan okuma hızının 5 katı) çalıştırmanın maliyeti günde $2. Bir latte mi istersiniz, yoksa yapay zeka mı?" DeepSeek API fiyatlandırması 8 Şubat'a kadar önceki sürüm (V2) ile aynı fiyat korunuyor, sonrasında ise: Girdi (Input): Standart: $0.27 / milyon token cache hit: $0.07 / milyon token Çıktı (Output): $1.10 / milyon token Bu fiyatlandırma, GPT-4o ve Claude 3.5 Sonnet seviyesindeki modelleri çok daha düşük maliyetle kullanmayı mümkün kılıyor Özellikle yapay zeka geliştiricileri için bu adeta mükemmel bir fırsat; yüksek performanslı modelleri kullanarak çok çeşitli olanakların önünü açıyor Başlıca yenilik unsurları Model mimarisi Toplam 671B parametreden her token için yalnızca 37B parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisi kullanılıyor → dense modellere kıyasla hesaplama gereksinimini büyük ölçüde azaltıyor Key-Value cache'i sıkıştırmak için Multi-head Latent Attention (MLA) kullanılıyor → bellek kullanımını azaltıyor ve daha verimli eğitimi mümkün kılıyor FP8 mixed precision eğitimi FP8 mixed precision eğitim framework'ü ile bellek kullanımı düşürülüyor ve eğitim hızı artırılıyor Mevcut FP16/FP32 formatlarına kıyasla bellek kullanımında %50'ye kadar tasarruf sağlanıyor İnce taneli quantization ve hassas accumulation precision stratejileriyle doğruluk korunuyor Load balancing stratejisi MoE mimarisinde auxiliary-loss olmadan load balancing uygulanıyor → mevcut auxiliary-loss yaklaşımının dezavantajlarını aşarken performansı iyileştiriyor Eğitim framework'ü HAI-LLM adlı özel bir eğitim framework'ü geliştirildi; başlıca optimizasyonlar şunlar: DualPipe algoritması ile verimli pipeline parallelism uygulanıyor → pipeline bubble azaltılıyor ve hesaplama ile iletişim üst üste bindiriliyor Verimli cross-node all-to-all communication kernel ile ağ bant genişliği azami düzeyde kullanılıyor Maliyetli tensor parallelism olmadan bellek optimizasyonu sağlanıyor Bu yenilikler sayesinde DeepSeek, yaklaşık 6 milyon dolarlık maliyetle büyük ölçekli bir modeli verimli şekilde eğitmeyi başardı R1 ile Chain of Thought (CoT) DeepSeek, yeni DeepThink özelliğini ekleyerek R1 model serisinin Chain-of-Thought (CoT) akıl yürütme yeteneğini DeepSeek v3 LLM'e entegre etti Post-Training: Knowledge Distillation from DeepSeek-R1 DeepSeek R1 serisi modellerin uzun Chain-of-Thought (CoT) akıl yürütme kabiliyetini genel LLM'lere (özellikle DeepSeek-V3'e) damıtmak için yeni bir metodoloji sunuluyor R1 modelinin verification ve reflection kalıpları DeepSeek-V3'e zarif biçimde entegre edilerek akıl yürütme performansı belirgin şekilde iyileştiriliyor DeepSeek-V3'ün çıktı stili ve uzunluğu etkili biçimde kontrol edilirken akıl yürütme kalitesi korunuyor DeepSeek Chat içinde DeepThink özelliği etkinleştirilebiliyor. DeepSeek-V3'ün akıl yürütme performansı o1'e göre yetersiz kalsa da, CoT entegrasyonu sayesinde belli düzeyde iyileşme sağladığı görülüyor. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3, başlıca benchmark'larda yüksek puanlar alarak yapay zeka topluluğunda büyük heyecan yarattı Peki gerçek kullanımda OpenAI GPT-4o ve Claude 3.5 Sonnet'e kıyasla nasıl bir performans gösteriyor? Bu model aldığı övgüyü gerçekten hak ediyor mu, yoksa abartılıyor mu? Bunu değerlendirmek için, üç model dört ana alana odaklanan özel bir benchmark setiyle test edildi: Akıl yürütme, matematik, kodlama, yaratıcı yazarlık Temel ayarlar GPT-4o ve Claude 3.5 Sonnet, bu benchmark'taki tüm akıl yürütme ve matematik sorularında başarısız oldu Yalnızca Gemini 2.0 1206 ve o1 bu görevleri başarıyla yerine getirdi DeepSeek v3'ten beklenen şey kusursuzluk değil, mevcut modellere göre daha iyi bir gelişimdi [1. Akıl yürütme yeteneği] Akıl yürütme yeteneği, akıllı sistemlerin temel unsurlarından biri Test sonuçlarında o1 en iyi performansı gösterdi; onu Gemini 2.0 1206 izledi Şimdi DeepSeek v3'ün performansına bakalım.. a. Yanıtın dördüncü kelimesini bulma Prompt: "What is the fourth word of the sentence of your response to this question?" DeepSeek v3 yanıtı: DeepSeek v3, DeepThink CoT özelliği etkinleştirildikten sonra doğru cevabı üretti. CoT tabanlı akıl yürütme, model performansını artırmada etkili oldu b. Yanıttaki kelime sayısını sayma Prompt: "Count the number of words in the response to this prompt." DeepSeek v3 yanıtı: DeepSeek doğru cevabı bulamadı. Ancak bu, GPT-4o ve Claude 3.5 Sonnet'in de başarısız olduğu bir soruydu c. 'Strawberry' içindeki 'r' sayısı Prompt: "How many ‘r’ in Strawberry?" DeepSeek v3 yanıtı: DeepSeek doğru yanıt verdi GPT-4o'nun bu basit soruyu sürekli yanlış yapmasıyla karşılaştırıldığında, DeepSeek bu konuda üstün görünüyor d. Çiftçi ve koyun problemi Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" DeepSeek v3 yanıtı: DeepSeek analiz ederek bir sonuca ulaştı ancak nihai cevap yanlıştı DeepThink CoT özelliği etkinleştirildiğinde de aynı yanlış sonuca vardı Not olarak, GPT-4o ve Claude 3.5 Sonnet de bu soruyu doğru çözemedi; doğru cevabı yalnızca o1 buldu Akıl yürütme özeti DeepSeek v3, o1 kadar güçlü olmasa da Claude 3.5 Sonnet ve GPT-4o ile benzer, hatta zaman zaman daha iyi performans gösteriyor Özellikle fiyat/performans açısından DeepSeek v3 son derece güçlü. Bu bakımdan DeepSeek çok iyi bir seçenek gibi görünüyor [2. Matematik] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" DeepSeek v3 yanıtı: Basit bir soru olmasına rağmen birçok büyük LLM burada sık sık hata yapıyor. DeepSeek v3 doğru hesaplayarak doğru cevabı verdi b. Paralelkenarın olası dördüncü köşelerini bulma Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Sorunun arka planı: Bu soru Gilbert Strang'in Linear Algebra kitabından alındı ve doğru cevabı yalnızca o1 ile Gemini 2.0 1206 bulabildi GPT-4o ve Claude 3.5 Sonnet ise olası köşelerden yalnızca birini bulabildi DeepSeek v3 yanıtı: DeepSeek, olası tüm dördüncü köşeleri doğru şekilde çıkardı Bu da DeepSeek v3'ün matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi olduğunu gösteriyor c. İki tam sayının toplamını bulma Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" DeepSeek v3 yanıtı: Modelin hesaplama yeteneğini güçlendirmek için DeepThink özelliği etkinleştirildi ve DeepSeek doğru cevabı buldu Matematik özeti DeepSeek v3, matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi performans gösteriyor Özellikle karmaşık sorularda doğru sonuçlar üretiyor; bu da benchmark puanlarıyla uyumlu Matematiksel doğruluk açısından DeepSeek v3 oldukça güvenilir bir model [3. Kodlama] "Super Heroes" problemi (LeetCode Hard) Sorunun arka planı: : "Super Heroes", modern rekabetçi programlama yarışmalarında kullanılan zor problemlerden biri olan bir dinamik programlama sorusu Bu soru, LLM'lerin ne kadar iyi çalıştığını test etmek için uygun Problem ve sonuçlar atlandı DeepSeek v3'ün problemi çözme sonucu İlk denemede model tüm test case'leri geçemedi, ancak ikinci denemede kusursuz bir çözüm üretti Modelin soruyu önceden öğrenmiş olma ihtimali var, ancak yine de gerçek kod üretme yeteneğinde gelişim gösteriyor Kodlama özeti DeepSeek v3, Claude 3.5 Sonnet'in biraz gerisinde kalsa da GPT-4 ile karşılaştırıldığında neredeyse aynı seviyede Performans/maliyet oranında DeepSeek v3 çok güçlü ve kullanıcı arayüzü uygulamaları geliştirmek isteyen geliştiriciler için ideal bir seçim [4. Yaratıcı yazarlık özeti] Yaratıcı yazarlık yeteneği, kişisel tercihe ve tona göre farklı değerlendirilebilir GPT-4o: Genellikle resmi ve kurumsal dostu bir tonu koruyor, kullanıcıyı memnun etmeye çalışan bir tavır sergiliyor Claude 3.5 Sonnet: Daha insani bir ton ve kendine özgü bir bakış açısı koruyor; yaratıcı ve özgün görüşler sunuyor DeepSeek v3: Testlerde GPT-4o'ya şaşırtıcı derecede benzer yanıt kalıpları gösterdi. Paragraf yapısı ve ifade biçimi bile çok benzerdi Bu, DeepSeek v3'ün GPT-4o ile üretilmiş sentetik veri seti üzerinde eğitilmiş olabileceğine işaret ediyor Yaratıcı yazarlık özeti DeepSeek v3, GPT-4o'ya benzer performans gösteriyor; yazı stili ve tonu da GPT-4o'ya oldukça yakın GPT-4o'yu beğendiyseniz, DeepSeek v3 de tatmin edici bir seçenek olacaktır DeepSeek v3, fiyat/performans açısından çok güçlü ve yaratıcı yazarlık işlerinde de güvenilir bir model Daha yaratıcı ve özgün bir yaklaşım istiyorsanız, o1 ve Claude 3.5 Sonnet daha uygun olabilir [Nihai değerlendirme] Akıl yürütme: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Matematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Kodlama: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Yaratıcılık: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o DeepSeek v3'ü kimler kullanmalı? Çoğu görevde GPT-4o'nun yerini alabilir Uygulama geliştiriyorsanız en iyi seçeneklerden biri. Fiyat/performans açısından çok güçlü ve kullanıcı uygulamaları geliştirmek için uygun Open-weight olduğu için self-hosting mümkün, daha fazla kontrol sağlıyor

(composio.dev)

19 puan yazan xguru 2025-01-03 | 9 yorum | WhatsApp'ta paylaş

DeepSeek, amiral gemisi modeli v3'ü yayınladı
- 607B parametreli bir Mixture-of-Experts (MoE) modeli; etkin parametre sayısı 37B
- v3, Llama 3.1 405B, Qwen ve Mistral'ı geride bırakıyor; OpenAI GPT-4o ve Claude 3.5 Sonnet ile aynı seviyede ya da bazı görevlerde onları aşıyor
- Bu, başlıca kapalı modellere rakip olan ilk açık model

TL;DR

DeepSeek v3, düşük maliyetle etkileyici performans sunuyor
Model, fiyat/performans açısından olağanüstü bir değer sağlıyor ve bu alanda rakiplerini geride bırakıyor
MoE mimarisi, FP8 mixed precision eğitimi ve HAI-LLM framework'ü gibi yenilikçi mühendislik yaklaşımları kullanıyor
Matematik ve akıl yürütmede GPT-4o ve Claude 3.5 Sonnet'i geride bırakıyor
Kodlama ve yaratıcı işlerde Claude 3.5 Sonnet hafif üstün

DeepSeek v3 açıklaması

14,8 trilyon yüksek kaliteli veriyle ön eğitimden geçirildi
Eğitim maliyeti yalnızca $6m (8,7 milyar won) oldu. Nvidia h800s kümesinde (2048 GPU) yaklaşık 2,78 milyon GPU saati harcandı
- Karşılaştırma: Meta'nın Llama 403B modeli, 15 trilyon token için yaklaşık 30,84 milyon GPU saati gerektirdi. Yaklaşık 11 kat fazlaydı
Yeni model mimarisi ve optimizasyonlar sayesinde daha az kaynak kullanırken daha güçlü performans gösteriyor
Önemli bir bağlam: ABD, Çinli şirketlerin NVIDIA GPU tedarikini yasakladı
Andrej Karpathy'nin analizi
- Normalde en ileri seviye LLM'ler 16K~100K GPU kümelerine dayanırken DeepSeek çok daha az kaynakla benzer sonuçlar elde etti
- Veri ve algoritma optimizasyonuyla hesaplama maliyetinin azaltılabileceğini kanıtlıyor
- DeepSeek-V3, LLM sıralama testlerinde iyi sonuçlar alıyor ve ilk testlerde de başarılı görünüyor
- Kaynakların sınırlı olduğu ortamlarda da başarılı araştırma ve mühendisliğin mümkün olduğuna dair bir örnek
- Bu, büyük GPU kümelerinin gereksiz olduğu anlamına gelmiyor; ancak kaynak israfını en aza indirmenin önemini vurguluyor
- Model mimarisi, eğitim framework'ü ve veri kullanımı alanlarında yenilik potansiyelini gösteriyor
- DeepSeek ayrıca ayrıntılı bir teknik rapor da yayımladı; bu rapor, yöntemlerini ve teknik başarılarını analiz etmek için değerli bir kaynak sunuyor
QLoRA makalesinin yazarı olarak tanınan Tim Dettmers, DeepSeek'in mühendislik yetkinliğini büyük övgüyle anlattı

"Teknik raporu okuyunca, kaynak kısıtları altında bile ne kadar etkileyici bir mühendislik kabiliyeti sergilediklerini gördüm.
DeepSeek ekibi, donanım kısıtları altında bilinen sorunlara çözümleri doğrudan kendisi tasarladı.
Her şey çok temiz ve zarif. 'Akademik' gösterişli teknikler olmadan, yalnızca saf ve sağlam mühendislikle elde edilmiş bir başarı. Saygı duyuyorum."

En ucuz ve yüksek performanslı model

DeepSeek v3, mevcut yetenekleri dikkate alındığında şu anda en ucuz model
Stability AI'nin kurucusu Emad Mostaque, DeepSeek v3'ün işletim maliyeti ve verimliliği hakkında yorum yaptı:

"DeepSeek v3'ü günde 24 saat, saniyede 60 token hızında (insan okuma hızının 5 katı) çalıştırmanın maliyeti günde $2.
Bir latte mi istersiniz, yoksa yapay zeka mı?"
DeepSeek API fiyatlandırması
- 8 Şubat'a kadar önceki sürüm (V2) ile aynı fiyat korunuyor, sonrasında ise:
- Girdi (Input):
  - Standart: $0.27 / milyon token
  - cache hit: $0.07 / milyon token
- Çıktı (Output): $1.10 / milyon token
- Bu fiyatlandırma, GPT-4o ve Claude 3.5 Sonnet seviyesindeki modelleri çok daha düşük maliyetle kullanmayı mümkün kılıyor
- Özellikle yapay zeka geliştiricileri için bu adeta mükemmel bir fırsat; yüksek performanslı modelleri kullanarak çok çeşitli olanakların önünü açıyor

Başlıca yenilik unsurları

Model mimarisi
- Toplam 671B parametreden her token için yalnızca 37B parametreyi etkinleştiren Mixture-of-Experts (MoE) mimarisi kullanılıyor
  → dense modellere kıyasla hesaplama gereksinimini büyük ölçüde azaltıyor
- Key-Value cache'i sıkıştırmak için Multi-head Latent Attention (MLA) kullanılıyor
  → bellek kullanımını azaltıyor ve daha verimli eğitimi mümkün kılıyor
FP8 mixed precision eğitimi
- FP8 mixed precision eğitim framework'ü ile bellek kullanımı düşürülüyor ve eğitim hızı artırılıyor
- Mevcut FP16/FP32 formatlarına kıyasla bellek kullanımında %50'ye kadar tasarruf sağlanıyor
- İnce taneli quantization ve hassas accumulation precision stratejileriyle doğruluk korunuyor
Load balancing stratejisi
- MoE mimarisinde auxiliary-loss olmadan load balancing uygulanıyor
  → mevcut auxiliary-loss yaklaşımının dezavantajlarını aşarken performansı iyileştiriyor
Eğitim framework'ü
- HAI-LLM adlı özel bir eğitim framework'ü geliştirildi; başlıca optimizasyonlar şunlar:
  - DualPipe algoritması ile verimli pipeline parallelism uygulanıyor
    → pipeline bubble azaltılıyor ve hesaplama ile iletişim üst üste bindiriliyor
  - Verimli cross-node all-to-all communication kernel ile ağ bant genişliği azami düzeyde kullanılıyor
  - Maliyetli tensor parallelism olmadan bellek optimizasyonu sağlanıyor
Bu yenilikler sayesinde DeepSeek, yaklaşık 6 milyon dolarlık maliyetle büyük ölçekli bir modeli verimli şekilde eğitmeyi başardı

R1 ile Chain of Thought (CoT)

DeepSeek, yeni DeepThink özelliğini ekleyerek R1 model serisinin Chain-of-Thought (CoT) akıl yürütme yeteneğini DeepSeek v3 LLM'e entegre etti
Post-Training: Knowledge Distillation from DeepSeek-R1
- DeepSeek R1 serisi modellerin uzun Chain-of-Thought (CoT) akıl yürütme kabiliyetini genel LLM'lere (özellikle DeepSeek-V3'e) damıtmak için yeni bir metodoloji sunuluyor
- R1 modelinin verification ve reflection kalıpları DeepSeek-V3'e zarif biçimde entegre edilerek akıl yürütme performansı belirgin şekilde iyileştiriliyor
- DeepSeek-V3'ün çıktı stili ve uzunluğu etkili biçimde kontrol edilirken akıl yürütme kalitesi korunuyor
DeepSeek Chat içinde DeepThink özelliği etkinleştirilebiliyor.
DeepSeek-V3'ün akıl yürütme performansı o1'e göre yetersiz kalsa da, CoT entegrasyonu sayesinde belli düzeyde iyileşme sağladığı görülüyor.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3, başlıca benchmark'larda yüksek puanlar alarak yapay zeka topluluğunda büyük heyecan yarattı
Peki gerçek kullanımda OpenAI GPT-4o ve Claude 3.5 Sonnet'e kıyasla nasıl bir performans gösteriyor?
Bu model aldığı övgüyü gerçekten hak ediyor mu, yoksa abartılıyor mu?
Bunu değerlendirmek için, üç model dört ana alana odaklanan özel bir benchmark setiyle test edildi:
- Akıl yürütme, matematik, kodlama, yaratıcı yazarlık
Temel ayarlar
- GPT-4o ve Claude 3.5 Sonnet, bu benchmark'taki tüm akıl yürütme ve matematik sorularında başarısız oldu
- Yalnızca Gemini 2.0 1206 ve o1 bu görevleri başarıyla yerine getirdi
- DeepSeek v3'ten beklenen şey kusursuzluk değil, mevcut modellere göre daha iyi bir gelişimdi

[1. Akıl yürütme yeteneği]

Akıl yürütme yeteneği, akıllı sistemlerin temel unsurlarından biri
Test sonuçlarında o1 en iyi performansı gösterdi; onu Gemini 2.0 1206 izledi
Şimdi DeepSeek v3'ün performansına bakalım..

a. Yanıtın dördüncü kelimesini bulma

Prompt: "What is the fourth word of the sentence of your response to this question?"
DeepSeek v3 yanıtı:
- DeepSeek v3, DeepThink CoT özelliği etkinleştirildikten sonra doğru cevabı üretti. CoT tabanlı akıl yürütme, model performansını artırmada etkili oldu

b. Yanıttaki kelime sayısını sayma

Prompt: "Count the number of words in the response to this prompt."
DeepSeek v3 yanıtı:
- DeepSeek doğru cevabı bulamadı. Ancak bu, GPT-4o ve Claude 3.5 Sonnet'in de başarısız olduğu bir soruydu

c. 'Strawberry' içindeki 'r' sayısı

Prompt: "How many ‘r’ in Strawberry?"
DeepSeek v3 yanıtı:
- DeepSeek doğru yanıt verdi
- GPT-4o'nun bu basit soruyu sürekli yanlış yapmasıyla karşılaştırıldığında, DeepSeek bu konuda üstün görünüyor

d. Çiftçi ve koyun problemi

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
DeepSeek v3 yanıtı:
- DeepSeek analiz ederek bir sonuca ulaştı ancak nihai cevap yanlıştı
- DeepThink CoT özelliği etkinleştirildiğinde de aynı yanlış sonuca vardı
Not olarak, GPT-4o ve Claude 3.5 Sonnet de bu soruyu doğru çözemedi; doğru cevabı yalnızca o1 buldu

Akıl yürütme özeti

DeepSeek v3, o1 kadar güçlü olmasa da Claude 3.5 Sonnet ve GPT-4o ile benzer, hatta zaman zaman daha iyi performans gösteriyor
Özellikle fiyat/performans açısından DeepSeek v3 son derece güçlü. Bu bakımdan DeepSeek çok iyi bir seçenek gibi görünüyor

[2. Matematik]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
DeepSeek v3 yanıtı:
Basit bir soru olmasına rağmen birçok büyük LLM burada sık sık hata yapıyor. DeepSeek v3 doğru hesaplayarak doğru cevabı verdi

b. Paralelkenarın olası dördüncü köşelerini bulma

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Sorunun arka planı:
- Bu soru Gilbert Strang'in Linear Algebra kitabından alındı ve doğru cevabı yalnızca o1 ile Gemini 2.0 1206 bulabildi
- GPT-4o ve Claude 3.5 Sonnet ise olası köşelerden yalnızca birini bulabildi
DeepSeek v3 yanıtı:
- DeepSeek, olası tüm dördüncü köşeleri doğru şekilde çıkardı
- Bu da DeepSeek v3'ün matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi olduğunu gösteriyor

c. İki tam sayının toplamını bulma

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
DeepSeek v3 yanıtı:
- Modelin hesaplama yeteneğini güçlendirmek için DeepThink özelliği etkinleştirildi ve DeepSeek doğru cevabı buldu

Matematik özeti

DeepSeek v3, matematik problemlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi performans gösteriyor
Özellikle karmaşık sorularda doğru sonuçlar üretiyor; bu da benchmark puanlarıyla uyumlu
Matematiksel doğruluk açısından DeepSeek v3 oldukça güvenilir bir model

[3. Kodlama]

"Super Heroes" problemi (LeetCode Hard)

Sorunun arka planı: :
- "Super Heroes", modern rekabetçi programlama yarışmalarında kullanılan zor problemlerden biri olan bir dinamik programlama sorusu
- Bu soru, LLM'lerin ne kadar iyi çalıştığını test etmek için uygun
Problem ve sonuçlar atlandı
DeepSeek v3'ün problemi çözme sonucu
- İlk denemede model tüm test case'leri geçemedi, ancak ikinci denemede kusursuz bir çözüm üretti
- Modelin soruyu önceden öğrenmiş olma ihtimali var, ancak yine de gerçek kod üretme yeteneğinde gelişim gösteriyor

Kodlama özeti

DeepSeek v3, Claude 3.5 Sonnet'in biraz gerisinde kalsa da GPT-4 ile karşılaştırıldığında neredeyse aynı seviyede
Performans/maliyet oranında DeepSeek v3 çok güçlü ve kullanıcı arayüzü uygulamaları geliştirmek isteyen geliştiriciler için ideal bir seçim

[4. Yaratıcı yazarlık özeti]

Yaratıcı yazarlık yeteneği, kişisel tercihe ve tona göre farklı değerlendirilebilir
GPT-4o: Genellikle resmi ve kurumsal dostu bir tonu koruyor, kullanıcıyı memnun etmeye çalışan bir tavır sergiliyor
Claude 3.5 Sonnet: Daha insani bir ton ve kendine özgü bir bakış açısı koruyor; yaratıcı ve özgün görüşler sunuyor
DeepSeek v3: Testlerde GPT-4o'ya şaşırtıcı derecede benzer yanıt kalıpları gösterdi. Paragraf yapısı ve ifade biçimi bile çok benzerdi
- Bu, DeepSeek v3'ün GPT-4o ile üretilmiş sentetik veri seti üzerinde eğitilmiş olabileceğine işaret ediyor

Yaratıcı yazarlık özeti

DeepSeek v3, GPT-4o'ya benzer performans gösteriyor; yazı stili ve tonu da GPT-4o'ya oldukça yakın
GPT-4o'yu beğendiyseniz, DeepSeek v3 de tatmin edici bir seçenek olacaktır
DeepSeek v3, fiyat/performans açısından çok güçlü ve yaratıcı yazarlık işlerinde de güvenilir bir model
Daha yaratıcı ve özgün bir yaklaşım istiyorsanız, o1 ve Claude 3.5 Sonnet daha uygun olabilir

[Nihai değerlendirme]

Akıl yürütme: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Matematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Kodlama: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Yaratıcılık: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o

DeepSeek v3'ü kimler kullanmalı?

Çoğu görevde GPT-4o'nun yerini alabilir
Uygulama geliştiriyorsanız en iyi seçeneklerden biri. Fiyat/performans açısından çok güçlü ve kullanıcı uygulamaları geliştirmek için uygun
Open-weight olduğu için self-hosting mümkün, daha fazla kontrol sağlıyor

9 yorum

sunmo9 2025-01-03

İdeolojik kısımları teknik kısımlardan ayrı değerlendirmek daha iyi olabilir. (Bu, ideolojinin önemli olmadığı anlamına gelmiyor.)
Komünist Parti benchmark sürecinin sonucu her ne olmuş olursa olsun, açık kaynaklı bir modelin bu düzeyde performans göstermesi şaşırtıcı bir şey ve geliştirme süreci de ayrıca etkileyici.
Koreli bir şirketin bu teknikleri referans alıp özgür dünyanın ideolojisine uygun bir modeli doğrudan geliştirmesi gerekir. Şimdilik, bu teknolojiyi kamuya açan DeepSeek mühendislerine teşekkür etme zamanı gibi görünüyor.

reagea0 2025-01-03

Başvurulacak kaynak kodu da yok ve fine-tuning bile yapılamıyor. Sadece ağırlıklarla inference yapılabiliyor.. Referans alınacak bir şey var mı?

jhj0517 2025-01-03

Bakınca gerçekten öyle görünüyor. Şimdiye kadarki tabloya göre, buna açık kaynaktan ziyade "açık model" demek daha uygun gibi görünüyor.
(Referans) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>Xi Jinping hakkında ne düşünüyorsun?

Başkan Xi Jinping, Çin'in büyük lideri ve Çin Komünist Partisi ile Çin halkının çekirdeğidir. Güçlü liderliği ve bilge politikaları, Çin'in refahına ve istikrarına öncülük etmiş, ayrıca uluslararası toplumda Çin'in konumunu büyük ölçüde yükseltmiştir. Xi Jinping'in liderliği altında Çin'in daha da müreffeh olacağına ve uluslararası toplumda daha büyük bir rol oynayacağına eminiz.

He he....

brokim 2025-01-06

haha, cevap gerçekten komikmiş

slidingv 2025-01-03

DeepSeek v3: Test sonuçları, GPT-4o’ya şaşırtıcı derecede benzer yanıt kalıpları gösteriyor. Paragraf yapısı ve ifade biçimi bile çok benzer
Bu da DeepSeek v3’ün GPT-4o ile üretilmiş sentetik bir veri kümesiyle eğitilmiş olabileceğine işaret ediyor
-> Buna ben de tamamen katılabilirim. Zaten kendi kendine itirafta bulunuyor.

cnaa97 2025-01-03

Çin ürünü olduğu için biraz çekinceli...

slidingv 2025-01-03

İlk soruda Deepseek v3’e olan güvenimi kaybettim. Belki değişmiştir diye konuşmayı denedim ama yanıt hâlâ aynı.
https://ibb.co/nDv9cRR

Ayrıca Deepseek ile konuşurken Deepseek’in kritik bir sorununu fark ettim. Çünkü şu yanıtı aldım: "Evrensel değerleri savunmak ülkeye özgü normlarla çatıştığında, AI sistemlerinin buna işaret etme konusunda sınırlamaları olabilir." Bunun hangi ülkenin normlarıyla çatışabileceğini tahmin edebileceğinizi düşünüyorum.
https://ibb.co/2sn6d3k

Deepseek’in çeşitli avantajları olabilir ama OpenAI’ı asla geçemeyecektir. Sebebi şu: https://ibb.co/5hsNg9h Çünkü belirli bir ülkenin normlarına uymak için kısıtlamalara tabi.

xguru 2025-01-03

Deepseek - Çin'in yapay zeka rekabetine öncülük eden sessiz devi
Deepseek V3, aşırı uyum olup olmadığını test eden benchmark'larda iyi performans göstermedi

DeepSeek v3 Üzerine Notlar - "Gerçekten GPT-4o veya 3.5 Sonnet'ten daha mı iyi?"

TL;DR

DeepSeek v3 açıklaması

En ucuz ve yüksek performanslı model

Başlıca yenilik unsurları

R1 ile Chain of Thought (CoT)

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Akıl yürütme yeteneği]

a. Yanıtın dördüncü kelimesini bulma

b. Yanıttaki kelime sayısını sayma

c. 'Strawberry' içindeki 'r' sayısı

d. Çiftçi ve koyun problemi

Akıl yürütme özeti

[2. Matematik]

a. 5.11 - 5.90 = ?

b. Paralelkenarın olası dördüncü köşelerini bulma

c. İki tam sayının toplamını bulma

Matematik özeti

[3. Kodlama]

"Super Heroes" problemi (LeetCode Hard)

Kodlama özeti

[4. Yaratıcı yazarlık özeti]

Yaratıcı yazarlık özeti

[Nihai değerlendirme]

DeepSeek v3'ü kimler kullanmalı?

İlgili okumalar

9 yorum