DeepSeek - Çin'in AI rekabetine yön veren sessiz dev

(chinatalk.media)

6 puan yazan GN⁺ 2025-01-01 | 2 yorum | WhatsApp'ta paylaş

DeepSeek, Çinli bir yapay zeka girişimi ve kısa süre önce duyurduğu R1 modeli, çeşitli akıl yürütme benchmark'larında OpenAI'nin o1 modelini geride bırakıyor
Bilinirliği düşük olsa da dikkat çekici bir yapay zeka araştırma laboratuvarı olarak konumlanıyor

DeepSeek'in geçmişi ve stratejisi

CEO Liang Wenfeng, geçmişte Çin'in en büyük 4 hedge fonundan biri olan High-Flyer'ın kurucusuydu ve DeepSeek bu şirketten güçlü destek alıyor
Ticari uygulamalardan çok temel teknoloji geliştirmeye odaklanıyor ve tüm modellerini open source olarak yayımlama stratejisini benimsiyor
High-Flyer'ın computing cluster'ına erişebiliyor ve yaklaşık 50 binden fazla Hopper GPU'ya sahip
AGI'ye (genel yapay zeka) odaklanıyor. Araştırmalar, potansiyel olarak oyun değiştirici olabilecek yapısal ve algoritmik yeniliklere yoğunlaşıyor

Başlıca teknik yenilikler

Model mimarisi iyileştirmeleri
- MLA (Multi-head Latent Attention): bellek kullanımını önceki düzeyin %5~13'üne indiriyor
- DeepSeekMoE (Sparse Mixture of Experts): hesaplama maliyetini büyük ölçüde azaltıyor
Fiyat savaşını tetikleme
- DeepSeek V2 modeli, 1 milyon token başına 1 RMB'lik çıkarım maliyeti sunarak Çin'deki büyük teknoloji şirketleri etrafında büyük çaplı bir fiyat savaşını tetikledi
Reklam
Uluslararası değerlendirme
- DeepSeek'in makalesi "yılın en iyi makalelerinden biri" olarak değerlendirildi ve Silikon Vadisi ile uluslararası yapay zeka topluluğunda da övgü aldı

DeepSeek'in araştırma felsefesi ve organizasyon kültürü

Teknolojik idealizm: DeepSeek, teknolojik idealizmi benimsiyor ve "doğru ile yanlışı", "kâr ve zarar"ın önüne koyuyor. Bu, Çin teknoloji dünyasında nadir duyulan bir ses
İnovasyonun önemi: DeepSeek, Çin'in sadece takip eden bir konumda kalmaması, küresel teknolojik inovasyon akışına katılması gerektiğine inanıyor
Özerk organizasyon kültürü: yukarıdan aşağı yönetim yerine özerk ve yaratıcı bir atmosferi hedefliyor. Araştırmacılar kendi fikirleri doğrultusunda özgürce iş birliği yapabiliyor ve kaynakları kullanabiliyor
Yetenek işe alımı: geleneksel ölçütlerden çok merak ve tutkuyu önemsiyor; ekip üyelerinin çoğu yerel üniversite mezunları ve genç araştırmacılardan oluşuyor

AGI vizyonu

Araştırma odağı: DeepSeek, matematik, kod üretimi, multimodality ve doğal dil anlama ekseninde AGI'nin gerçekleştirilebilirliğini araştırıyor
Gelecek öngörüsü:
- AGI'nin 2 ila 10 yıl içinde mümkün olabileceği öngörülüyor ve matematik ile kod, AGI testleri için ideal alanlar olarak görülüyor
- Büyük ölçekli modellerde son oyun, temel modelleri ve hizmetleri sağlayan uzmanlaşmış şirketlerin tedarik zincirinin her düğümünde geniş çaplı uzmanlaşma sağlaması olacak

Open source ve inovasyona bakışı

Open source'un değeri: DeepSeek, teknolojik üstünlüğü kapalı kaynakta aramak yerine teknoloji ekosistemi kurup geliştirmede değer görüyor
Çin yapay zeka ekosistemine dair vizyon: Çin'in uygulama inovasyonunun ötesine geçerek 0'dan 1'e teknolojik inovasyona katkı sunmasını hedefliyor

Sonuç

DeepSeek, geleneksel Çinli yapay zeka girişimlerinden farklı bir yol izliyor
Ticari uygulamalardan çok teknolojik inovasyona ve AGI'nin gerçekleştirilmesine odaklanıyor; küresel teknolojik inovasyon akımına katılmak istiyor
Bu yaklaşımın, önümüzdeki dönemde Çin yapay zekasının gelişim yönü üzerinde önemli etkileri olması bekleniyor

2 yorum

xguru 2025-01-03

Deepseek V3, aşırı uyum olup olmadığını test eden benchmark’ta kötü performans göstermişti

GN⁺ 2025-01-01

Hacker News yorumları

GPU kısıtlamaları, Çinli geliştiricilerin daha yenilikçi olmalarını ve daha az kaynakla daha fazlasını yapmalarını sağlayan bir ortam yarattı
- Deepseek ekibine övgü
Deepseek’e yönelik övgü ilgi çekici
- Deepseek’in diğer modelleri açık ara geride bırakamamasının yapısal ve temel nedenleri var
  - ABD ile Çin arasındaki ticaret savaşı, Deepseek’in erişebildiği hesaplama kapasitesini dezavantajlı hale getirebilir
  - Çin’deki sansür, Deepseek’in veri toplamasına ve çıktısına belli ölçüde sınırlama getiriyor
  - Deepseek açık kaynak olduğu için diğer modeller tarafından kolayca kopyalanabilir
- Gemini, ChatGPT, Deepseek ve Claudie’yi düzenli olarak kullanıyorum; Deepseek diğer modellere göre ne özellikle üstün ne de geride
- Deepseek’in LLM alanına tamamen hakim olacağını insanların neden düşündüğünü merak ediyorum
Çin’in ekonomik gelişimiyle birlikte katkı sunan bir aktör haline gelmesi gerektiğine inanıyorum
- Geçmiş 30 yılda BT yeniliklerine fiilen katılmadı
- Ölçekleme yasalarını, Moore yasasına güvenip daha iyi donanım ve yazılımı bekleyerek ele aldı
Deepseek geçen yıldan beri açık kaynak LLM topluluğunda öne çıkan bir isimdi
- Diğer Çinli LLM oyuncularına kıyasla pazarlama harcaması daha az
Eski tarz sembolik yapay zeka ile modern ML sürümlerini birleştirmeye dair hiçbir atıf olmaması şaşırtıcı
Çin’in GPU bağımlılığını kırmaya yönelik saf araştırma yapması için güçlü teşvikleri var
- Bilim uğruna birbirlerinin matematikçilerine saldırmak gibi şeyler yaşanmaz umarım
API’nin ucuz olmasının nedenlerinden biri, API verilerini eğitimde kullanacağını açıkça belirtmiş olması
- OpenAI ve Claude, API kullanıldığında verileri eğitimde kullanmayacaklarını söylüyor
Yapay zeka şirketleri arasındaki rekabetin sağlıklı biçimde sürmesini diliyorum
- Teknolojileri ve makaleleri paylaşmaya devam ederek genel olarak daha iyiye gidilmesini umuyorum
DeepSeek’in 10 kat daha az kaynakla o1 ve Claude ile eşdeğer performans elde etmesi etkileyici
- ML’nin bir sonraki aşaması için daha iyi algoritmalara ve yaklaşımlara ihtiyaç var
"catfish" kelimesinin ilginç bir (yanlış) kullanımı
- Genelde anlaşıldığı biçimden farklı

DeepSeek - Çin'in AI rekabetine yön veren sessiz dev

DeepSeek'in geçmişi ve stratejisi

Başlıca teknik yenilikler

DeepSeek'in araştırma felsefesi ve organizasyon kültürü

AGI vizyonu

Open source ve inovasyona bakışı

Sonuç

İlgili okumalar

2 yorum

Hacker News yorumları