- DeepSeek, Çinli bir yapay zeka girişimi ve kısa süre önce duyurduğu R1 modeli, çeşitli akıl yürütme benchmark'larında OpenAI'nin o1 modelini geride bırakıyor
- Bilinirliği düşük olsa da dikkat çekici bir yapay zeka araştırma laboratuvarı olarak konumlanıyor
DeepSeek'in geçmişi ve stratejisi
- CEO Liang Wenfeng, geçmişte Çin'in en büyük 4 hedge fonundan biri olan High-Flyer'ın kurucusuydu ve DeepSeek bu şirketten güçlü destek alıyor
- Ticari uygulamalardan çok temel teknoloji geliştirmeye odaklanıyor ve tüm modellerini open source olarak yayımlama stratejisini benimsiyor
- High-Flyer'ın computing cluster'ına erişebiliyor ve yaklaşık 50 binden fazla Hopper GPU'ya sahip
- AGI'ye (genel yapay zeka) odaklanıyor. Araştırmalar, potansiyel olarak oyun değiştirici olabilecek yapısal ve algoritmik yeniliklere yoğunlaşıyor
Başlıca teknik yenilikler
- Model mimarisi iyileştirmeleri
- MLA (Multi-head Latent Attention): bellek kullanımını önceki düzeyin %5~13'üne indiriyor
- DeepSeekMoE (Sparse Mixture of Experts): hesaplama maliyetini büyük ölçüde azaltıyor
- Fiyat savaşını tetikleme
- DeepSeek V2 modeli, 1 milyon token başına 1 RMB'lik çıkarım maliyeti sunarak Çin'deki büyük teknoloji şirketleri etrafında büyük çaplı bir fiyat savaşını tetikledi
- Uluslararası değerlendirme
- DeepSeek'in makalesi "yılın en iyi makalelerinden biri" olarak değerlendirildi ve Silikon Vadisi ile uluslararası yapay zeka topluluğunda da övgü aldı
DeepSeek'in araştırma felsefesi ve organizasyon kültürü
- Teknolojik idealizm: DeepSeek, teknolojik idealizmi benimsiyor ve "doğru ile yanlışı", "kâr ve zarar"ın önüne koyuyor. Bu, Çin teknoloji dünyasında nadir duyulan bir ses
- İnovasyonun önemi: DeepSeek, Çin'in sadece takip eden bir konumda kalmaması, küresel teknolojik inovasyon akışına katılması gerektiğine inanıyor
- Özerk organizasyon kültürü: yukarıdan aşağı yönetim yerine özerk ve yaratıcı bir atmosferi hedefliyor. Araştırmacılar kendi fikirleri doğrultusunda özgürce iş birliği yapabiliyor ve kaynakları kullanabiliyor
- Yetenek işe alımı: geleneksel ölçütlerden çok merak ve tutkuyu önemsiyor; ekip üyelerinin çoğu yerel üniversite mezunları ve genç araştırmacılardan oluşuyor
AGI vizyonu
- Araştırma odağı: DeepSeek, matematik, kod üretimi, multimodality ve doğal dil anlama ekseninde AGI'nin gerçekleştirilebilirliğini araştırıyor
- Gelecek öngörüsü:
- AGI'nin 2 ila 10 yıl içinde mümkün olabileceği öngörülüyor ve matematik ile kod, AGI testleri için ideal alanlar olarak görülüyor
- Büyük ölçekli modellerde son oyun, temel modelleri ve hizmetleri sağlayan uzmanlaşmış şirketlerin tedarik zincirinin her düğümünde geniş çaplı uzmanlaşma sağlaması olacak
Open source ve inovasyona bakışı
- Open source'un değeri: DeepSeek, teknolojik üstünlüğü kapalı kaynakta aramak yerine teknoloji ekosistemi kurup geliştirmede değer görüyor
- Çin yapay zeka ekosistemine dair vizyon: Çin'in uygulama inovasyonunun ötesine geçerek 0'dan 1'e teknolojik inovasyona katkı sunmasını hedefliyor
Sonuç
- DeepSeek, geleneksel Çinli yapay zeka girişimlerinden farklı bir yol izliyor
- Ticari uygulamalardan çok teknolojik inovasyona ve AGI'nin gerçekleştirilmesine odaklanıyor; küresel teknolojik inovasyon akımına katılmak istiyor
- Bu yaklaşımın, önümüzdeki dönemde Çin yapay zekasının gelişim yönü üzerinde önemli etkileri olması bekleniyor
2 yorum
Deepseek V3, aşırı uyum olup olmadığını test eden benchmark’ta kötü performans göstermişti
Hacker News yorumları
GPU kısıtlamaları, Çinli geliştiricilerin daha yenilikçi olmalarını ve daha az kaynakla daha fazlasını yapmalarını sağlayan bir ortam yarattı
Deepseek’e yönelik övgü ilgi çekici
Çin’in ekonomik gelişimiyle birlikte katkı sunan bir aktör haline gelmesi gerektiğine inanıyorum
Deepseek geçen yıldan beri açık kaynak LLM topluluğunda öne çıkan bir isimdi
Eski tarz sembolik yapay zeka ile modern ML sürümlerini birleştirmeye dair hiçbir atıf olmaması şaşırtıcı
Çin’in GPU bağımlılığını kırmaya yönelik saf araştırma yapması için güçlü teşvikleri var
API’nin ucuz olmasının nedenlerinden biri, API verilerini eğitimde kullanacağını açıkça belirtmiş olması
Yapay zeka şirketleri arasındaki rekabetin sağlıklı biçimde sürmesini diliyorum
DeepSeek’in 10 kat daha az kaynakla o1 ve Claude ile eşdeğer performans elde etmesi etkileyici
"catfish" kelimesinin ilginç bir (yanlış) kullanımı