6 puan yazan GN⁺ 2025-01-01 | 2 yorum | WhatsApp'ta paylaş
  • DeepSeek, Çinli bir yapay zeka girişimi ve kısa süre önce duyurduğu R1 modeli, çeşitli akıl yürütme benchmark'larında OpenAI'nin o1 modelini geride bırakıyor
  • Bilinirliği düşük olsa da dikkat çekici bir yapay zeka araştırma laboratuvarı olarak konumlanıyor

DeepSeek'in geçmişi ve stratejisi

  • CEO Liang Wenfeng, geçmişte Çin'in en büyük 4 hedge fonundan biri olan High-Flyer'ın kurucusuydu ve DeepSeek bu şirketten güçlü destek alıyor
  • Ticari uygulamalardan çok temel teknoloji geliştirmeye odaklanıyor ve tüm modellerini open source olarak yayımlama stratejisini benimsiyor
  • High-Flyer'ın computing cluster'ına erişebiliyor ve yaklaşık 50 binden fazla Hopper GPU'ya sahip
  • AGI'ye (genel yapay zeka) odaklanıyor. Araştırmalar, potansiyel olarak oyun değiştirici olabilecek yapısal ve algoritmik yeniliklere yoğunlaşıyor

Başlıca teknik yenilikler

  • Model mimarisi iyileştirmeleri
    • MLA (Multi-head Latent Attention): bellek kullanımını önceki düzeyin %5~13'üne indiriyor
    • DeepSeekMoE (Sparse Mixture of Experts): hesaplama maliyetini büyük ölçüde azaltıyor
  • Fiyat savaşını tetikleme
    • DeepSeek V2 modeli, 1 milyon token başına 1 RMB'lik çıkarım maliyeti sunarak Çin'deki büyük teknoloji şirketleri etrafında büyük çaplı bir fiyat savaşını tetikledi
  • Uluslararası değerlendirme
    • DeepSeek'in makalesi "yılın en iyi makalelerinden biri" olarak değerlendirildi ve Silikon Vadisi ile uluslararası yapay zeka topluluğunda da övgü aldı

DeepSeek'in araştırma felsefesi ve organizasyon kültürü

  • Teknolojik idealizm: DeepSeek, teknolojik idealizmi benimsiyor ve "doğru ile yanlışı", "kâr ve zarar"ın önüne koyuyor. Bu, Çin teknoloji dünyasında nadir duyulan bir ses
  • İnovasyonun önemi: DeepSeek, Çin'in sadece takip eden bir konumda kalmaması, küresel teknolojik inovasyon akışına katılması gerektiğine inanıyor
  • Özerk organizasyon kültürü: yukarıdan aşağı yönetim yerine özerk ve yaratıcı bir atmosferi hedefliyor. Araştırmacılar kendi fikirleri doğrultusunda özgürce iş birliği yapabiliyor ve kaynakları kullanabiliyor
  • Yetenek işe alımı: geleneksel ölçütlerden çok merak ve tutkuyu önemsiyor; ekip üyelerinin çoğu yerel üniversite mezunları ve genç araştırmacılardan oluşuyor

AGI vizyonu

  • Araştırma odağı: DeepSeek, matematik, kod üretimi, multimodality ve doğal dil anlama ekseninde AGI'nin gerçekleştirilebilirliğini araştırıyor
  • Gelecek öngörüsü:
    • AGI'nin 2 ila 10 yıl içinde mümkün olabileceği öngörülüyor ve matematik ile kod, AGI testleri için ideal alanlar olarak görülüyor
    • Büyük ölçekli modellerde son oyun, temel modelleri ve hizmetleri sağlayan uzmanlaşmış şirketlerin tedarik zincirinin her düğümünde geniş çaplı uzmanlaşma sağlaması olacak

Open source ve inovasyona bakışı

  • Open source'un değeri: DeepSeek, teknolojik üstünlüğü kapalı kaynakta aramak yerine teknoloji ekosistemi kurup geliştirmede değer görüyor
  • Çin yapay zeka ekosistemine dair vizyon: Çin'in uygulama inovasyonunun ötesine geçerek 0'dan 1'e teknolojik inovasyona katkı sunmasını hedefliyor

Sonuç

  • DeepSeek, geleneksel Çinli yapay zeka girişimlerinden farklı bir yol izliyor
  • Ticari uygulamalardan çok teknolojik inovasyona ve AGI'nin gerçekleştirilmesine odaklanıyor; küresel teknolojik inovasyon akımına katılmak istiyor
  • Bu yaklaşımın, önümüzdeki dönemde Çin yapay zekasının gelişim yönü üzerinde önemli etkileri olması bekleniyor

2 yorum

 
GN⁺ 2025-01-01
Hacker News yorumları
  • GPU kısıtlamaları, Çinli geliştiricilerin daha yenilikçi olmalarını ve daha az kaynakla daha fazlasını yapmalarını sağlayan bir ortam yarattı

    • Deepseek ekibine övgü
  • Deepseek’e yönelik övgü ilgi çekici

    • Deepseek’in diğer modelleri açık ara geride bırakamamasının yapısal ve temel nedenleri var
      • ABD ile Çin arasındaki ticaret savaşı, Deepseek’in erişebildiği hesaplama kapasitesini dezavantajlı hale getirebilir
      • Çin’deki sansür, Deepseek’in veri toplamasına ve çıktısına belli ölçüde sınırlama getiriyor
      • Deepseek açık kaynak olduğu için diğer modeller tarafından kolayca kopyalanabilir
    • Gemini, ChatGPT, Deepseek ve Claudie’yi düzenli olarak kullanıyorum; Deepseek diğer modellere göre ne özellikle üstün ne de geride
    • Deepseek’in LLM alanına tamamen hakim olacağını insanların neden düşündüğünü merak ediyorum
  • Çin’in ekonomik gelişimiyle birlikte katkı sunan bir aktör haline gelmesi gerektiğine inanıyorum

    • Geçmiş 30 yılda BT yeniliklerine fiilen katılmadı
    • Ölçekleme yasalarını, Moore yasasına güvenip daha iyi donanım ve yazılımı bekleyerek ele aldı
  • Deepseek geçen yıldan beri açık kaynak LLM topluluğunda öne çıkan bir isimdi

    • Diğer Çinli LLM oyuncularına kıyasla pazarlama harcaması daha az
  • Eski tarz sembolik yapay zeka ile modern ML sürümlerini birleştirmeye dair hiçbir atıf olmaması şaşırtıcı

  • Çin’in GPU bağımlılığını kırmaya yönelik saf araştırma yapması için güçlü teşvikleri var

    • Bilim uğruna birbirlerinin matematikçilerine saldırmak gibi şeyler yaşanmaz umarım
  • API’nin ucuz olmasının nedenlerinden biri, API verilerini eğitimde kullanacağını açıkça belirtmiş olması

    • OpenAI ve Claude, API kullanıldığında verileri eğitimde kullanmayacaklarını söylüyor
  • Yapay zeka şirketleri arasındaki rekabetin sağlıklı biçimde sürmesini diliyorum

    • Teknolojileri ve makaleleri paylaşmaya devam ederek genel olarak daha iyiye gidilmesini umuyorum
  • DeepSeek’in 10 kat daha az kaynakla o1 ve Claude ile eşdeğer performans elde etmesi etkileyici

    • ML’nin bir sonraki aşaması için daha iyi algoritmalara ve yaklaşımlara ihtiyaç var
  • "catfish" kelimesinin ilginç bir (yanlış) kullanımı

    • Genelde anlaşıldığı biçimden farklı