- Bunun nedeni, benchmark'larda Llama 4'ü şimdiden geride bırakan DeepSeek V3
- Üstelik "pek bilinmeyen bir Çinli şirketin yalnızca 5.5M eğitim maliyeti" harcadığının söylenmesi şoku daha da büyüttü
- Mühendisler DeepSeek'i parçalara ayırıp mümkün olan her şeyi taklit etmek için çılgınca çalışıyor
- Yönetim, üretken yapay zeka ekibine harcanan devasa maliyetleri nasıl gerekçelendireceği konusunda endişeli
- Üretken yapay zeka ekibindeki bir "lider" bile DeepSeek v3'ün toplam eğitim maliyetinden daha fazla para alıyor ve böyle onlarca lider var
- DeepSeek r1 daha da korkutucu. Gizli bilgileri açıklayamam ama yakında kamuya açılacak
- Mühendislik daha küçük bir organizasyon olmalıydı, ancak birçok kişi bu etki kapma yarışına katılmak istedi ve organizasyonun işe alımı yapay biçimde şişirmesi sonuçta herkese zarar verdi
Yorumlar
- Google çalışanı1: DeepSeek'in yaptığı iş gerçekten inanılmaz. Sadece Meta'nın değil, OpenAI, Google ve Anthropic'in de ensesinde boza pişiriyor. Güzel olan tarafı, açık rekabetin inovasyon için ne kadar etkili olduğunu gerçek zamanlı olarak görebilmemiz.
- Apple çalışanı1: Meta hissesini elde tutma nedenim bu. Rakipleri analiz edip taklit ederek kazanmak sizin DNA'nızda var. Böyle devam edin!
- Meta çalışanı1: Birçok yönetici temel teknoloji hakkında kelimenin tam anlamıyla hiçbir şey bilmiyor (hatta çoğunun mühendislik bilgisi de yok) ve diğer yöneticilere sürekli "daha fazla GPU = zafer" fikrini aşılıyor. Katılımı artırmak için Instagram'da AI içerikleri üretmek gibi aptalca fikirler ortaya atarak durumu daha da çarpıtıyorlar (şu anda biraz geri adım atılmış durumda).
- Meta çalışanı2: DeepSeek'i direkt satın alın gitsin
- Samsung çalışanı1: Sam Altman bir dolandırıcı. DeepSeek'in CEO'su LIANG Wenfeng, Ilya Sutskever gibi; DeepSeek eski OpenAI ve OpenAI artık ClosedAI.
- Google çalışanı2: DeepSeek, yeni RL tabanlı modelin tüm bileşenlerini açıklayan bir makale yazdı ve bu sayede Meta gibi şirketler bunu doğrudan kopyalayıp doğrulayabiliyor
- Meta çalışanı3: Meta gibi "dünyanın en büyük GPU kümesine" sahip bir organizasyon nasıl olur da benchmark'larda ilk 10'a bile giremez? Grok yakında DeepSeek'i geçecek
- Meta çalışanı4: DeepSeek Çin tarafından kontrol ediliyor, gerçek verileri paylaşmıyor ve Çin Komünist Partisi tarafından ağır şekilde sansürleniyor. "Çin Komünist Partisi insanların özgürlüğünü kısıtlıyor mu" diye sorarsanız cevabı görebilirsiniz. Ne sorarsanız sorun, dönüp dolaşıp "Çin ne kadar harika" gibi şeyleri tekrarlıyor. Bilgi vermeden sadece iddialar sıralıyor.
- Chime çalışanı: Ve en iyi kısmı da tüm bunları H100 performansına yaklaşmayan H800 GPU'larla yapmaları. Gerçekten inanılmaz. DeepSeek'teki herkese saygı ve alkışlarımı gönderiyorum. Çin'den çıkan Residual Network makalesi, sinir ağlarını tamamen değiştiren ve milyarlarca parametrenin kullanılabileceğini gösteren çığır açıcı bir çalışmaydı. Çok zor problemleri çözen Çinli araştırmacılara saygı duyuyorum!
- Blizzard çalışanı: Bu bana, yapay zeka çağında hendek diye bir şey olmadığını ve kapalı kaynak modeller kadar iyi, hatta onlardan daha iyi açık kaynak modellerin çıkacağına dair umut veriyor. Bu alandaki rekabet ne kadar kızışırsa bizim için de o kadar iyi olur.
5 yorum
Rekabetin olması bence iyi bir şey 👏
İdeoloji ve sansür meselesini bir kenara bırakırsak, bu DeepSeek modellerinin mühendislik seviyesi gerçekten hayranlık uyandıracak kadar etkileyici.
V2.5 mimarisinde kullanılan MLA'nın da dahiyane bir fikir olduğunu düşünmüştüm ama bu kez MTP'nin potansiyelini de kanıtladılar, R1 ile O1 modelinin kopyalanmasını da kusursuz biçimde başardılar; üstüne bir de ihracat kısıtlamaları nedeniyle donanımın sınırlı olduğu bir ortamda eğitim tekniğini ortaya çıkarmış olmaları gerçekten olağanüstü.
ML'e ilgi duyanlar DeepSeek Technical Report V2.5, V3 ve R1'i mutlaka okusun. İnsan gerçekten sadece hayran kalıyor. Tüm bunları MIT lisansıyla yayımlamış olmalarını hâlâ anlayabilmiş değilim.
LLaMA örneğinde, LLaMA 2 -> 3 geçişinde mimari yenilik neredeyse yoktu ve yalnızca eğitim ölçeğinin artırıldığı hissi güçlüydü; bence bu bir öncü işaretti.
Çin’i bu kadar çevrelemelerine ve hatta GPU ihracatına kısıtlama getirmelerine rağmen ortaya böyle bir şey çıkmış olması hem etkileyici hem de ürkütücü; olumlu açıdan bakarsak bence fazlasıyla iyi bir tetikleyici rolü oynuyor. Sonuçta OpenAI’nin önde gittiğini kimse inkâr edemez.
Zaten Blind’da paylaşılan bir yazı olduğu için doğruluğu belirsiz, ancak DeepSeek’in ciddi bir etki yarattığı doğru gibi görünüyor
DeepSeek-R1 modelinin duyurulması
Deepseek - Çin’in yapay zeka rekabetine liderlik eden sessiz dev
Deepseek V3, aşırı uyum olup olmadığını test eden benchmark’ta iyi performans göstermedi
DeepSeek v3 üzerine notlar - "Gerçekten GPT-4o veya 3.5 Sonnet’ten daha mı iyi?"