- NVIDIA, yapay zeka patlaması ve GPU tekelinin etkisiyle hızla büyüdü; ancak bulut devlerinin kendi çiplerini geliştirmesi ve dikey entegrasyon stratejileri nedeniyle uzun vadeli konumu tehdit altında
- Startup ve bağımsız bulut sağlayıcılarının GPU talebi azalıyor; NVIDIA bağımlılığı yüksek iş modellerinde kârlılık bozulması görünür hale geliyor
- Google, Amazon, Microsoft ve Meta, yüksek performanslı özel çipler ile dikey entegre sistemler üzerinden NVIDIA’ya bağımlılıklarını hızla azaltıyor
- Dağıtık altyapı ve küme bağlantısı tabanlı optimizasyon, yapay zeka eğitiminin temel unsurları haline geliyor; bu da NVIDIA’nın yanıt vermekte zorlanacağı yapısal bir değişime işaret ediyor
- NVIDIA donanım ve yazılım tarafında iyileştirmeler yapmaya çalışsa da, hiperscaler’ların derin dikey entegrasyon stratejileri karşısında rekabet gücünün zayıflama ihtimali bulunuyor
NVIDIA’nın hakimiyetinden krize: yapay zeka hesaplama pazarındaki sarsıntı
- NVIDIA, yapay zeka patlaması, GPU tekeli ve DGX sunucu tedariki sayesinde hızla büyüyerek 13 ay içinde piyasa değerine 2 trilyon dolar eklenmesi gibi rekor bir başarı elde etti
- Ancak H100 nesli kârlılığın zirvesini temsil ediyor; sonrasında çıkan B200 serisine ise kârlılıkta gerileme ve artan üretim maliyetleri eşlik ediyor
- Uzun vadede hiperscaler’lar talebi konsolide edip özel çip geliştirme yoluyla rekabet avantajı kazandıkça, NVIDIA’nın tekel yapısı sarsılıyor
Yapay zeka talebinin yeniden şekillenmesi ve startup pazarının daralması
- NVIDIA’nın veri merkezi talebinin yarısından fazlası Google, Microsoft, Amazon ve Meta gibi hiperscaler’lardan geliyor
- Kalan talep startup’lar, VC’ler ve orta-küçük ölçekli bulut şirketlerinden geldi; ancak aşırı GPU alımı nedeniyle ROI düşük ve GPU kiralama işi zarar yazıyor
- BloombergGPT gibi küçük ölçekli özelleşmiş modeller pazarda zorlanırken, kapalı büyük API tabanlı modeller standart hale geliyor
- Coreweave ve Lambda gibi bağımsız bulut şirketleri, NVIDIA’nın desteğine rağmen ekonomik yetersizlik, düşen kârlılık ve yavaşlayan talep nedeniyle kriz yaşıyor
- GPU kiralama fiyatları sert biçimde düştü; saatlik $1.99 seviyesine gerilerken ROE %10’un altına indi ve bu seviye sürdürülebilir değil
Hiperscaler’ların özel çip geliştirme stratejisi
- Google TPU zaten 6. nesle ulaştı ve Gemini-Ultra, DeepMind ve YouTube gibi modellerde NVIDIA’nın yerini tamamen aldı
- Amazon’un Trainium ve Inferentia çipleri, Anthropic ile iş birliği sayesinde büyük model çıkarımı ve eğitiminin yerini alıyor; ayrıca CUDA olmadan çalışan Neuron SDK sunuyor
- Microsoft’un Maia hızlandırıcısı ve Cobalt CPU’su, şirket içi yapay zeka iş yüklerinde kullanılıyor; Triton tabanlı SDK ile CUDA’nın yerini alma ihtimalini artırıyor
- Meta, MTIA çipiyle Instagram ve WhatsApp’ın yapay zeka özelliklerini kendi çipleri üzerinde çalıştırıyor; ayrıca Llama 3.1 eğitiminin bir kısmını da kendi çiplerine dayalı olarak yürütüyor
- Bu eğilim, çıkarım merkezli yapay zeka pazar yapısına daha uygun ve gelecekte GPU tabanlı çıkarımın özel çiplere, hatta CPU tabanlı çözümlere karşı gerileme ihtimali var
Sistem merkezli yapıya geçiş ve NVIDIA’nın sınırları
- Hiperscaler’lar tek bir çipin performansından çok tüm sistemin optimizasyonuna odaklanıyor
- Google, küçük TPU’ları büyük ölçekte birbirine bağlayarak, kendi optik ağı (Apollo) ve torus ağ topolojisini kullanıp güç tüketimini ve gecikmeyi en aza indiriyor
- Microsoft, fiber ağ ve ColorZ transceiver’ları kurarak çoklu veri merkezi eğitimi olanağı sağlıyor ve NVIDIA’ya kıyasla daha düşük maliyetli, yüksek performanslı altyapı elde ediyor
- Bunun sonucunda, birden fazla küçük veri merkezini ağ üzerinden bağlayarak eğitim yapan dağıtık mimari öne çıkan model haline geliyor
- Güç kısıtlarını ve altyapı genişleme sınırlarını aşmak için ülke çapında veri merkezi bağlantıları kurulmaya çalışılıyor (ör. Microsoft’un Three Mile Island’ı yeniden devreye alma girişimi, AWS’nin nükleer santral satın alımı)
NVIDIA’nın donanım-yazılım yanıtı ve yapısal zorluklar
- NVIDIA, GB200 sunucuları, Spectrum-X, DCGM ve RAS ile karşılık vermeye çalışıyor
- InfiniBand tabanlı ağ tasarımı, büyük ölçekli kümelerde zayıf kalıyor ve hata toleranslı tasarım açısından eksikler taşıyor
- Google’ın Pathways’i ve Microsoft’un Singularity’si, kendi fault-tolerant sistemleri ve GPU bellek hatası tespiti konularında güçlü yönlere sahip
- Kubernetes tabanlı NVIDIA BaseCommand, hiperscaler’ların Borg, MegaScaler gibi sistemleriyle karşılaştırıldığında ölçeklenebilirlik ve entegrasyon açısından geride kalıyor
- Soğutma sistemlerinde geç kalan oyuncu olarak NVIDIA, Google’a kıyasla enerji verimliliği, ömür ve alan verimliliğinde de geride (ör. Google PUE 1.1, NVIDIA ise 1.4 ve üzeri)
Sonuç
- NVIDIA hâlâ güçlü GPU performansına sahip; ancak sistem optimizasyonu, altyapı entegrasyonu ve maliyet verimliliği alanlarında hiperscaler’ların gerisinde kalmasına yol açan yapısal sınırlamalar bulunuyor
- Hiperscaler’lar, çipten altyapıya ve yazılıma kadar dikey entegrasyonu zaten tamamlayarak tam ikame olasılığını elde etmiş durumda
- NVIDIA, geçmişteki GPU merkezli stratejiden çıkıp tüm sistemi kapsayan yenilikler yapmadığı takdirde, gelecekte yapay zeka hesaplama pazarında sürdürülebilir liderliğini korumakta zorlanma riskiyle karşı karşıya
3 yorum
Google Tensor, Tesla Dojo, AMD yüzünden Nvidia hissesi almayan biri..
"Hyperscaler'ların özel çipleri"nin dezavantajlarını da merak ediyorum
Sanki her açıdan daha üstünmüş gibi anlatılıyor gibi geliyor
Hacker News görüşleri
Nvidia hiçbir şey yapmazken rakiplerin birdenbire başarıya ulaşıp Nvidia’yı tehdit edeceği varsayımına dayanan bir başka yazı olduğu görüşü var
Marvell’in hissesi bu yıl %50’den fazla düşmüş olsa da Nvidia GPU’larına olan talep hâlâ güçlü
Servislerin Nvidia’yı koruyacağı görüşü var
Nvidia’nın stratejik konumunun hafife alındığı görüşü var
AMD’nin Nvidia ile gizli bir anlaşma yaptığı ve bu durumu bilerek oluşturduğu yönünde bir görüş var
Nvidia işlevsel bir tekelden rekabet etmek zorunda olduğu bir duruma geçiyor
H100 neslinin en yüksek fiyatlandırma gücünü temsil ettiği ve alternatif azlığı nedeniyle gelir üretmeye devam edeceği görüşü var
Nvidia’nın GPU sürücülerindeki kalite kontrolünün kötüleştiği görüşü var