- Google TPU, büyük ölçekli yapay zeka çıkarım yüklerini işlemek için tasarlanmış özel bir ASIC çipi olarak, GPU'lara kıyasla verimlilik ve maliyet rekabetçiliği sağlıyor
- Temel fark yaratan unsur, bellek erişimini en aza indirip işlem verimliliğini (Operations per Joule) en üst düzeye çıkaran Systolic Array mimarisi
- En yeni TPUv7 (Ironwood), önceki nesle göre performans ve bellek bant genişliğinde sıçrama yaparak Nvidia Blackwell GPU ile benzer seviyede performansa ulaşıyor
- TPU'nun ekosistem kısıtları ve yalnızca GCP üzerinden sunulması, yaygınlaşmasının önündeki başlıca engeller; ancak Google dış müşterileri artırmak için organizasyonel değişiklikler yapıyor ve desteği güçlendiriyor
- Kendi çipleri sayesinde bulut marjlarını toparlama ve rekabet gücünü artırma potansiyeli, Google'ı uzun vadede yapay zeka altyapı pazarının temel kazananlarından biri haline getirebilir
TPU'nun tarihi ve geliştirilme arka planı
- 2013'te Google, sesli arama kullanımındaki artış nedeniyle veri merkezi kapasitesinin iki katına çıkması gerektiğini hesapladı
- Mevcut CPU ve GPU'larla derin öğrenme işlemlerini (büyük ölçekli matris çarpımı) verimli şekilde yürütmek zordu
- Bunun üzerine Google, TensorFlow sinir ağları için özel bir ASIC geliştirmeye karar verdi ve 15 ay içinde silikonu veri merkezlerine yerleştirdi
- 2015 itibarıyla TPU, Google Maps, Photos, Translate gibi başlıca hizmetlerde kullanılmaya başlanmıştı
- 2016'daki Google I/O'da resmen duyuruldu; sonrasında TPU, yapay zeka çıkarım maliyetlerini düşürmeye yönelik temel altyapıya dönüştü
TPU ve GPU arasındaki yapısal farklar
- GPU genel amaçlı paralel bir işlemci, TPU ise alana özel bir mimari
- GPU, grafik işleme için tasarlandığından önbellek, dal tahmini gibi karmaşık kontrol mantıkları içeriyor
- TPU ise bunları kaldırıp Systolic Array yapısıyla veri hareketini en aza indiriyor
- TPU'nun Systolic Array yapısı, veriyi bir kez yükledikten sonra kesintisiz bir işlem akışı içinde ileterek Von Neumann darboğazını hafifletiyor
- Ironwood (7. nesil) geliştirmeleri
- SparseCore güçlendirilerek büyük ölçekli embedding işleme verimliliği artırıldı
- HBM kapasitesi 192GB, bant genişliği 7.370GB/s seviyesine çıktı
- Inter-Chip Interconnect (ICI) performansı artırıldı; bant genişliği en fazla 1.2TB/s'ye ulaşıyor
- Google, büyük TPU Pod'larını Optical Circuit Switch (OCS) ve 3D torus ağı ile kuruyor
- Güç verimliliği yüksek olsa da esnekliği InfiniBand'e kıyasla daha düşük
TPU vs GPU performans karşılaştırması
- TPUv7 (BF16 4.614 TFLOPS), TPUv5p (459 TFLOPS) karşısında yaklaşık 10 kat performans artışı sunuyor
- Sektör röportajlarından özet
- TPU, performans başına güç verimliliği ve maliyet verimliliği açısından önde
- Belirli uygulamalarda 1,4 kat daha yüksek performans/dolar sağlıyor
- TPUv6, GPU'lara kıyasla %60-65 verimlilik üstünlüğüne sahip; önceki nesilde bu oran %40-45'ti
- TPU daha az ısınıyor ve daha az güç tüketiyor, dolayısıyla çevresel yükü daha düşük
- Bazı müşteriler, TPU Pod kullandıklarında maliyeti beşte birine kadar düşürebiliyor
- ASIC yapısı sayesinde boyutta %30 küçülme, güç tüketiminde %50 azalma etkisinden söz ediliyor
- Google'ın iç verilerine göre TPUv7, TPUv6e'ye kıyasla watt başına performansı 2 kat artırıyor
- Nvidia CEO'su Jensen Huang da TPU'yu “özel bir vaka” olarak nitelendirip dikkat çekti
TPU benimsenmesini engelleyen sorunlar
- İlk engel ekosistem (CUDA hakimiyeti)
- Hem üniversitelerde hem sanayide eğitim ve geliştirme büyük ölçüde CUDA merkezli
- TPU daha çok JAX ve TensorFlow etrafında şekilleniyor; PyTorch desteği ise görece daha geç güçlendirildi
- Çoklu bulut stratejilerinin yaygınlaşması da bir diğer kısıt
- Çoğu şirketin verisi AWS/Azure/GCP arasında dağılmış durumda; veri çıkış maliyetleri (egress) yüksek olduğundan GPU tabanlı iş yükleri daha esnek kalıyor
- TPU yalnızca GCP'de sunulurken, Nvidia üç büyük bulutun tamamında kullanılabiliyor
- TPU tercih edilip sonrasında fiyatlar değişir ya da ortam dönüşürse yeniden yazım maliyeti çok yüksek olabiliyor
- Google, ancak yakın dönemde dış satış ve yaygınlaştırma için organizasyonunu büyütmeye başladı; bazı eski ve mevcut çalışanlar, gelecekte neocloud'lar üzerinden dış tedarik olasılığından söz ediyor
TPU'nun Google Cloud için stratejik değeri
- Yapay zeka çağında bulut sektörü yüksek marjlı yapıdan (%50-70) düşük marja (%20-35) doğru kayıyor
- Bunun temel nedeni, Nvidia'nın %75 marjının yarattığı maliyet baskısı
- Yalnızca kendi ASIC'ine, özellikle de TPU'ya sahip sağlayıcılar geleneksel bulut marjlarına (%50'ler seviyesi) geri dönebilir
- Google'ın avantajları
- TPU, bulut için en olgun ASIC konumunda
- Google, RTL dahil çip tasarımının frontend kısmının büyük bölümünü şirket içinde yürütüyor
- Broadcom yalnızca fiziksel tasarımı (backend) üstleniyor; marj yapısı Nvidia'ya göre daha düşük olduğu için TPU'nun maliyet rekabetçiliği güçleniyor
- Google, yazılım optimizasyon yığınının tamamına sahip olduğu için donanım performansını en üst düzeye çıkarabiliyor
- Gemini 3 gibi ana modeller, eğitim ve çıkarım için TPU tabanını kullanıyor
- Şirket içindeki yapay zeka hizmetlerinin genelinde TPU kullanımı genişliyor
- SemiAnalysis, “Google'ın 7. nesil TPU'su Nvidia Blackwell ile aynı seviyede” değerlendirmesini yapıyor
- TPU, GCP'nin uzun vadeli rekabet avantajı ve yapay zeka altyapı pazar payını büyütmenin temel motoru olarak görülüyor
1 yorum
Hacker News görüşleri
Google'ın gerçek silahı, TPU silikonunun kendisi değil, OCS (Optical Circuit Switch) ara bağlantısı üzerinden sağlanan büyük ölçekli paralel ölçeklenebilirlik
The Next Platform'a göre 9.216 Ironwood TPU birbirine bağlanarak 1,77PB HBM bellekten yararlanabiliyor. Bu, Nvidia'nın Blackwell GPU tabanlı rack-scale sistemine (20,7TB HBM) kıyasla ezici bir ölçek
Nvidia tek çip düzeyinde üstün olsa da, büyük ölçekli dağıtık eğitim veya çıkarımda Google'ın optik anahtarlama ölçeklenebilirliğine denk bir şeyi yok
Çoğu şirketin donanımı doğrudan satın almasına veya model eğitmesine gerek yok; Google'ın sunduğu bir yapay zeka uygulama mağazası benzeri hizmetleri kullanmaları yeterli
Örneğin Mixture of Experts modelleri çok fazla all-to-all iletişim gerektirdiği için NVLink tarafı çok daha verimli
Nvidia resmi tweet bağlantısı
Model paralelleştirmede hızlı ve küçük ağlar, veri paralelleştirmede ise büyük ağlar avantajlı. Bu denge yüzünden Nvidia kazanıyor
Gemini 3 Pro zaten neredeyse eski sayılır. Google, Anthropic'ten çok daha fazla kaynağa sahip ama donanım gizli silah olsaydı, piyasaya çoktan hâkim olması gerekirdi
Ama gerçek farklı
CUDA'nın eğitim için önemli olduğu, ancak çıkarım aşamasında daha az önemli olduğu görüşü var
Ama çıkarım, sabit ağırlıkların tekrar tekrar uygulanmasından ibaret daha basit bir süreç olduğu için TPU daha verimli olabilir
Nvidia'nın TPU gibi özelleşmiş çipler üretememesinin bir nedeni yok
Nvidia üretimi TSMC'ye yaptırıp pahalıya satarken, Google kendi kullanımında marjdan tasarruf ediyor
Reuters haberine göre Meta, Google çiplerine milyarlarca dolar yatırım yapmak için görüşüyor
LLM'ler için ASIC'ler, kripto para ASIC'lerinden çok daha karmaşık. Kriptoda yalnızca sabit bir hash algoritmasını işlemek yeterliyken, LLM'ler sürekli evriliyor
Bu bağlamda TPU'nun ne anlama geldiği kafa karıştırıcı
Kişisel kullanım için daha fazla bağımsız TPU seçeneği olmasını isterdim. Şu anda 2019 çıkışlı Coral tek seçenek gibi görünüyor
Bu tartışma RISC vs CISC gibi akademik. Nvidia GPU'ları da sonuçta TPU ile aynı işi yapacak şekilde tasarlanıyor
Google içinde bile 5 yıl sonra büyük bir fark kalmayabilir
Google TPU'dan kâr ediyor ama dış geliştiricilere doğrudan bir faydası yok
Microsoft'un Maia'sı, AMD/NVIDIA'nın veri merkezi çipleri ve ağ odaklı şirket satın almalarıyla herkes aynı yöne gidiyor
Google önde olsa da sonunda bu yakınsayan bir rekabet olacak
Seyrek modeller (sparse model) aynı kaliteyi koruyarak hesaplama miktarını ve depolama alanını 16 kat azaltabilir
TPU, seyrek matris işlemede zayıf ama yoğun (dense) model eğitiminde güçlü
TPU sistem mimarisi belgesi
OpenXLA SparseCore tanıtımı
Sonuçta geriye şu soru kalıyor: Bu rekabetin bitiş çizgisi nerede, ya da tabanı nerede?