TPU ve GPU: Google neden uzun vadede yapay zeka rekabetini kazanabilir?

(uncoveralpha.com)

7 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş

Google TPU, büyük ölçekli yapay zeka çıkarım yüklerini işlemek için tasarlanmış özel bir ASIC çipi olarak, GPU'lara kıyasla verimlilik ve maliyet rekabetçiliği sağlıyor
Temel fark yaratan unsur, bellek erişimini en aza indirip işlem verimliliğini (Operations per Joule) en üst düzeye çıkaran Systolic Array mimarisi
En yeni TPUv7 (Ironwood), önceki nesle göre performans ve bellek bant genişliğinde sıçrama yaparak Nvidia Blackwell GPU ile benzer seviyede performansa ulaşıyor
TPU'nun ekosistem kısıtları ve yalnızca GCP üzerinden sunulması, yaygınlaşmasının önündeki başlıca engeller; ancak Google dış müşterileri artırmak için organizasyonel değişiklikler yapıyor ve desteği güçlendiriyor
Kendi çipleri sayesinde bulut marjlarını toparlama ve rekabet gücünü artırma potansiyeli, Google'ı uzun vadede yapay zeka altyapı pazarının temel kazananlarından biri haline getirebilir

TPU'nun tarihi ve geliştirilme arka planı

2013'te Google, sesli arama kullanımındaki artış nedeniyle veri merkezi kapasitesinin iki katına çıkması gerektiğini hesapladı
- Mevcut CPU ve GPU'larla derin öğrenme işlemlerini (büyük ölçekli matris çarpımı) verimli şekilde yürütmek zordu
Bunun üzerine Google, TensorFlow sinir ağları için özel bir ASIC geliştirmeye karar verdi ve 15 ay içinde silikonu veri merkezlerine yerleştirdi
2015 itibarıyla TPU, Google Maps, Photos, Translate gibi başlıca hizmetlerde kullanılmaya başlanmıştı
2016'daki Google I/O'da resmen duyuruldu; sonrasında TPU, yapay zeka çıkarım maliyetlerini düşürmeye yönelik temel altyapıya dönüştü

TPU ve GPU arasındaki yapısal farklar

GPU genel amaçlı paralel bir işlemci, TPU ise alana özel bir mimari
- GPU, grafik işleme için tasarlandığından önbellek, dal tahmini gibi karmaşık kontrol mantıkları içeriyor
- TPU ise bunları kaldırıp Systolic Array yapısıyla veri hareketini en aza indiriyor
TPU'nun Systolic Array yapısı, veriyi bir kez yükledikten sonra kesintisiz bir işlem akışı içinde ileterek Von Neumann darboğazını hafifletiyor
Ironwood (7. nesil) geliştirmeleri
- SparseCore güçlendirilerek büyük ölçekli embedding işleme verimliliği artırıldı
- HBM kapasitesi 192GB, bant genişliği 7.370GB/s seviyesine çıktı
- Inter-Chip Interconnect (ICI) performansı artırıldı; bant genişliği en fazla 1.2TB/s'ye ulaşıyor
Google, büyük TPU Pod'larını Optical Circuit Switch (OCS) ve 3D torus ağı ile kuruyor
- Güç verimliliği yüksek olsa da esnekliği InfiniBand'e kıyasla daha düşük

TPU vs GPU performans karşılaştırması

TPUv7 (BF16 4.614 TFLOPS), TPUv5p (459 TFLOPS) karşısında yaklaşık 10 kat performans artışı sunuyor
Sektör röportajlarından özet
- TPU, performans başına güç verimliliği ve maliyet verimliliği açısından önde
- Belirli uygulamalarda 1,4 kat daha yüksek performans/dolar sağlıyor
- TPUv6, GPU'lara kıyasla %60-65 verimlilik üstünlüğüne sahip; önceki nesilde bu oran %40-45'ti
- TPU daha az ısınıyor ve daha az güç tüketiyor, dolayısıyla çevresel yükü daha düşük
Bazı müşteriler, TPU Pod kullandıklarında maliyeti beşte birine kadar düşürebiliyor
ASIC yapısı sayesinde boyutta %30 küçülme, güç tüketiminde %50 azalma etkisinden söz ediliyor
Google'ın iç verilerine göre TPUv7, TPUv6e'ye kıyasla watt başına performansı 2 kat artırıyor
Nvidia CEO'su Jensen Huang da TPU'yu “özel bir vaka” olarak nitelendirip dikkat çekti

TPU benimsenmesini engelleyen sorunlar

İlk engel ekosistem (CUDA hakimiyeti)
- Hem üniversitelerde hem sanayide eğitim ve geliştirme büyük ölçüde CUDA merkezli
- TPU daha çok JAX ve TensorFlow etrafında şekilleniyor; PyTorch desteği ise görece daha geç güçlendirildi
Çoklu bulut stratejilerinin yaygınlaşması da bir diğer kısıt
- Çoğu şirketin verisi AWS/Azure/GCP arasında dağılmış durumda; veri çıkış maliyetleri (egress) yüksek olduğundan GPU tabanlı iş yükleri daha esnek kalıyor
- TPU yalnızca GCP'de sunulurken, Nvidia üç büyük bulutun tamamında kullanılabiliyor
TPU tercih edilip sonrasında fiyatlar değişir ya da ortam dönüşürse yeniden yazım maliyeti çok yüksek olabiliyor
Google, ancak yakın dönemde dış satış ve yaygınlaştırma için organizasyonunu büyütmeye başladı; bazı eski ve mevcut çalışanlar, gelecekte neocloud'lar üzerinden dış tedarik olasılığından söz ediyor

TPU'nun Google Cloud için stratejik değeri

Yapay zeka çağında bulut sektörü yüksek marjlı yapıdan (%50-70) düşük marja (%20-35) doğru kayıyor
- Bunun temel nedeni, Nvidia'nın %75 marjının yarattığı maliyet baskısı
Yalnızca kendi ASIC'ine, özellikle de TPU'ya sahip sağlayıcılar geleneksel bulut marjlarına (%50'ler seviyesi) geri dönebilir
Google'ın avantajları
- TPU, bulut için en olgun ASIC konumunda
- Google, RTL dahil çip tasarımının frontend kısmının büyük bölümünü şirket içinde yürütüyor
- Broadcom yalnızca fiziksel tasarımı (backend) üstleniyor; marj yapısı Nvidia'ya göre daha düşük olduğu için TPU'nun maliyet rekabetçiliği güçleniyor
- Google, yazılım optimizasyon yığınının tamamına sahip olduğu için donanım performansını en üst düzeye çıkarabiliyor
Gemini 3 gibi ana modeller, eğitim ve çıkarım için TPU tabanını kullanıyor
- Şirket içindeki yapay zeka hizmetlerinin genelinde TPU kullanımı genişliyor
SemiAnalysis, “Google'ın 7. nesil TPU'su Nvidia Blackwell ile aynı seviyede” değerlendirmesini yapıyor
TPU, GCP'nin uzun vadeli rekabet avantajı ve yapay zeka altyapı pazar payını büyütmenin temel motoru olarak görülüyor

1 yorum

GN⁺ 2025-11-28

Hacker News görüşleri

Google'ın gerçek silahı, TPU silikonunun kendisi değil, OCS (Optical Circuit Switch) ara bağlantısı üzerinden sağlanan büyük ölçekli paralel ölçeklenebilirlik
The Next Platform'a göre 9.216 Ironwood TPU birbirine bağlanarak 1,77PB HBM bellekten yararlanabiliyor. Bu, Nvidia'nın Blackwell GPU tabanlı rack-scale sistemine (20,7TB HBM) kıyasla ezici bir ölçek
Nvidia tek çip düzeyinde üstün olsa da, büyük ölçekli dağıtık eğitim veya çıkarımda Google'ın optik anahtarlama ölçeklenebilirliğine denk bir şeyi yok
- Google, dikey entegre yığının tamamına sahip. Bu sayede yapay zeka hizmetlerini bulut ölçeğinde çok daha ucuza ve kârlı biçimde sunabiliyor
  Çoğu şirketin donanımı doğrudan satın almasına veya model eğitmesine gerek yok; Google'ın sunduğu bir yapay zeka uygulama mağazası benzeri hizmetleri kullanmaları yeterli
- Aslında iki sistemin ağ yapısı tamamen farklı. Nvidia'nın NVLink'i all-to-all anahtarlamalı fabric, TPU ise 3D torus yapısı
  Örneğin Mixture of Experts modelleri çok fazla all-to-all iletişim gerektirdiği için NVLink tarafı çok daha verimli
- Nvidia hâlâ kendi teknolojisinin daha iyi olduğunu savunan tweet'ler atıyor
  Nvidia resmi tweet bağlantısı
- Google'ın iddiası doğruysa MLPerf benchmark'larında ezici üstünlük kurması gerekirdi, ama öyle değil
  Model paralelleştirmede hızlı ve küçük ağlar, veri paralelleştirmede ise büyük ağlar avantajlı. Bu denge yüzünden Nvidia kazanıyor
- Aynı bellek kapasitesine ulaşmak için Google'ın 100 kat daha fazla çipe ihtiyacı var
Gemini 3 Pro zaten neredeyse eski sayılır. Google, Anthropic'ten çok daha fazla kaynağa sahip ama donanım gizli silah olsaydı, piyasaya çoktan hâkim olması gerekirdi
Ama gerçek farklı
1. Donanımı verimli kullanmak zor ve optimizasyon bittiğinde zaten bir sonraki modele geçilmiş oluyor
2. Çoğu şirket için sorun para ile çözülebiliyor. H100 ile de gayet iyi çalışıyor
3. Yalnızca yeni araştırma teknikleriyle bile model performansı ciddi biçimde artırılabiliyor
4. Model geliştirme hâlâ veri kümesi temizleme ve değerlendirme çalışmaları gibi çok sayıda insan emeği gerektiriyor
5. Özel donanım, özel sorunlar da yaratır. TPU kümesi sorunlarının cevabını Stack Overflow'da bulamazsınız
CUDA'nın eğitim için önemli olduğu, ancak çıkarım aşamasında daha az önemli olduğu görüşü var
- NVIDIA çipleri daha genel amaçlı. Eğitim sırasında sin, cos gibi özel işlemler, ara hesapların saklanması, gradient işleme gibi çeşitli işlevler gerekiyor
  Ama çıkarım, sabit ağırlıkların tekrar tekrar uygulanmasından ibaret daha basit bir süreç olduğu için TPU daha verimli olabilir
- Eğitim çipi pazarı bir balon olabilir ama çıkarım pazarı çok daha büyük. Bir gün model performansı yeterince iyi olduğunda eğitim talebi azalacak ve güç verimli çıkarım sistemleri ana akım hâline gelecek
- CUDA'nın önemli olmasının nedeni ekosistem bağımlılığı. Eğitim yazılımlarının çoğu CUDA tabanlı geliştirilmiş durumda
- Eğitim, devasa bir problemi parçalara ayırıp veri bağımlılıklarını yönetme süreci; çıkarım ise bağımsız küçük problemlerin toplamı
- CUDA'da geliştirici deneyimi çok daha iyi. Araştırma üretkenliği önemli olduğunda bu belirleyici oluyor
Nvidia'nın TPU gibi özelleşmiş çipler üretememesinin bir nedeni yok
- Nvidia da sonunda bunu yapacaktır. Ancak Google, hem çip tasarımcısı hem de yapay zeka şirketi olduğu için tüm kârı kendisi alıyor
  Nvidia üretimi TSMC'ye yaptırıp pahalıya satarken, Google kendi kullanımında marjdan tasarruf ediyor
- DeepMind, TPU ekibiyle doğrudan iş birliği yaparak projeye özel çipler tasarlıyor. OpenAI da aynı nedenle kendi çip geliştirme planını açıkladı, ancak bu son derece sermaye yoğun bir iş
- TPU, NVidia GPU'lardan daha ucuz ve Google içinde dikey entegre şekilde kullanılıyor
- Nvidia için risk varoluşsal bir krizden çok kâr marjının düşmesi. Çip satışları 100 kat artsa bile marj %5'e düşerse piyasa değeri gerileyebilir
- Aslında Nvidia zaten Tensor Core ile aynı yöne evriliyor
Reuters haberine göre Meta, Google çiplerine milyarlarca dolar yatırım yapmak için görüşüyor
LLM'ler için ASIC'ler, kripto para ASIC'lerinden çok daha karmaşık. Kriptoda yalnızca sabit bir hash algoritmasını işlemek yeterliyken, LLM'ler sürekli evriliyor
Bu bağlamda TPU'nun ne anlama geldiği kafa karıştırıcı
- LLM'lerde bellek ve ara bağlantı bant genişliği önemli. Buna karşılık kripto %100 hesaplama odaklı
- Çoğu LLM esas olarak matris çarpımı ağırlıklı olduğu için TPU bunu hızlandırıyor. PyTorch'ta da TPU desteği var
- ASIC olsa bile programlanabilir olabilir. TPU, farklı modelleri çalıştırmak zorunda olduğu için hardcoded bir çipten farklı
- LLM mimarileri değişse de ortak bileşenler (matris işlemleri, kayan nokta türleri) aynı kalıyor. Bu yüzden TPU fiilen LLM için bir ASIC
- Kripto da değişiyor. Örneğin Monero, ASIC'leri engellemek için CPU düzeyinde bir yapı kullanıyor
Kişisel kullanım için daha fazla bağımsız TPU seçeneği olmasını isterdim. Şu anda 2019 çıkışlı Coral tek seçenek gibi görünüyor
Bu tartışma RISC vs CISC gibi akademik. Nvidia GPU'ları da sonuçta TPU ile aynı işi yapacak şekilde tasarlanıyor
Google içinde bile 5 yıl sonra büyük bir fark kalmayabilir
Google TPU'dan kâr ediyor ama dış geliştiricilere doğrudan bir faydası yok
- Google'ın TPU satmadığı doğru, ancak başka şirketler de kendi çiplerini geliştiriyor
  Microsoft'un Maia'sı, AMD/NVIDIA'nın veri merkezi çipleri ve ağ odaklı şirket satın almalarıyla herkes aynı yöne gidiyor
  Google önde olsa da sonunda bu yakınsayan bir rekabet olacak
Seyrek modeller (sparse model) aynı kaliteyi koruyarak hesaplama miktarını ve depolama alanını 16 kat azaltabilir
TPU, seyrek matris işlemede zayıf ama yoğun (dense) model eğitiminde güçlü
- Ancak TPU'da SparseCore adlı özel donanım da bulunuyor
  TPU sistem mimarisi belgesi
  OpenXLA SparseCore tanıtımı
Sonuçta geriye şu soru kalıyor: Bu rekabetin bitiş çizgisi nerede, ya da tabanı nerede?

TPU ve GPU: Google neden uzun vadede yapay zeka rekabetini kazanabilir?

TPU'nun tarihi ve geliştirilme arka planı

TPU ve GPU arasındaki yapısal farklar

TPU vs GPU performans karşılaştırması

TPU benimsenmesini engelleyen sorunlar

TPU'nun Google Cloud için stratejik değeri

İlgili okumalar

1 yorum

Hacker News görüşleri