7 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş
  • Google TPU, büyük ölçekli yapay zeka çıkarım yüklerini işlemek için tasarlanmış özel bir ASIC çipi olarak, GPU'lara kıyasla verimlilik ve maliyet rekabetçiliği sağlıyor
  • Temel fark yaratan unsur, bellek erişimini en aza indirip işlem verimliliğini (Operations per Joule) en üst düzeye çıkaran Systolic Array mimarisi
  • En yeni TPUv7 (Ironwood), önceki nesle göre performans ve bellek bant genişliğinde sıçrama yaparak Nvidia Blackwell GPU ile benzer seviyede performansa ulaşıyor
  • TPU'nun ekosistem kısıtları ve yalnızca GCP üzerinden sunulması, yaygınlaşmasının önündeki başlıca engeller; ancak Google dış müşterileri artırmak için organizasyonel değişiklikler yapıyor ve desteği güçlendiriyor
  • Kendi çipleri sayesinde bulut marjlarını toparlama ve rekabet gücünü artırma potansiyeli, Google'ı uzun vadede yapay zeka altyapı pazarının temel kazananlarından biri haline getirebilir

TPU'nun tarihi ve geliştirilme arka planı

  • 2013'te Google, sesli arama kullanımındaki artış nedeniyle veri merkezi kapasitesinin iki katına çıkması gerektiğini hesapladı
    • Mevcut CPU ve GPU'larla derin öğrenme işlemlerini (büyük ölçekli matris çarpımı) verimli şekilde yürütmek zordu
  • Bunun üzerine Google, TensorFlow sinir ağları için özel bir ASIC geliştirmeye karar verdi ve 15 ay içinde silikonu veri merkezlerine yerleştirdi
  • 2015 itibarıyla TPU, Google Maps, Photos, Translate gibi başlıca hizmetlerde kullanılmaya başlanmıştı
  • 2016'daki Google I/O'da resmen duyuruldu; sonrasında TPU, yapay zeka çıkarım maliyetlerini düşürmeye yönelik temel altyapıya dönüştü

TPU ve GPU arasındaki yapısal farklar

  • GPU genel amaçlı paralel bir işlemci, TPU ise alana özel bir mimari
    • GPU, grafik işleme için tasarlandığından önbellek, dal tahmini gibi karmaşık kontrol mantıkları içeriyor
    • TPU ise bunları kaldırıp Systolic Array yapısıyla veri hareketini en aza indiriyor
  • TPU'nun Systolic Array yapısı, veriyi bir kez yükledikten sonra kesintisiz bir işlem akışı içinde ileterek Von Neumann darboğazını hafifletiyor
  • Ironwood (7. nesil) geliştirmeleri
    • SparseCore güçlendirilerek büyük ölçekli embedding işleme verimliliği artırıldı
    • HBM kapasitesi 192GB, bant genişliği 7.370GB/s seviyesine çıktı
    • Inter-Chip Interconnect (ICI) performansı artırıldı; bant genişliği en fazla 1.2TB/s'ye ulaşıyor
  • Google, büyük TPU Pod'larını Optical Circuit Switch (OCS) ve 3D torus ağı ile kuruyor
    • Güç verimliliği yüksek olsa da esnekliği InfiniBand'e kıyasla daha düşük

TPU vs GPU performans karşılaştırması

  • TPUv7 (BF16 4.614 TFLOPS), TPUv5p (459 TFLOPS) karşısında yaklaşık 10 kat performans artışı sunuyor
  • Sektör röportajlarından özet
    • TPU, performans başına güç verimliliği ve maliyet verimliliği açısından önde
    • Belirli uygulamalarda 1,4 kat daha yüksek performans/dolar sağlıyor
    • TPUv6, GPU'lara kıyasla %60-65 verimlilik üstünlüğüne sahip; önceki nesilde bu oran %40-45'ti
    • TPU daha az ısınıyor ve daha az güç tüketiyor, dolayısıyla çevresel yükü daha düşük
  • Bazı müşteriler, TPU Pod kullandıklarında maliyeti beşte birine kadar düşürebiliyor
  • ASIC yapısı sayesinde boyutta %30 küçülme, güç tüketiminde %50 azalma etkisinden söz ediliyor
  • Google'ın iç verilerine göre TPUv7, TPUv6e'ye kıyasla watt başına performansı 2 kat artırıyor
  • Nvidia CEO'su Jensen Huang da TPU'yu “özel bir vaka” olarak nitelendirip dikkat çekti

TPU benimsenmesini engelleyen sorunlar

  • İlk engel ekosistem (CUDA hakimiyeti)
    • Hem üniversitelerde hem sanayide eğitim ve geliştirme büyük ölçüde CUDA merkezli
    • TPU daha çok JAX ve TensorFlow etrafında şekilleniyor; PyTorch desteği ise görece daha geç güçlendirildi
  • Çoklu bulut stratejilerinin yaygınlaşması da bir diğer kısıt
    • Çoğu şirketin verisi AWS/Azure/GCP arasında dağılmış durumda; veri çıkış maliyetleri (egress) yüksek olduğundan GPU tabanlı iş yükleri daha esnek kalıyor
    • TPU yalnızca GCP'de sunulurken, Nvidia üç büyük bulutun tamamında kullanılabiliyor
  • TPU tercih edilip sonrasında fiyatlar değişir ya da ortam dönüşürse yeniden yazım maliyeti çok yüksek olabiliyor
  • Google, ancak yakın dönemde dış satış ve yaygınlaştırma için organizasyonunu büyütmeye başladı; bazı eski ve mevcut çalışanlar, gelecekte neocloud'lar üzerinden dış tedarik olasılığından söz ediyor

TPU'nun Google Cloud için stratejik değeri

  • Yapay zeka çağında bulut sektörü yüksek marjlı yapıdan (%50-70) düşük marja (%20-35) doğru kayıyor
    • Bunun temel nedeni, Nvidia'nın %75 marjının yarattığı maliyet baskısı
  • Yalnızca kendi ASIC'ine, özellikle de TPU'ya sahip sağlayıcılar geleneksel bulut marjlarına (%50'ler seviyesi) geri dönebilir
  • Google'ın avantajları
    • TPU, bulut için en olgun ASIC konumunda
    • Google, RTL dahil çip tasarımının frontend kısmının büyük bölümünü şirket içinde yürütüyor
    • Broadcom yalnızca fiziksel tasarımı (backend) üstleniyor; marj yapısı Nvidia'ya göre daha düşük olduğu için TPU'nun maliyet rekabetçiliği güçleniyor
    • Google, yazılım optimizasyon yığınının tamamına sahip olduğu için donanım performansını en üst düzeye çıkarabiliyor
  • Gemini 3 gibi ana modeller, eğitim ve çıkarım için TPU tabanını kullanıyor
    • Şirket içindeki yapay zeka hizmetlerinin genelinde TPU kullanımı genişliyor
  • SemiAnalysis, “Google'ın 7. nesil TPU'su Nvidia Blackwell ile aynı seviyede” değerlendirmesini yapıyor
  • TPU, GCP'nin uzun vadeli rekabet avantajı ve yapay zeka altyapı pazar payını büyütmenin temel motoru olarak görülüyor

1 yorum

 
GN⁺ 2025-11-28
Hacker News görüşleri
  • Google'ın gerçek silahı, TPU silikonunun kendisi değil, OCS (Optical Circuit Switch) ara bağlantısı üzerinden sağlanan büyük ölçekli paralel ölçeklenebilirlik
    The Next Platform'a göre 9.216 Ironwood TPU birbirine bağlanarak 1,77PB HBM bellekten yararlanabiliyor. Bu, Nvidia'nın Blackwell GPU tabanlı rack-scale sistemine (20,7TB HBM) kıyasla ezici bir ölçek
    Nvidia tek çip düzeyinde üstün olsa da, büyük ölçekli dağıtık eğitim veya çıkarımda Google'ın optik anahtarlama ölçeklenebilirliğine denk bir şeyi yok

    • Google, dikey entegre yığının tamamına sahip. Bu sayede yapay zeka hizmetlerini bulut ölçeğinde çok daha ucuza ve kârlı biçimde sunabiliyor
      Çoğu şirketin donanımı doğrudan satın almasına veya model eğitmesine gerek yok; Google'ın sunduğu bir yapay zeka uygulama mağazası benzeri hizmetleri kullanmaları yeterli
    • Aslında iki sistemin ağ yapısı tamamen farklı. Nvidia'nın NVLink'i all-to-all anahtarlamalı fabric, TPU ise 3D torus yapısı
      Örneğin Mixture of Experts modelleri çok fazla all-to-all iletişim gerektirdiği için NVLink tarafı çok daha verimli
    • Nvidia hâlâ kendi teknolojisinin daha iyi olduğunu savunan tweet'ler atıyor
      Nvidia resmi tweet bağlantısı
    • Google'ın iddiası doğruysa MLPerf benchmark'larında ezici üstünlük kurması gerekirdi, ama öyle değil
      Model paralelleştirmede hızlı ve küçük ağlar, veri paralelleştirmede ise büyük ağlar avantajlı. Bu denge yüzünden Nvidia kazanıyor
    • Aynı bellek kapasitesine ulaşmak için Google'ın 100 kat daha fazla çipe ihtiyacı var
  • Gemini 3 Pro zaten neredeyse eski sayılır. Google, Anthropic'ten çok daha fazla kaynağa sahip ama donanım gizli silah olsaydı, piyasaya çoktan hâkim olması gerekirdi
    Ama gerçek farklı

    1. Donanımı verimli kullanmak zor ve optimizasyon bittiğinde zaten bir sonraki modele geçilmiş oluyor
    2. Çoğu şirket için sorun para ile çözülebiliyor. H100 ile de gayet iyi çalışıyor
    3. Yalnızca yeni araştırma teknikleriyle bile model performansı ciddi biçimde artırılabiliyor
    4. Model geliştirme hâlâ veri kümesi temizleme ve değerlendirme çalışmaları gibi çok sayıda insan emeği gerektiriyor
    5. Özel donanım, özel sorunlar da yaratır. TPU kümesi sorunlarının cevabını Stack Overflow'da bulamazsınız
  • CUDA'nın eğitim için önemli olduğu, ancak çıkarım aşamasında daha az önemli olduğu görüşü var

    • NVIDIA çipleri daha genel amaçlı. Eğitim sırasında sin, cos gibi özel işlemler, ara hesapların saklanması, gradient işleme gibi çeşitli işlevler gerekiyor
      Ama çıkarım, sabit ağırlıkların tekrar tekrar uygulanmasından ibaret daha basit bir süreç olduğu için TPU daha verimli olabilir
    • Eğitim çipi pazarı bir balon olabilir ama çıkarım pazarı çok daha büyük. Bir gün model performansı yeterince iyi olduğunda eğitim talebi azalacak ve güç verimli çıkarım sistemleri ana akım hâline gelecek
    • CUDA'nın önemli olmasının nedeni ekosistem bağımlılığı. Eğitim yazılımlarının çoğu CUDA tabanlı geliştirilmiş durumda
    • Eğitim, devasa bir problemi parçalara ayırıp veri bağımlılıklarını yönetme süreci; çıkarım ise bağımsız küçük problemlerin toplamı
    • CUDA'da geliştirici deneyimi çok daha iyi. Araştırma üretkenliği önemli olduğunda bu belirleyici oluyor
  • Nvidia'nın TPU gibi özelleşmiş çipler üretememesinin bir nedeni yok

    • Nvidia da sonunda bunu yapacaktır. Ancak Google, hem çip tasarımcısı hem de yapay zeka şirketi olduğu için tüm kârı kendisi alıyor
      Nvidia üretimi TSMC'ye yaptırıp pahalıya satarken, Google kendi kullanımında marjdan tasarruf ediyor
    • DeepMind, TPU ekibiyle doğrudan iş birliği yaparak projeye özel çipler tasarlıyor. OpenAI da aynı nedenle kendi çip geliştirme planını açıkladı, ancak bu son derece sermaye yoğun bir iş
    • TPU, NVidia GPU'lardan daha ucuz ve Google içinde dikey entegre şekilde kullanılıyor
    • Nvidia için risk varoluşsal bir krizden çok kâr marjının düşmesi. Çip satışları 100 kat artsa bile marj %5'e düşerse piyasa değeri gerileyebilir
    • Aslında Nvidia zaten Tensor Core ile aynı yöne evriliyor
  • Reuters haberine göre Meta, Google çiplerine milyarlarca dolar yatırım yapmak için görüşüyor

  • LLM'ler için ASIC'ler, kripto para ASIC'lerinden çok daha karmaşık. Kriptoda yalnızca sabit bir hash algoritmasını işlemek yeterliyken, LLM'ler sürekli evriliyor
    Bu bağlamda TPU'nun ne anlama geldiği kafa karıştırıcı

    • LLM'lerde bellek ve ara bağlantı bant genişliği önemli. Buna karşılık kripto %100 hesaplama odaklı
    • Çoğu LLM esas olarak matris çarpımı ağırlıklı olduğu için TPU bunu hızlandırıyor. PyTorch'ta da TPU desteği var
    • ASIC olsa bile programlanabilir olabilir. TPU, farklı modelleri çalıştırmak zorunda olduğu için hardcoded bir çipten farklı
    • LLM mimarileri değişse de ortak bileşenler (matris işlemleri, kayan nokta türleri) aynı kalıyor. Bu yüzden TPU fiilen LLM için bir ASIC
    • Kripto da değişiyor. Örneğin Monero, ASIC'leri engellemek için CPU düzeyinde bir yapı kullanıyor
  • Kişisel kullanım için daha fazla bağımsız TPU seçeneği olmasını isterdim. Şu anda 2019 çıkışlı Coral tek seçenek gibi görünüyor

  • Bu tartışma RISC vs CISC gibi akademik. Nvidia GPU'ları da sonuçta TPU ile aynı işi yapacak şekilde tasarlanıyor
    Google içinde bile 5 yıl sonra büyük bir fark kalmayabilir
    Google TPU'dan kâr ediyor ama dış geliştiricilere doğrudan bir faydası yok

    • Google'ın TPU satmadığı doğru, ancak başka şirketler de kendi çiplerini geliştiriyor
      Microsoft'un Maia'sı, AMD/NVIDIA'nın veri merkezi çipleri ve ağ odaklı şirket satın almalarıyla herkes aynı yöne gidiyor
      Google önde olsa da sonunda bu yakınsayan bir rekabet olacak
  • Seyrek modeller (sparse model) aynı kaliteyi koruyarak hesaplama miktarını ve depolama alanını 16 kat azaltabilir
    TPU, seyrek matris işlemede zayıf ama yoğun (dense) model eğitiminde güçlü

  • Sonuçta geriye şu soru kalıyor: Bu rekabetin bitiş çizgisi nerede, ya da tabanı nerede?