26 puan yazan GN⁺ 2025-12-15 | 3 yorum | WhatsApp'ta paylaş
  • TPU, derin öğrenme için gerçekten gerekli hesaplamaları bırakıp geri kalanını cesurca eleyen Google’ın alana özgü hızlandırıcısıdır
  • 2013’te veri merkezi genişleme sınırlarının tetiklemesiyle başlayan yolculuk, 12 yıl içinde 7. nesil olan ‘Ironwood’a kadar ilerledi
  • Yarı iletken performansının kendiliğinden iyileştiği dönem sona ererken, beklemek yerine doğrudan tasarlama stratejisi temel seçenek haline geldi
  • TPU, tek bir çip değil; donanım, derleyici, ağ ve işletim yazılımının ortak tasarımla oluşturduğu bir sistemdir
  • Nesiller ilerledikçe tasarımın odağı performans yarışından güç, yerleşim ve işletme maliyetine (TCO) kaydı
  • TPU’nun rekabet gücü tek bir teknoloji değil, 10 yılı aşkın sürede biriken tasarım ve işletim deneyiminin toplamıdır

Something New

  • TPU gizli bir silah değil, uzun süreli açık araştırma ve iç yinelemelerle olgunlaştırılmış bir ürün
  • Google, veri merkezlerini sürekli büyütmek yerine hesaplama yöntemini kökten değiştiren bir yol seçti
  • 2013 civarında veri merkezi kapasitesini iki katına çıkarma baskısı ve zaman kısıtı, 15 ay içinde TPU’nun ortaya çıkmasına yol açtı
  • Nisan 2025’te Google Cloud Next’te 7. nesil TPU Ironwood tanıtıldı; 9.216 çip/pod, 42.5 Exaflops ve 10MW değerleri açıklandı
  • GPU’lar derin öğrenme için üretilmiş cihazlar değildi; TPU ise en baştan sinir ağı hesaplaması varsayılarak tasarlandı
  • Bu tercih, yalnızca işlem performansında değil güç verimliliği ve işletim kararlılığında da yapısal avantaj sağladı
  • Bu sonuç bir “tesadüf” değil; kısıtlar, trade-off’lar ve ortak tasarımın tekrar tekrar birikmesiyle oluştu

Slowing Down

  • Moore Yasası ve Dennard ölçeklemesinin zayıflamasıyla, eskiden yalnızca yeni CPU’yu beklemek bile programları hızlandırmaya yetiyordu; ancak bu varsayım artık geçerliliğini yitirdi
  • Transistör sayısı artmaya devam etse de güç ve ısı sınırları, performans artışının önünü kesiyor
  • Aynı anda sinir ağları daha büyük veri ve daha büyük modeller talep ederken hesaplama ihtiyacı patlayarak büyüdü
  • Bunun sonucunda, “her işi biraz iyi yapan çip” yerine “tek bir işi olağanüstü iyi yapan çip” gerekli hale geldi
  • Sinir ağı hesaplamasının özünün matris çarpımı merkezli tekrarlayan işlemler olması, özelleşmiş tasarımı mümkün kıldı

The Inference Chip

  • İlk TPU, eğitimden çok çıkarım (Inference) yani önceden eğitilmiş modellerin çalıştırılmasına odaklandı
  • TPUv1, cache, branch prediction ve multithreading’i kaldırarak kontrol maliyetini en aza indirdi
  • Bunun yerine tüm kaynaklarını, büyük matris çarpımlarını durmaksızın işleyen Systolic Array’e (MXU) yoğunlaştırdı
  • Çalışma sırasında karar vermek yerine derleme anında belirlenmiş yürütme sırasını aynen izledi
  • Sonuç olarak aynı güçte GPU ve CPU’ya kıyasla çok daha fazla çıkarım işi işleyebildi

The Training Chip

  • Eğitim, çıkarımdan çok daha fazla hesaplama ve daha geniş bir sayısal gösterim aralığı gerektirir
  • TPUv2 ile birlikte yapı, yalnızca çıkarıma odaklı olmaktan çıkıp eğitim için esneklik kazandı
  • Temel değişim, matris (MXU), vektör (VPU) ve kontrolün (Scalar Unit) rollerinin ayrılmasıydı
  • Yürütme akışı XLA derleyicisi tarafından önceden hesaplanıp belirlenir, çip de bunu aynen uygular
  • Birden fazla TPU’nun tek bir cihaz gibi çalışabilmesi için özel yüksek hızlı ara bağlantı (ICI) de birlikte tasarlandı

Scaling Up

  • Sistem büyüdükçe soru “ne kadar hızlı”dan, “ne kadar uzun süre ve ne kadar ucuza çalıştırılabilir” sorusuna kaydı
  • Bunun için işlem birimlerine yakın büyük on-chip bellek (CMEM) konumlandırılarak yavaş DRAM erişimi azaltıldı
  • Öneri sistemleri gibi seyrek verinin yoğun olduğu işler için SparseCore gibi özel birimler de eklendi
  • Çip içi iletişim ile çipler arası iletişim ayrılarak kablolama karmaşıklığı ve darboğazlar yapısal olarak hafifletildi
  • Artık tasarımı belirleyen ana unsur performans sayılarından çok işletim verimliliği oldu

Island Hopping

  • Binlerce TPU’nun kullanıldığı ortamlarda arıza istisna değil, başlangıç varsayımıdır
  • Amaç duran değil, kısmi arızaları absorbe edebilen bir sistem kurmaktır
  • İşler birçok TPU’ya bölünerek yürütülür ama tek bir programmış gibi görünecek şekilde yönetilir
  • Sorun çıktığında her şeyi durdurmak yerine hızlı yeniden yerleştirme ve yeniden başlatma tercih edilir
  • Bu karmaşık süreçlerin büyük bölümü işletim yazılımı tarafından otomatik olarak yönetilir

Datacenter Network genişlemesi

  • Tek bir TPU kümesi yetmediğinde birden fazla kümeyi birbirine bağlamak gerekir
  • Genel amaçlı ağların sınırları nedeniyle optik tabanlı anahtarlama (OCS) devreye alındı
  • Böylece tüm veri merkezi tek bir devasa hesaplama kaynağı gibi yapılandırılabilir hale geldi
  • Mevcut yürütme modelini genişleten yaklaşım ile tamamen yeni asenkron yürütme modeli (Pathways) bir arada bulunuyor
  • Bu sayede daha büyük modeller ve daha karmaşık iletişim desenleri karşılanabiliyor

Ceci n’est pas une TPU

  • En yeni TPU’lar sayısal olarak bakıldığında etkileyici olsa da temel ilkeler başlangıçtan beri aynı kaldı
  • Gerekli hesaplamalara odaklanıp gereksiz karmaşıklığı ortadan kaldırma yönelimi korunuyor
  • Bu sistemi yalnızca donanım özellikleriyle kopyalamak mümkün değil
  • XLA derleyicisi, özel ara bağlantı (ICI), optik anahtarlama (OCS) ve işletim zamanlayıcısı birlikte çalışmak zorunda
  • TPU, tek bir buluştan ziyade yüzlerce sıradan seçimin üst üste birikmesinin sonucudur

Özellikle hatırlanması gereken birkaç temel teknoloji

  • Systolic Array (MXU): matris çarpımını yüksek verimle işleyen TPU’nun kalbi
  • XLA derleyicisi: yürütme sırasını önceden hesaplayarak kontrol maliyetini ortadan kaldırır
  • BF16: eğitim için gerekli aralığı korurken donanım maliyetini azaltan sayısal biçim
  • ICI / OCS: çipleri, rack’leri ve veri merkezlerini tek bir yapıda birleştiren özel iletişim mimarisi
  • TCO odaklı tasarım: anlık performanstan çok uzun vadeli işletim maliyetini optimize eden düşünce yapısı

3 yorum

 
crawler 2025-12-15

Kişisel bir temennim var
Lütfen TPU son derece yaygınlaşsın da şirketlerin GPU kullanmadığı bir durum gelsin.
Böylece Nvidia da yeniden bireysel tüketicilere yönelik GPU’lara odaklansın.....

 
xguru 2025-12-15

Orijinal metin teknik açıdan fazla derin olduğu için birebir özetlendiğinde yalnızca teknik terimlerin sıralandığı bir yazı oluyor; bu yüzden gelişim sürecini anlamayı kolaylaştıracak şekilde biraz yeniden düzenledim. Teknik ayrıntıları merak edenler, görsellerle birlikte anlatan orijinal metne bakabilir.

 
GN⁺ 2025-12-15
Hacker News görüşleri
  • Scaling ML kitabında da TPU’lar hakkında harika bir bölüm var: How to Think About TPUs
    • Ben de bu yazıyla birlikte Henry Ko’nun TPU derinlemesine analizi yazısını ilgiyle okudum. XLA ve scheduler’ın yaptıkları gerçekten etkileyici. Itanium’dan çok daha karmaşık bir yapı olmasına rağmen yazılımın bu canavar çipi gerçekten kullanabiliyor olması şaşırtıcı. XLA’nın daha yaygın benimsenmesini isterdim. Açık kaynak olmasına rağmen sektördeki ilgi eksikliği üzücü. NVIDIA da ancak şimdi Tiles ile benzer bir yöne gidiyor gibi görünüyor. Ancak bildiğim kadarıyla XLA hâlâ makineler arası scheduling konusunda pek kullanışlı değil
  • Bu yazının yapısal anlatımı hoşuma gitti. TPU hakkındaki çoğu yazı pratik kısımları atlıyor ama bu yazı kavramları gerçek dünyayla ilişkilendirerek anlamayı çok kolaylaştırmış
  • TPU mimarisinin amaca uygun şekilde tasarlanmış olması tek nesillik bir tasarımla sınırlı değil. Ironwood, 7. nesil TPU ve geçirdiği evrim çok önemli
  • Ben hâlâ Moore yasasının ölmediğini düşünüyorum. 1965’ten 2025’e kadar 60 yıl boyunca her 2 yılda bir ikiye katlandığını varsayarsak 30 kez ikiye katlanma olur. Teorik olarak 2025’te yaklaşık 107 milyar transistör beklenir; nitekim Apple M1 Ultra 114 milyar transistöre sahip
    • Bazı insanlar Moore yasasını “ikiye katlanma hızının sabit olması” gibi güçlü bir anlamda yorumluyor ama bu çoktan sona erdi. Ancak bu hızı yavaş değişen bir sabit olarak görürseniz hâlâ geçerli. Sorun şu ki sadece uç değerlere bakıp ortalama almak, son dönemdeki değişim eğilimini yansıtmıyor
  • Çin’in birkaç yıl içinde TPU’ları büyük ölçekte üretebileceği görüşünün daha büyük haber olmaması şaşırtıcı. Böyle bir şey Google, NVIDIA ve diğerlerine büyük darbe vurabilir. 2022~2023’te Çinli kişilerin TPUv4 ve v6 belgelerini sızdırdığı olay da yaşanmıştı. Hatta Çinli bir startup kendi TPU cluster’ını kurup gelir elde ediyor
    • Ancak üretimin kendisi en zor kısım. Çin’in tasarım bilgisi yeterli olabilir ama gerçek çip üretim yeteneği eksik. Yarı iletken üretimi, TSMC’nin sahip olduğu o ‘sihirli teknoloji gücünü’ gerektiriyor. Intel ve Samsung da belli ölçüde yapabiliyor ama aradaki fark hâlâ büyük
    • Yazının yarısı, TPU, Borb, lilpunet, optik switching network gibi bileşenler arasındaki yazılım bağımlılığı hakkındaydı. Bu kadar karmaşık sistemleri yalnızca üretim teknolojisiyle kopyalamak zor
    • Google TPU’ları kendi hizmetleri için kullandığından, başka şirketlerin benzer çipler üretmesi büyük bir darbe yaratmaz. Daha gerçekçi olan, NVIDIA’nın pazar tekeline darbe gelmesi. FMA/MAC unit’lerinin tasarımı basit olduğu için Apple, Qualcomm, AMD, Amazon, Huawei gibi neredeyse tüm şirketler zaten kendi ‘TPU’larını ekliyor. ABD 600 bin Çinli öğrenciyi eğitse bile, asıl mesele üretim ve proses teknolojisinde yatıyor
    • “Nükleer üs ve iş gücü” hikâyesini anlayamadım. Nükleer üslerin yarı iletken üretimiyle ne ilgisi var bilmiyorum. Ayrıca 600 bin öğrencinin hepsi çip tasarımı öğrenmiyor
    • TPU’ların daha ucuz hâle gelmesinden korkmak biraz alaycı bir ifade gibi geliyor
  • GCP’de TPU kullanırken hâlâ o garip Google bucket sistemine bağlı kalıp kalmadığınızı merak ediyorum. Eskiden bu gerçekten çok rahatsız ediciydi