Google’ın Tensor Processing Unit’ini Anlamak

(considerthebulldog.com)

26 puan yazan GN⁺ 2025-12-15 | 3 yorum | WhatsApp'ta paylaş

TPU, derin öğrenme için gerçekten gerekli hesaplamaları bırakıp geri kalanını cesurca eleyen Google’ın alana özgü hızlandırıcısıdır
2013’te veri merkezi genişleme sınırlarının tetiklemesiyle başlayan yolculuk, 12 yıl içinde 7. nesil olan ‘Ironwood’a kadar ilerledi
Yarı iletken performansının kendiliğinden iyileştiği dönem sona ererken, beklemek yerine doğrudan tasarlama stratejisi temel seçenek haline geldi
TPU, tek bir çip değil; donanım, derleyici, ağ ve işletim yazılımının ortak tasarımla oluşturduğu bir sistemdir
Nesiller ilerledikçe tasarımın odağı performans yarışından güç, yerleşim ve işletme maliyetine (TCO) kaydı
TPU’nun rekabet gücü tek bir teknoloji değil, 10 yılı aşkın sürede biriken tasarım ve işletim deneyiminin toplamıdır

Something New

TPU gizli bir silah değil, uzun süreli açık araştırma ve iç yinelemelerle olgunlaştırılmış bir ürün
Google, veri merkezlerini sürekli büyütmek yerine hesaplama yöntemini kökten değiştiren bir yol seçti
2013 civarında veri merkezi kapasitesini iki katına çıkarma baskısı ve zaman kısıtı, 15 ay içinde TPU’nun ortaya çıkmasına yol açtı
Nisan 2025’te Google Cloud Next’te 7. nesil TPU Ironwood tanıtıldı; 9.216 çip/pod, 42.5 Exaflops ve 10MW değerleri açıklandı
GPU’lar derin öğrenme için üretilmiş cihazlar değildi; TPU ise en baştan sinir ağı hesaplaması varsayılarak tasarlandı
Bu tercih, yalnızca işlem performansında değil güç verimliliği ve işletim kararlılığında da yapısal avantaj sağladı
Bu sonuç bir “tesadüf” değil; kısıtlar, trade-off’lar ve ortak tasarımın tekrar tekrar birikmesiyle oluştu

Slowing Down

Moore Yasası ve Dennard ölçeklemesinin zayıflamasıyla, eskiden yalnızca yeni CPU’yu beklemek bile programları hızlandırmaya yetiyordu; ancak bu varsayım artık geçerliliğini yitirdi
Transistör sayısı artmaya devam etse de güç ve ısı sınırları, performans artışının önünü kesiyor
Aynı anda sinir ağları daha büyük veri ve daha büyük modeller talep ederken hesaplama ihtiyacı patlayarak büyüdü
Bunun sonucunda, “her işi biraz iyi yapan çip” yerine “tek bir işi olağanüstü iyi yapan çip” gerekli hale geldi
Sinir ağı hesaplamasının özünün matris çarpımı merkezli tekrarlayan işlemler olması, özelleşmiş tasarımı mümkün kıldı

The Inference Chip

İlk TPU, eğitimden çok çıkarım (Inference) yani önceden eğitilmiş modellerin çalıştırılmasına odaklandı
TPUv1, cache, branch prediction ve multithreading’i kaldırarak kontrol maliyetini en aza indirdi
Bunun yerine tüm kaynaklarını, büyük matris çarpımlarını durmaksızın işleyen Systolic Array’e (MXU) yoğunlaştırdı
Çalışma sırasında karar vermek yerine derleme anında belirlenmiş yürütme sırasını aynen izledi
Sonuç olarak aynı güçte GPU ve CPU’ya kıyasla çok daha fazla çıkarım işi işleyebildi

The Training Chip

Eğitim, çıkarımdan çok daha fazla hesaplama ve daha geniş bir sayısal gösterim aralığı gerektirir
TPUv2 ile birlikte yapı, yalnızca çıkarıma odaklı olmaktan çıkıp eğitim için esneklik kazandı
Temel değişim, matris (MXU), vektör (VPU) ve kontrolün (Scalar Unit) rollerinin ayrılmasıydı
Yürütme akışı XLA derleyicisi tarafından önceden hesaplanıp belirlenir, çip de bunu aynen uygular
Birden fazla TPU’nun tek bir cihaz gibi çalışabilmesi için özel yüksek hızlı ara bağlantı (ICI) de birlikte tasarlandı

Scaling Up

Sistem büyüdükçe soru “ne kadar hızlı”dan, “ne kadar uzun süre ve ne kadar ucuza çalıştırılabilir” sorusuna kaydı
Bunun için işlem birimlerine yakın büyük on-chip bellek (CMEM) konumlandırılarak yavaş DRAM erişimi azaltıldı
Öneri sistemleri gibi seyrek verinin yoğun olduğu işler için SparseCore gibi özel birimler de eklendi
Çip içi iletişim ile çipler arası iletişim ayrılarak kablolama karmaşıklığı ve darboğazlar yapısal olarak hafifletildi
Artık tasarımı belirleyen ana unsur performans sayılarından çok işletim verimliliği oldu

Island Hopping

Binlerce TPU’nun kullanıldığı ortamlarda arıza istisna değil, başlangıç varsayımıdır
Amaç duran değil, kısmi arızaları absorbe edebilen bir sistem kurmaktır
İşler birçok TPU’ya bölünerek yürütülür ama tek bir programmış gibi görünecek şekilde yönetilir
Sorun çıktığında her şeyi durdurmak yerine hızlı yeniden yerleştirme ve yeniden başlatma tercih edilir
Bu karmaşık süreçlerin büyük bölümü işletim yazılımı tarafından otomatik olarak yönetilir

Datacenter Network genişlemesi

Tek bir TPU kümesi yetmediğinde birden fazla kümeyi birbirine bağlamak gerekir
Genel amaçlı ağların sınırları nedeniyle optik tabanlı anahtarlama (OCS) devreye alındı
Böylece tüm veri merkezi tek bir devasa hesaplama kaynağı gibi yapılandırılabilir hale geldi
Mevcut yürütme modelini genişleten yaklaşım ile tamamen yeni asenkron yürütme modeli (Pathways) bir arada bulunuyor
Bu sayede daha büyük modeller ve daha karmaşık iletişim desenleri karşılanabiliyor

Ceci n’est pas une TPU

En yeni TPU’lar sayısal olarak bakıldığında etkileyici olsa da temel ilkeler başlangıçtan beri aynı kaldı
Gerekli hesaplamalara odaklanıp gereksiz karmaşıklığı ortadan kaldırma yönelimi korunuyor
Bu sistemi yalnızca donanım özellikleriyle kopyalamak mümkün değil
XLA derleyicisi, özel ara bağlantı (ICI), optik anahtarlama (OCS) ve işletim zamanlayıcısı birlikte çalışmak zorunda
TPU, tek bir buluştan ziyade yüzlerce sıradan seçimin üst üste birikmesinin sonucudur

Özellikle hatırlanması gereken birkaç temel teknoloji

Systolic Array (MXU): matris çarpımını yüksek verimle işleyen TPU’nun kalbi
XLA derleyicisi: yürütme sırasını önceden hesaplayarak kontrol maliyetini ortadan kaldırır
BF16: eğitim için gerekli aralığı korurken donanım maliyetini azaltan sayısal biçim
ICI / OCS: çipleri, rack’leri ve veri merkezlerini tek bir yapıda birleştiren özel iletişim mimarisi
TCO odaklı tasarım: anlık performanstan çok uzun vadeli işletim maliyetini optimize eden düşünce yapısı

3 yorum

crawler 2025-12-15

Kişisel bir temennim var
Lütfen TPU son derece yaygınlaşsın da şirketlerin GPU kullanmadığı bir durum gelsin.
Böylece Nvidia da yeniden bireysel tüketicilere yönelik GPU’lara odaklansın.....

xguru 2025-12-15

Orijinal metin teknik açıdan fazla derin olduğu için birebir özetlendiğinde yalnızca teknik terimlerin sıralandığı bir yazı oluyor; bu yüzden gelişim sürecini anlamayı kolaylaştıracak şekilde biraz yeniden düzenledim. Teknik ayrıntıları merak edenler, görsellerle birlikte anlatan orijinal metne bakabilir.

GN⁺ 2025-12-15

Hacker News görüşleri

Scaling ML kitabında da TPU’lar hakkında harika bir bölüm var: How to Think About TPUs
- Ben de bu yazıyla birlikte Henry Ko’nun TPU derinlemesine analizi yazısını ilgiyle okudum. XLA ve scheduler’ın yaptıkları gerçekten etkileyici. Itanium’dan çok daha karmaşık bir yapı olmasına rağmen yazılımın bu canavar çipi gerçekten kullanabiliyor olması şaşırtıcı. XLA’nın daha yaygın benimsenmesini isterdim. Açık kaynak olmasına rağmen sektördeki ilgi eksikliği üzücü. NVIDIA da ancak şimdi Tiles ile benzer bir yöne gidiyor gibi görünüyor. Ancak bildiğim kadarıyla XLA hâlâ makineler arası scheduling konusunda pek kullanışlı değil
Bu yazının yapısal anlatımı hoşuma gitti. TPU hakkındaki çoğu yazı pratik kısımları atlıyor ama bu yazı kavramları gerçek dünyayla ilişkilendirerek anlamayı çok kolaylaştırmış
TPU mimarisinin amaca uygun şekilde tasarlanmış olması tek nesillik bir tasarımla sınırlı değil. Ironwood, 7. nesil TPU ve geçirdiği evrim çok önemli
Ben hâlâ Moore yasasının ölmediğini düşünüyorum. 1965’ten 2025’e kadar 60 yıl boyunca her 2 yılda bir ikiye katlandığını varsayarsak 30 kez ikiye katlanma olur. Teorik olarak 2025’te yaklaşık 107 milyar transistör beklenir; nitekim Apple M1 Ultra 114 milyar transistöre sahip
- Bazı insanlar Moore yasasını “ikiye katlanma hızının sabit olması” gibi güçlü bir anlamda yorumluyor ama bu çoktan sona erdi. Ancak bu hızı yavaş değişen bir sabit olarak görürseniz hâlâ geçerli. Sorun şu ki sadece uç değerlere bakıp ortalama almak, son dönemdeki değişim eğilimini yansıtmıyor
Çin’in birkaç yıl içinde TPU’ları büyük ölçekte üretebileceği görüşünün daha büyük haber olmaması şaşırtıcı. Böyle bir şey Google, NVIDIA ve diğerlerine büyük darbe vurabilir. 2022~2023’te Çinli kişilerin TPUv4 ve v6 belgelerini sızdırdığı olay da yaşanmıştı. Hatta Çinli bir startup kendi TPU cluster’ını kurup gelir elde ediyor
- Ancak üretimin kendisi en zor kısım. Çin’in tasarım bilgisi yeterli olabilir ama gerçek çip üretim yeteneği eksik. Yarı iletken üretimi, TSMC’nin sahip olduğu o ‘sihirli teknoloji gücünü’ gerektiriyor. Intel ve Samsung da belli ölçüde yapabiliyor ama aradaki fark hâlâ büyük
- Yazının yarısı, TPU, Borb, lilpunet, optik switching network gibi bileşenler arasındaki yazılım bağımlılığı hakkındaydı. Bu kadar karmaşık sistemleri yalnızca üretim teknolojisiyle kopyalamak zor
- Google TPU’ları kendi hizmetleri için kullandığından, başka şirketlerin benzer çipler üretmesi büyük bir darbe yaratmaz. Daha gerçekçi olan, NVIDIA’nın pazar tekeline darbe gelmesi. FMA/MAC unit’lerinin tasarımı basit olduğu için Apple, Qualcomm, AMD, Amazon, Huawei gibi neredeyse tüm şirketler zaten kendi ‘TPU’larını ekliyor. ABD 600 bin Çinli öğrenciyi eğitse bile, asıl mesele üretim ve proses teknolojisinde yatıyor
- “Nükleer üs ve iş gücü” hikâyesini anlayamadım. Nükleer üslerin yarı iletken üretimiyle ne ilgisi var bilmiyorum. Ayrıca 600 bin öğrencinin hepsi çip tasarımı öğrenmiyor
- TPU’ların daha ucuz hâle gelmesinden korkmak biraz alaycı bir ifade gibi geliyor
GCP’de TPU kullanırken hâlâ o garip Google bucket sistemine bağlı kalıp kalmadığınızı merak ediyorum. Eskiden bu gerçekten çok rahatsız ediciydi