- TPU, derin öğrenme için gerçekten gerekli hesaplamaları bırakıp geri kalanını cesurca eleyen Google’ın alana özgü hızlandırıcısıdır
- 2013’te veri merkezi genişleme sınırlarının tetiklemesiyle başlayan yolculuk, 12 yıl içinde 7. nesil olan ‘Ironwood’a kadar ilerledi
- Yarı iletken performansının kendiliğinden iyileştiği dönem sona ererken, beklemek yerine doğrudan tasarlama stratejisi temel seçenek haline geldi
- TPU, tek bir çip değil; donanım, derleyici, ağ ve işletim yazılımının ortak tasarımla oluşturduğu bir sistemdir
- Nesiller ilerledikçe tasarımın odağı performans yarışından güç, yerleşim ve işletme maliyetine (TCO) kaydı
- TPU’nun rekabet gücü tek bir teknoloji değil, 10 yılı aşkın sürede biriken tasarım ve işletim deneyiminin toplamıdır
Something New
- TPU gizli bir silah değil, uzun süreli açık araştırma ve iç yinelemelerle olgunlaştırılmış bir ürün
- Google, veri merkezlerini sürekli büyütmek yerine hesaplama yöntemini kökten değiştiren bir yol seçti
- 2013 civarında veri merkezi kapasitesini iki katına çıkarma baskısı ve zaman kısıtı, 15 ay içinde TPU’nun ortaya çıkmasına yol açtı
- Nisan 2025’te Google Cloud Next’te 7. nesil TPU Ironwood tanıtıldı; 9.216 çip/pod, 42.5 Exaflops ve 10MW değerleri açıklandı
- GPU’lar derin öğrenme için üretilmiş cihazlar değildi; TPU ise en baştan sinir ağı hesaplaması varsayılarak tasarlandı
- Bu tercih, yalnızca işlem performansında değil güç verimliliği ve işletim kararlılığında da yapısal avantaj sağladı
- Bu sonuç bir “tesadüf” değil; kısıtlar, trade-off’lar ve ortak tasarımın tekrar tekrar birikmesiyle oluştu
Slowing Down
- Moore Yasası ve Dennard ölçeklemesinin zayıflamasıyla, eskiden yalnızca yeni CPU’yu beklemek bile programları hızlandırmaya yetiyordu; ancak bu varsayım artık geçerliliğini yitirdi
- Transistör sayısı artmaya devam etse de güç ve ısı sınırları, performans artışının önünü kesiyor
- Aynı anda sinir ağları daha büyük veri ve daha büyük modeller talep ederken hesaplama ihtiyacı patlayarak büyüdü
- Bunun sonucunda, “her işi biraz iyi yapan çip” yerine “tek bir işi olağanüstü iyi yapan çip” gerekli hale geldi
- Sinir ağı hesaplamasının özünün matris çarpımı merkezli tekrarlayan işlemler olması, özelleşmiş tasarımı mümkün kıldı
The Inference Chip
- İlk TPU, eğitimden çok çıkarım (Inference) yani önceden eğitilmiş modellerin çalıştırılmasına odaklandı
- TPUv1, cache, branch prediction ve multithreading’i kaldırarak kontrol maliyetini en aza indirdi
- Bunun yerine tüm kaynaklarını, büyük matris çarpımlarını durmaksızın işleyen Systolic Array’e (MXU) yoğunlaştırdı
- Çalışma sırasında karar vermek yerine derleme anında belirlenmiş yürütme sırasını aynen izledi
- Sonuç olarak aynı güçte GPU ve CPU’ya kıyasla çok daha fazla çıkarım işi işleyebildi
The Training Chip
- Eğitim, çıkarımdan çok daha fazla hesaplama ve daha geniş bir sayısal gösterim aralığı gerektirir
- TPUv2 ile birlikte yapı, yalnızca çıkarıma odaklı olmaktan çıkıp eğitim için esneklik kazandı
- Temel değişim, matris (MXU), vektör (VPU) ve kontrolün (Scalar Unit) rollerinin ayrılmasıydı
- Yürütme akışı XLA derleyicisi tarafından önceden hesaplanıp belirlenir, çip de bunu aynen uygular
- Birden fazla TPU’nun tek bir cihaz gibi çalışabilmesi için özel yüksek hızlı ara bağlantı (ICI) de birlikte tasarlandı
Scaling Up
- Sistem büyüdükçe soru “ne kadar hızlı”dan, “ne kadar uzun süre ve ne kadar ucuza çalıştırılabilir” sorusuna kaydı
- Bunun için işlem birimlerine yakın büyük on-chip bellek (CMEM) konumlandırılarak yavaş DRAM erişimi azaltıldı
- Öneri sistemleri gibi seyrek verinin yoğun olduğu işler için SparseCore gibi özel birimler de eklendi
- Çip içi iletişim ile çipler arası iletişim ayrılarak kablolama karmaşıklığı ve darboğazlar yapısal olarak hafifletildi
- Artık tasarımı belirleyen ana unsur performans sayılarından çok işletim verimliliği oldu
Island Hopping
- Binlerce TPU’nun kullanıldığı ortamlarda arıza istisna değil, başlangıç varsayımıdır
- Amaç duran değil, kısmi arızaları absorbe edebilen bir sistem kurmaktır
- İşler birçok TPU’ya bölünerek yürütülür ama tek bir programmış gibi görünecek şekilde yönetilir
- Sorun çıktığında her şeyi durdurmak yerine hızlı yeniden yerleştirme ve yeniden başlatma tercih edilir
- Bu karmaşık süreçlerin büyük bölümü işletim yazılımı tarafından otomatik olarak yönetilir
Datacenter Network genişlemesi
- Tek bir TPU kümesi yetmediğinde birden fazla kümeyi birbirine bağlamak gerekir
- Genel amaçlı ağların sınırları nedeniyle optik tabanlı anahtarlama (OCS) devreye alındı
- Böylece tüm veri merkezi tek bir devasa hesaplama kaynağı gibi yapılandırılabilir hale geldi
- Mevcut yürütme modelini genişleten yaklaşım ile tamamen yeni asenkron yürütme modeli (Pathways) bir arada bulunuyor
- Bu sayede daha büyük modeller ve daha karmaşık iletişim desenleri karşılanabiliyor
Ceci n’est pas une TPU
- En yeni TPU’lar sayısal olarak bakıldığında etkileyici olsa da temel ilkeler başlangıçtan beri aynı kaldı
- Gerekli hesaplamalara odaklanıp gereksiz karmaşıklığı ortadan kaldırma yönelimi korunuyor
- Bu sistemi yalnızca donanım özellikleriyle kopyalamak mümkün değil
- XLA derleyicisi, özel ara bağlantı (ICI), optik anahtarlama (OCS) ve işletim zamanlayıcısı birlikte çalışmak zorunda
- TPU, tek bir buluştan ziyade yüzlerce sıradan seçimin üst üste birikmesinin sonucudur
Özellikle hatırlanması gereken birkaç temel teknoloji
- Systolic Array (MXU): matris çarpımını yüksek verimle işleyen TPU’nun kalbi
- XLA derleyicisi: yürütme sırasını önceden hesaplayarak kontrol maliyetini ortadan kaldırır
- BF16: eğitim için gerekli aralığı korurken donanım maliyetini azaltan sayısal biçim
- ICI / OCS: çipleri, rack’leri ve veri merkezlerini tek bir yapıda birleştiren özel iletişim mimarisi
- TCO odaklı tasarım: anlık performanstan çok uzun vadeli işletim maliyetini optimize eden düşünce yapısı
3 yorum
Kişisel bir temennim var
Lütfen TPU son derece yaygınlaşsın da şirketlerin GPU kullanmadığı bir durum gelsin.
Böylece Nvidia da yeniden bireysel tüketicilere yönelik GPU’lara odaklansın.....
Orijinal metin teknik açıdan fazla derin olduğu için birebir özetlendiğinde yalnızca teknik terimlerin sıralandığı bir yazı oluyor; bu yüzden gelişim sürecini anlamayı kolaylaştıracak şekilde biraz yeniden düzenledim. Teknik ayrıntıları merak edenler, görsellerle birlikte anlatan orijinal metne bakabilir.
Hacker News görüşleri