Ajan Çağı İçin İki Çip: Google’ın 8. Nesil TPU’su
(blog.google)- Google, 10 yılı aşkın TPU geliştirme geçmişini bir araya getirerek iki tür 8. nesil TPU tanıttı; büyük ölçekli model eğitimi için TPU 8t ve yüksek hızlı çıkarım için TPU 8i olmak üzere, her biri belirli bir amaca odaklanan bir mimari benimsedi
- TPU 8t, tek bir superpod içinde 9.600 çip ve 121 ExaFlops ölçeğine kadar genişleyebiliyor; pod başına hesaplama performansı önceki nesle göre yaklaşık 3 kat arttı
- TPU 8i, bellek bant genişliği ve gecikme optimizasyonuna odaklanarak ajanik çıkarıma uygun şekilde yeniden tasarlandı; genişletilmiş on-chip SRAM, Axion CPU host’u ve MoE uyumlu ağ iyileştirmeleriyle maliyet başına performansta %80 iyileşme sağladı
- Her iki çip de Google tasarımı Axion ARM tabanlı CPU host üzerinde çalışıyor ve watt başına performans önceki nesle göre 2 kata kadar artıyor
- Yapay zeka ajanlarının sürekli olarak çıkarım yapıp planlayıp uyguladığı çağa uygun biçimde, eğitim ve çıkarımı ayrı ayrı optimize eden bir altyapı stratejisi sunuluyor; yılın ikinci yarısında genel kullanıma açılması ve Google AI Hypercomputer’ın bir parçası olarak sunulması planlanıyor
8. nesil TPU’ya genel bakış
- Google Cloud Next’te 8. nesil Tensor Processor Unit (TPU) tanıtıldı; eğitim için TPU 8t ve çıkarım için TPU 8i olmak üzere iki mimariden oluşuyor
- Özel süper bilgisayarları çalıştırmak üzere tasarlandı ve en gelişmiş model eğitimi, ajan geliştirme ve büyük ölçekli çıkarım iş yüklerinin tamamını kapsıyor
- Gemini dahil başlıca foundation modeller yıllardır TPU üzerinde çalıştırılıyor; 8. nesil ise eğitim, servis etme ve ajanik iş yüklerinde aynı anda ölçek, verimlilik ve performans sunuyor
- Yapay zeka ajanları çağında modellerin problemler üzerinde akıl yürütmesi, çok adımlı iş akışlarını yürütmesi ve kendi eylemlerinden öğrenen sürekli bir döngü işletmesi gerektiği için altyapıda yeni gereksinimler ortaya çıkıyor
- Google DeepMind ile birlikte, en zorlu yapay zeka iş yüklerini işleyecek ve gelişen model mimarilerine uyum sağlayacak şekilde tasarlandı
10 yılı aşkın tasarım felsefesi
- TPU, özel sayısal işlem, sıvı soğutma, özel ara bağlantı gibi ML süper bilgi işlem bileşenlerinde standart belirledi; 8. nesil ise 10 yılı aşkın geliştirmenin birikimini temsil ediyor
- Temel tasarım ilkesi: silikonun donanım, ağ ve yazılımla (model mimarileri ve uygulama gereksinimleri dahil) ortak tasarım (co-design) yaklaşımıyla geliştirilmesi sayesinde hem enerji verimliliğinde hem de mutlak performansta büyük sıçrama elde etmek
- Citadel Securities’in kendi yapay zeka iş yükleri için TPU seçmesi, öncü kurumlara örnek olarak gösteriliyor
Eğitim ve çıkarım neden ayrıldı?
- Donanım geliştirme döngüsü yazılımdan çok daha uzun olduğu için, her nesil TPU tasarlanırken çıkış anındaki teknoloji ve talebin önceden öngörülmesi gerekiyor
- Yıllar önce, frontier yapay zeka modellerinin üretim ortamında dağıtılmasıyla birlikte çıkarım talebinin artacağı öngörüldü
- Yapay zeka ajanlarının yükselişiyle eğitim ve servis etmenin gereksinimleri farklılaştığından, ayrı uzmanlaşmış çiplerin topluluk için daha avantajlı olacağı değerlendirildi
- TPU 8t, daha yüksek hesaplama throughput’u ve scale-up bant genişliğiyle büyük ölçekli eğitim için optimize edildi
- TPU 8i, daha yüksek bellek bant genişliğiyle gecikmeye duyarlı çıkarım iş yükleri için optimize edildi; çünkü ajanlar arası etkileşimlerde küçük verimsizlikler bile büyük ölçekte büyüyor
- Her iki çip de çeşitli iş yüklerini çalıştırabiliyor, ancak uzmanlaşma sayesinde önemli verim artışları sağlanıyor
TPU 8t: Eğitime adanmış güç merkezi
- Amaç, frontier model geliştirme döngüsünü aylardan haftalara indirmek
- En üst düzey hesaplama throughput’unu, paylaşımlı bellek ve çipler arası bant genişliğini; optimum enerji verimliliği ve üretken hesaplama süresiyle dengeli biçimde birleştiriyor
- Önceki nesle kıyasla pod başına hesaplama performansı yaklaşık 3 kat arttı
-
Büyük ölçekli genişleme (Massive Scale)
- Tek bir TPU 8t superpod’u 9.600 çip ve 2 petabayt paylaşımlı HBM ölçeğine kadar genişleyebiliyor
- Önceki nesle göre çipler arası bant genişliği 2 kat arttı
- 121 ExaFlops hesaplama performansı sunuyor; böylece en karmaşık modeller tek ve büyük bir bellek havuzundan yararlanabiliyor
-
Maksimum kullanım (Maximum Utilization)
- Entegre 10 kat daha hızlı depolama erişimi
- TPUDirect ile veriler doğrudan TPU’ya çekilerek uçtan uca sistemde en yüksek kullanım oranı sağlanıyor
-
Neredeyse doğrusal ölçekleme (Near-Linear Scaling)
- Yeni Virgo Network ile JAX ve Pathways yazılımları birleştirilerek tek bir mantıksal kümede 1 milyon çipe kadar neredeyse doğrusal ölçekleme sağlanabiliyor
-
Güvenilirlik ve erişilebilirlik
- Hedef goodput (yararlı üretken hesaplama süresi) %97’nin üzerinde
- Kapsamlı RAS (Reliability, Availability, Serviceability) özellikleri içeriyor
- On binlerce çip üzerinde gerçek zamanlı telemetri
- Arızalı ICI bağlantılarının otomatik tespiti ve işi kesintiye uğratmadan alternatif yönlendirme
- OCS (Optical Circuit Switching) ile insan müdahalesi olmadan arıza çevresinde donanımın yeniden yapılandırılması
- Frontier eğitim ölçeğinde donanım arızaları, ağ gecikmeleri ve checkpoint yeniden başlatmaları eğitim dışı süre anlamına geliyor; %1 puanlık fark bile günlerce eğitim süresine dönüşebiliyor
TPU 8i: Çıkarım motoru
- Ajanik çağda kullanıcılar soru sorup görev devredip sonuç almayı beklediği için, karmaşık akışlarda birden fazla uzman ajanın swarming yaklaşımıyla iş birliği yaptığı görevler için optimize edildi
- “Bekleme odası etkisini” ortadan kaldırmak için yığın yeniden tasarlandı ve dört temel yenilik uygulandı
-
Bellek duvarını aşmak (Breaking the Memory Wall)
- 288GB HBM ve 384MB on-chip SRAM (önceki neslin 3 katı) içeriyor
- Modelin etkin çalışma kümesinin tamamını çip üzerinde tutarak işlemcinin boşta kalmasını önlüyor
-
Axion tabanlı verimlilik
- Sunucu başına fiziksel CPU host sayısı 2 katına çıkarıldı ve Google’ın kendi Axion ARM tabanlı CPU tasarımı kullanıldı
- NUMA (Non-Uniform Memory Architecture) izolasyonu ile tüm sistem performansı optimize edildi
-
MoE model ölçekleme
- En yeni Mixture of Expert (MoE) modelleri için ICI bant genişliği 19.2 Tb/s düzeyine çıkarılarak 2 kat artırıldı
- Yeni Boardfly mimarisi ile maksimum ağ çapı %50’den fazla azaltıldı ve sistem tek, uyumlu, düşük gecikmeli birim gibi çalışıyor
-
Gecikmeyi ortadan kaldırmak (Eliminating Lag)
- Yeni on-chip CAE (Collectives Acceleration Engine), küresel işlemleri offload ederek çip içi gecikmeyi 5 kata kadar azaltıyor
-
Maliyet başına performans
- Önceki nesle göre dolar başına performans %80 arttı, yani aynı maliyetle neredeyse 2 kat müşteri hacmi servis edilebiliyor
Gemini ile ortak tasarım, herkes için açık
-
- nesil TPU, yapay zekanın en büyük sorunlarını çözmek için tüm özelliklerin birlikte tasarlandığı ortak tasarım felsefesinin en güncel ifadesi
- Boardfly topolojisi: günümüzün en güçlü çıkarım modellerinin iletişim gereksinimlerine göre tasarlandı
- TPU 8i’nin SRAM kapasitesi: üretim ölçeğindeki çıkarım modellerinin KV cache ayak izine göre belirlendi
- Virgo Network bant genişliği hedefi: trilyon parametreli eğitimdeki paralelleştirme gereksinimlerinden türetildi
- Her iki çip de ilk kez Google’ın kendi Axion ARM tabanlı CPU host’u üzerinde çalışıyor; böylece yalnızca çip değil, tüm sistem optimize edilebiliyor
-
Framework ve erişilebilirlik
- Yerel JAX, MaxText, PyTorch, SGLang, vLLM desteği
- Bare metal erişim sunuluyor; sanallaştırma ek yükü olmadan donanıma doğrudan erişim mümkün
- Açık kaynak katkıları: MaxText referans uygulaması, reinforcement learning için Tunix ve geliştirmeden üretime dağıtıma kadar kritik yolun desteklenmesi
Büyük ölçekte enerji verimliliği tasarımı
- Günümüz veri merkezlerinde yalnızca çip arzı değil, güç de bağlayıcı kısıt haline gelmiş durumda
- Tüm yığın genelinde verimlilik optimize edilirken, gerçek zamanlı talebe göre güç tüketimini dinamik olarak ayarlayan entegre güç yönetimi uygulanıyor
- Hem TPU 8t hem de TPU 8i, önceki nesle (Ironwood) göre watt başına performansta 2 kata kadar artış sağlıyor
- Verimlilik yalnızca çip düzeyi bir metrik değil; silikondan veri merkezine kadar uzanan sistem düzeyi bir taahhüt
- Ağ bağlantısının hesaplama ile aynı çipte bütünleştirilmesi, TPU pod’ları içinde veri taşımanın enerji maliyetini ciddi biçimde düşürüyor
- Veri merkezleri de TPU ile ortak tasarlandı; 5 yıl öncesine kıyasla güç birimi başına hesaplama gücü 6 kat arttı
- Her iki çip de 4. nesil sıvı soğutma teknolojisiyle destekleniyor; bu sayede hava soğutmayla mümkün olmayan performans yoğunluğu korunuyor
- Axion host’tan hızlandırıcıya kadar tüm yığına sahip olmak, host ve çip ayrı ayrı tasarlandığında mümkün olmayan sistem düzeyi enerji verimliliği optimizasyonunu mümkün kılıyor
Ajanik çağ için altyapı
- Her büyük hesaplama dönüşümü altyapı yeniliği gerektirir; ajanik çağ da bunun istisnası değil
- Altyapının, otonom ajanların çıkarım, planlama, yürütme ve öğrenmeden oluşan sürekli döngüsüne uyum sağlayacak şekilde evrilmesi gerekiyor
- TPU 8t ve TPU 8i bu soruya verilen yanıt: en güçlü yapay zeka modellerinin inşasını, kusursuz şekilde orkestre edilmiş ajan sürülerini ve en karmaşık çıkarım görevlerinin yönetimini yeniden tanımlayan iki uzmanlaşmış mimari
- Her iki çip de bu yılın ikinci yarısında genel kullanıma sunulacak
- Google’ın AI Hypercomputer platformunun bir parçası olarak kullanılabilecek
- Amaca yönelik donanımı (hesaplama, depolama, ağ), açık yazılımı (framework’ler, çıkarım motorları) ve esnek tüketim modellerini (orkestrasyon, küme yönetimi, teslim modeli) birleşik bir yığında bir araya getiriyor
1 yorum
Hacker News yorumları
Bana göre Gemini 3, verimlilik odaklı eğitimle nereye kadar gidilebileceğini zaten gösterdi. Pro ve Flash’ın, muhtemelen Opus ya da GPT-5 düzeyi modellerden 5 ila 10 kat daha küçük göründüğünü tahmin ediyorum araç çağrıları sık sık bozuluyordu ve agentic görevlerde genel olarak zayıftı; yani akıl yürütme ve uygulama tarafında hâlâ yeterince incelik yok gibi geldi. Yine de araç ya da arama olmadan salt problem çözmeye bakınca Opus ve GPT ile boy ölçüşüyor gibiydi, üstelik çok daha küçük görünüyordu Google bir gün önizleme aşamasındaki prototiplemeyi bitirip gerçekten düzgün bir resmî model çıkardığında, mevcut SOTA’nın bir nesil ötesine geçen bir modelle herkesi şaşırtacakmış gibi geliyor. Şimdiye kadar çıkan modeller, yatırımcılara göstermek ve ürün ailesine kavram kanıtı olarak koymak için aceleyle GA’ya itilmiş prototipler gibi hissettirdi
Artık büyük ölçekli AI yapmak için fiilen ya NVidia’dan satın almanız ya da Google’dan kiralamanız gerekiyor gibi geliyor. Üstelik Google çipi, motoru ve sistemi tüm veri merkezi perspektifinden tasarlayabildiği için, bir çip satıcısının merkezîleştiremeyeceği noktaları bile optimize edebiliyor Bu yüzden ölçek gerçekten büyüdükçe Google sistemlerinin her zaman daha maliyet verimli olacağını tahmin ediyorum. Bu da dahil olmak üzere bu yüzden GOOG long pozisyonundayım
Diğer şirketler haber döngüsünün ilgisini çekerken, Google sessizce güç kazanma trendine binip tüketici pazar payını topluyor gibi görünüyor AI’ı baştan beri dikey entegre şekilde kurmalarının etkisiyle altyapı sorunları da neredeyse hiç yokmuş gibi duruyordu; bir ara bitmiş bir şirket gibi görünüyordu ama şimdi yükselen gelgit gibi her yöne büyüyor hissi veriyor
Gemini, ChatGPT ve Claude’un üçünü de kullanan biri olarak, Gemini’nin diğer iki modele kıyasla sürekli çok daha az token kullandığını gördüm Sonuçta Gemini’nin bugünkü seviyede kalmasının nedeni daha küçük bir thinking budget gibi görünüyor Google muhtemelen en fazla compute’a ve en düşük maliyet yapısına sahip, bu yüzden neden diğer ikisi gibi çıkarım compute’unu güçlü biçimde zorlamadıkları merak konusu. Bunun nedeni başka hizmet yükleri mi, yoksa eğitim odaklı strateji mi bilmiyorum ama oldukça ilginç buluyorum
Bir TPU 8t superpod’un 9.600 çipe ve 2PB paylaşımlı yüksek bant genişlikli belleğe kadar ölçeklenebildiği açıklaması etkileyiciydi Bu alanı çok iyi bildiğimi söyleyemem ama en azından bana göre bu, Google’ın oldukça büyük bir rekabet avantajı gibi görünüyor
TPU 8t ve TPU 8i’nin önceki nesle göre watt başına performansta 2 kata kadar artış sunduğu ifadesi oldukça etkileyiciydi Özellikle önceki neslin 2025 ürünü kadar yeni olması bunu daha da ilginç kılıyordu. Ayrıca eğitim ve çıkarım donanımının ayrılmış olması da dikkat çekiciydi; NV donanımı kullanan şirketlerin de bunu böyle ayırıp ayırmadığını yoksa daha genel amaçlı mı kaldığını merak ettim
Gemini’yi JetBrains’in Junie’siyle birlikte kullanıyorum; Junie’nin kendisi Claude Code kadar iyi olmasa da, şu anki Google araçlarının çok ilerisinde olduğunu düşünüyorum Bu kombinasyonla oldukça ucuza istikrarlı sonuçlar alabiliyorum
Büyük çıkarım sağlayıcıları arasında Google’ın model emeklilik politikası en rahatsız edici olanlardan biri gibi geliyor Modeli tam 1 yıl sonra kaldırıp sizi yeni nesle zorla geçiriyorlar; kendi silikonlarını kullandıkları için daha istikrarlı olmalarını beklerdim ama tam tersi çıktı. rate limiting de OpenAI’ye göre çok daha sert, bunun TPU’dan mı yoksa sadece garip bir politika kararından mı kaynaklandığını merak ediyorum
AI’da nihai bir kazanan çıkarsa, bunun ya tüm stack’e sahip olan Google ya da en çok AI destekli edge site dağıtacak Apple olacağını düşünüyorum; başka bir tablo gözümde pek canlanmıyor
Mimari açıklaması bu bağlantıda daha ayrıntılı özetlenmişti. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive