Ajan Çağı İçin İki Çip: Google’ın 8. Nesil TPU’su

(blog.google)

6 puan yazan GN⁺ 7 일 전 | 1 yorum | WhatsApp'ta paylaş

Google, 10 yılı aşkın TPU geliştirme geçmişini bir araya getirerek iki tür 8. nesil TPU tanıttı; büyük ölçekli model eğitimi için TPU 8t ve yüksek hızlı çıkarım için TPU 8i olmak üzere, her biri belirli bir amaca odaklanan bir mimari benimsedi
TPU 8t, tek bir superpod içinde 9.600 çip ve 121 ExaFlops ölçeğine kadar genişleyebiliyor; pod başına hesaplama performansı önceki nesle göre yaklaşık 3 kat arttı
TPU 8i, bellek bant genişliği ve gecikme optimizasyonuna odaklanarak ajanik çıkarıma uygun şekilde yeniden tasarlandı; genişletilmiş on-chip SRAM, Axion CPU host’u ve MoE uyumlu ağ iyileştirmeleriyle maliyet başına performansta %80 iyileşme sağladı
Her iki çip de Google tasarımı Axion ARM tabanlı CPU host üzerinde çalışıyor ve watt başına performans önceki nesle göre 2 kata kadar artıyor
Yapay zeka ajanlarının sürekli olarak çıkarım yapıp planlayıp uyguladığı çağa uygun biçimde, eğitim ve çıkarımı ayrı ayrı optimize eden bir altyapı stratejisi sunuluyor; yılın ikinci yarısında genel kullanıma açılması ve Google AI Hypercomputer’ın bir parçası olarak sunulması planlanıyor

8. nesil TPU’ya genel bakış

Google Cloud Next’te 8. nesil Tensor Processor Unit (TPU) tanıtıldı; eğitim için TPU 8t ve çıkarım için TPU 8i olmak üzere iki mimariden oluşuyor
Özel süper bilgisayarları çalıştırmak üzere tasarlandı ve en gelişmiş model eğitimi, ajan geliştirme ve büyük ölçekli çıkarım iş yüklerinin tamamını kapsıyor
Gemini dahil başlıca foundation modeller yıllardır TPU üzerinde çalıştırılıyor; 8. nesil ise eğitim, servis etme ve ajanik iş yüklerinde aynı anda ölçek, verimlilik ve performans sunuyor
Yapay zeka ajanları çağında modellerin problemler üzerinde akıl yürütmesi, çok adımlı iş akışlarını yürütmesi ve kendi eylemlerinden öğrenen sürekli bir döngü işletmesi gerektiği için altyapıda yeni gereksinimler ortaya çıkıyor
Google DeepMind ile birlikte, en zorlu yapay zeka iş yüklerini işleyecek ve gelişen model mimarilerine uyum sağlayacak şekilde tasarlandı

10 yılı aşkın tasarım felsefesi

TPU, özel sayısal işlem, sıvı soğutma, özel ara bağlantı gibi ML süper bilgi işlem bileşenlerinde standart belirledi; 8. nesil ise 10 yılı aşkın geliştirmenin birikimini temsil ediyor
Temel tasarım ilkesi: silikonun donanım, ağ ve yazılımla (model mimarileri ve uygulama gereksinimleri dahil) ortak tasarım (co-design) yaklaşımıyla geliştirilmesi sayesinde hem enerji verimliliğinde hem de mutlak performansta büyük sıçrama elde etmek
Citadel Securities’in kendi yapay zeka iş yükleri için TPU seçmesi, öncü kurumlara örnek olarak gösteriliyor

Eğitim ve çıkarım neden ayrıldı?

Donanım geliştirme döngüsü yazılımdan çok daha uzun olduğu için, her nesil TPU tasarlanırken çıkış anındaki teknoloji ve talebin önceden öngörülmesi gerekiyor
Yıllar önce, frontier yapay zeka modellerinin üretim ortamında dağıtılmasıyla birlikte çıkarım talebinin artacağı öngörüldü
Yapay zeka ajanlarının yükselişiyle eğitim ve servis etmenin gereksinimleri farklılaştığından, ayrı uzmanlaşmış çiplerin topluluk için daha avantajlı olacağı değerlendirildi
TPU 8t, daha yüksek hesaplama throughput’u ve scale-up bant genişliğiyle büyük ölçekli eğitim için optimize edildi
TPU 8i, daha yüksek bellek bant genişliğiyle gecikmeye duyarlı çıkarım iş yükleri için optimize edildi; çünkü ajanlar arası etkileşimlerde küçük verimsizlikler bile büyük ölçekte büyüyor
Her iki çip de çeşitli iş yüklerini çalıştırabiliyor, ancak uzmanlaşma sayesinde önemli verim artışları sağlanıyor

TPU 8t: Eğitime adanmış güç merkezi

Amaç, frontier model geliştirme döngüsünü aylardan haftalara indirmek
En üst düzey hesaplama throughput’unu, paylaşımlı bellek ve çipler arası bant genişliğini; optimum enerji verimliliği ve üretken hesaplama süresiyle dengeli biçimde birleştiriyor
Önceki nesle kıyasla pod başına hesaplama performansı yaklaşık 3 kat arttı
Büyük ölçekli genişleme (Massive Scale)
- Tek bir TPU 8t superpod’u 9.600 çip ve 2 petabayt paylaşımlı HBM ölçeğine kadar genişleyebiliyor
- Önceki nesle göre çipler arası bant genişliği 2 kat arttı
- 121 ExaFlops hesaplama performansı sunuyor; böylece en karmaşık modeller tek ve büyük bir bellek havuzundan yararlanabiliyor
Maksimum kullanım (Maximum Utilization)
- Entegre 10 kat daha hızlı depolama erişimi
- TPUDirect ile veriler doğrudan TPU’ya çekilerek uçtan uca sistemde en yüksek kullanım oranı sağlanıyor
Neredeyse doğrusal ölçekleme (Near-Linear Scaling)
- Yeni Virgo Network ile JAX ve Pathways yazılımları birleştirilerek tek bir mantıksal kümede 1 milyon çipe kadar neredeyse doğrusal ölçekleme sağlanabiliyor
Güvenilirlik ve erişilebilirlik
- Hedef goodput (yararlı üretken hesaplama süresi) %97’nin üzerinde
- Kapsamlı RAS (Reliability, Availability, Serviceability) özellikleri içeriyor
  - On binlerce çip üzerinde gerçek zamanlı telemetri
  - Arızalı ICI bağlantılarının otomatik tespiti ve işi kesintiye uğratmadan alternatif yönlendirme
  - OCS (Optical Circuit Switching) ile insan müdahalesi olmadan arıza çevresinde donanımın yeniden yapılandırılması
- Frontier eğitim ölçeğinde donanım arızaları, ağ gecikmeleri ve checkpoint yeniden başlatmaları eğitim dışı süre anlamına geliyor; %1 puanlık fark bile günlerce eğitim süresine dönüşebiliyor

TPU 8i: Çıkarım motoru

Ajanik çağda kullanıcılar soru sorup görev devredip sonuç almayı beklediği için, karmaşık akışlarda birden fazla uzman ajanın swarming yaklaşımıyla iş birliği yaptığı görevler için optimize edildi
“Bekleme odası etkisini” ortadan kaldırmak için yığın yeniden tasarlandı ve dört temel yenilik uygulandı
Bellek duvarını aşmak (Breaking the Memory Wall)
- 288GB HBM ve 384MB on-chip SRAM (önceki neslin 3 katı) içeriyor
- Modelin etkin çalışma kümesinin tamamını çip üzerinde tutarak işlemcinin boşta kalmasını önlüyor
Axion tabanlı verimlilik
- Sunucu başına fiziksel CPU host sayısı 2 katına çıkarıldı ve Google’ın kendi Axion ARM tabanlı CPU tasarımı kullanıldı
- NUMA (Non-Uniform Memory Architecture) izolasyonu ile tüm sistem performansı optimize edildi
MoE model ölçekleme
- En yeni Mixture of Expert (MoE) modelleri için ICI bant genişliği 19.2 Tb/s düzeyine çıkarılarak 2 kat artırıldı
- Yeni Boardfly mimarisi ile maksimum ağ çapı %50’den fazla azaltıldı ve sistem tek, uyumlu, düşük gecikmeli birim gibi çalışıyor
Gecikmeyi ortadan kaldırmak (Eliminating Lag)
- Yeni on-chip CAE (Collectives Acceleration Engine), küresel işlemleri offload ederek çip içi gecikmeyi 5 kata kadar azaltıyor
Maliyet başına performans
- Önceki nesle göre dolar başına performans %80 arttı, yani aynı maliyetle neredeyse 2 kat müşteri hacmi servis edilebiliyor

Gemini ile ortak tasarım, herkes için açık

1. nesil TPU, yapay zekanın en büyük sorunlarını çözmek için tüm özelliklerin birlikte tasarlandığı ortak tasarım felsefesinin en güncel ifadesi
Boardfly topolojisi: günümüzün en güçlü çıkarım modellerinin iletişim gereksinimlerine göre tasarlandı
TPU 8i’nin SRAM kapasitesi: üretim ölçeğindeki çıkarım modellerinin KV cache ayak izine göre belirlendi
Virgo Network bant genişliği hedefi: trilyon parametreli eğitimdeki paralelleştirme gereksinimlerinden türetildi
Her iki çip de ilk kez Google’ın kendi Axion ARM tabanlı CPU host’u üzerinde çalışıyor; böylece yalnızca çip değil, tüm sistem optimize edilebiliyor
Framework ve erişilebilirlik
- Yerel JAX, MaxText, PyTorch, SGLang, vLLM desteği
- Bare metal erişim sunuluyor; sanallaştırma ek yükü olmadan donanıma doğrudan erişim mümkün
- Açık kaynak katkıları: MaxText referans uygulaması, reinforcement learning için Tunix ve geliştirmeden üretime dağıtıma kadar kritik yolun desteklenmesi

Büyük ölçekte enerji verimliliği tasarımı

Günümüz veri merkezlerinde yalnızca çip arzı değil, güç de bağlayıcı kısıt haline gelmiş durumda
Tüm yığın genelinde verimlilik optimize edilirken, gerçek zamanlı talebe göre güç tüketimini dinamik olarak ayarlayan entegre güç yönetimi uygulanıyor
Hem TPU 8t hem de TPU 8i, önceki nesle (Ironwood) göre watt başına performansta 2 kata kadar artış sağlıyor
Verimlilik yalnızca çip düzeyi bir metrik değil; silikondan veri merkezine kadar uzanan sistem düzeyi bir taahhüt
- Ağ bağlantısının hesaplama ile aynı çipte bütünleştirilmesi, TPU pod’ları içinde veri taşımanın enerji maliyetini ciddi biçimde düşürüyor
- Veri merkezleri de TPU ile ortak tasarlandı; 5 yıl öncesine kıyasla güç birimi başına hesaplama gücü 6 kat arttı
Her iki çip de 4. nesil sıvı soğutma teknolojisiyle destekleniyor; bu sayede hava soğutmayla mümkün olmayan performans yoğunluğu korunuyor
Axion host’tan hızlandırıcıya kadar tüm yığına sahip olmak, host ve çip ayrı ayrı tasarlandığında mümkün olmayan sistem düzeyi enerji verimliliği optimizasyonunu mümkün kılıyor

Ajanik çağ için altyapı

Her büyük hesaplama dönüşümü altyapı yeniliği gerektirir; ajanik çağ da bunun istisnası değil
Altyapının, otonom ajanların çıkarım, planlama, yürütme ve öğrenmeden oluşan sürekli döngüsüne uyum sağlayacak şekilde evrilmesi gerekiyor
TPU 8t ve TPU 8i bu soruya verilen yanıt: en güçlü yapay zeka modellerinin inşasını, kusursuz şekilde orkestre edilmiş ajan sürülerini ve en karmaşık çıkarım görevlerinin yönetimini yeniden tanımlayan iki uzmanlaşmış mimari
Her iki çip de bu yılın ikinci yarısında genel kullanıma sunulacak
Google’ın AI Hypercomputer platformunun bir parçası olarak kullanılabilecek
- Amaca yönelik donanımı (hesaplama, depolama, ağ), açık yazılımı (framework’ler, çıkarım motorları) ve esnek tüketim modellerini (orkestrasyon, küme yönetimi, teslim modeli) birleşik bir yığında bir araya getiriyor

1 yorum

GN⁺ 7 일 전

Hacker News yorumları

Bana göre Gemini 3, verimlilik odaklı eğitimle nereye kadar gidilebileceğini zaten gösterdi. Pro ve Flash’ın, muhtemelen Opus ya da GPT-5 düzeyi modellerden 5 ila 10 kat daha küçük göründüğünü tahmin ediyorum araç çağrıları sık sık bozuluyordu ve agentic görevlerde genel olarak zayıftı; yani akıl yürütme ve uygulama tarafında hâlâ yeterince incelik yok gibi geldi. Yine de araç ya da arama olmadan salt problem çözmeye bakınca Opus ve GPT ile boy ölçüşüyor gibiydi, üstelik çok daha küçük görünüyordu Google bir gün önizleme aşamasındaki prototiplemeyi bitirip gerçekten düzgün bir resmî model çıkardığında, mevcut SOTA’nın bir nesil ötesine geçen bir modelle herkesi şaşırtacakmış gibi geliyor. Şimdiye kadar çıkan modeller, yatırımcılara göstermek ve ürün ailesine kavram kanıtı olarak koymak için aceleyle GA’ya itilmiş prototipler gibi hissettirdi
- Ben o 5 ila 10 kat tahmine şüpheyle yaklaşıyorum. Özellikle Pro için; bence mesele daha küçük modelden çok, Google donanımı sayesinde daha büyük bir modeli daha ucuz ve hızlı çalıştırabilmeleri olabilir Gemini 3 Pro genel olarak insanı andıran zekâya en yakın model gibi geldi. Özellikle beşerî bilimlerde güçlü ve birçok insan dilinde doğal metin üretme becerisi açısından fiilen 1 numara olduğunu düşünüyorum. Bu farklar niş dillere gidildikçe daha da büyüyor; bu da bana küçük modelden ziyade daha büyük bir modeli işaret ediyor gibi geliyor Matematikte ve agentic görevlerde kesinlikle zayıf, Gemini uygulamasının kendisi de 3 yıl önceki ilk ChatGPT’den çok da farklı görünmeyecek kadar geride kaldığı için algılanan performansı düşürüyor bence
- Ben de bu konuda katılıyorum. Gemini-cli, CC ya da Codex’le kıyaslanınca gerçekten çok kötü hissettiriyor Yine de bence Google’ın önceliği, geleneksel aramayı güçlendirecek ya da onun yerini alacak en iyi AI’ı yapmak. Asıl işi bu ve gelir elde etme konumu da bu konuda herkesten çok daha avantajlı. Kullanıcı tabanı ve sorgu hacmi açısından zaten muazzam bir dağıtım avantajına sahip olduklarını düşünüyorum Keşke Gemini-cli’ye de öncelik verip bu alandaki rekabeti daha sert itseler
- Hatırladığım kadarıyla Gemini 3 Pro ilk çıktığında dönemin Claude sürümüyle neredeyse aynı ligde görülüyordu. Ama bugünkü Gemini 3 artık epey yaşlı hissettiriyor Bu arada pek çok Çin modeli çıktı, Claude da birkaç kez güncellendi; o yüzden şu an Google bu alanda biraz duraklamış gibi görünüyor. Tabii yakında büyük bir sıçramayla şaşırtabileceklerini de düşünüyorum
- Google’ın preview adlandırmasını epey keyfî buluyorum. Erişilebilirlik ya da süreklilik konusunda taahhütten kaçmanın bir yolu ve bir şeyler ters giderse bunun beta kalitesi olduğu söylenebilsin diye kullanılan bir PR taktiği gibi geldi
- Gemini’de neyi kaçırdığımı hep merak etmişimdir. Bana göre en iyi ihtimalle ikinci sınıf bir model gibi geliyor Bilgi toplamada idare eder ama agentic görevlerde neredeyse işe yaramazdı ve hep sarhoş gibi görünürdü. Antigravity’de Claude kredileri bitince o günün fişi çekilmiş gibi hissediyorum Çok daha az token kullandığı sözü bana komik geldi; çünkü benim deneyimimde sık sık problemi bile çözemeyen bir ölüm döngüsüne giriyordu
Artık büyük ölçekli AI yapmak için fiilen ya NVidia’dan satın almanız ya da Google’dan kiralamanız gerekiyor gibi geliyor. Üstelik Google çipi, motoru ve sistemi tüm veri merkezi perspektifinden tasarlayabildiği için, bir çip satıcısının merkezîleştiremeyeceği noktaları bile optimize edebiliyor Bu yüzden ölçek gerçekten büyüdükçe Google sistemlerinin her zaman daha maliyet verimli olacağını tahmin ediyorum. Bu da dahil olmak üzere bu yüzden GOOG long pozisyonundayım
- Ben de Google’a bahis oynamak isterdim ama Gemini CLI deneyimi Codex ya da Claude seviyesine biraz bile yaklaşsaydı ancak öyle olurdu Donanım ne kadar iyi olursa olsun, amiral gemisi kodlama ajanı turn sonu token’ını ararken döngüye giriyorsa bunun değeri ciddi biçimde düşüyor gibi geliyor
- Amazon da benzer şekilde kendi TPU benzeri çiplerini yapmıyor mu diye merak ettim
- Benim aklıma hep başkasının krallığında kale inşa etmeme sözü geliyor Sonuçta NVidia’dan satın almak tek gerçekçi seçenek gibi görünüyor ve onun da en iyi seçenek olduğunu sanmıyorum
- Ben aslında bu tezin tersine daha yakınım. İki sebep var: birincisi, Google üretimi yapay biçimde sınırlamış gibi görünüyor İkincisi, TSMC en yüksek kapasite bedelini ödeyebilen tarafı tercih edeceği için, yeni süreçteki ilk slotları Nvidia’nın alacağını düşünüyorum Ayrıca GCP’nin Hetzner ya da lambdalabs’e göre işletme marjı daha yüksek ve fiilen daha ucuz GPU kiralama yerleri de var; bu yüzden öğrenciler ya da küçük araştırma ekipleri sonuçta GPU tarafında kalıyor gibi geliyor
- Yönetim ekibi biraz daha ilham verici olsaydı ben de Google’a bahis oynardım sanırım Tim Cook dönemindeki Apple, Jobs dönemine göre daha yumuşaktı ama Google sanki uçurumdan düşmüş gibiydi. OpenAI ChatGPT’yi çıkarmamış olsaydı, bu teknolojiyi hâlâ şirket içi deneylerde çürütüyor olabilirlerdi diye düşünüyorum. Şimdi ise bu olay tüm çip Ar-Ge’sini ileri iten bir güç olmuş gibi duruyor
Diğer şirketler haber döngüsünün ilgisini çekerken, Google sessizce güç kazanma trendine binip tüketici pazar payını topluyor gibi görünüyor AI’ı baştan beri dikey entegre şekilde kurmalarının etkisiyle altyapı sorunları da neredeyse hiç yokmuş gibi duruyordu; bir ara bitmiş bir şirket gibi görünüyordu ama şimdi yükselen gelgit gibi her yöne büyüyor hissi veriyor
- Yine de Google Antigravity subreddit’i tam bir kaos gibi görünüyordu https://www.reddit.com/r/GoogleAntigravityIDE/
- Bence 1-2 yıl içinde Google ve Apple’ın sonunda ikisinin de kazandığı bir noktaya geleceğiz Bunlar her ay cilalanmamış ürün çıkarıp şirket değerini ikiye katlamaya çalışan bir hız oyunu oynamıyor; gözlemleyip düşünüp gerçekten iyi tamamlanmış ürünler çıkaracak zamana sahip olacaklarını umuyorum
- Google’ın son açık modellerinin diğer açık modeller karşısında epey rekabetçi olduğunu düşünüyorum Özellikle 2-4GB gibi küçük boyutlarda yenilik var ve telefonlarda ya da daha küçük cihazlarda gerçekçi kalitede akıl yürütmeye yaklaşmak için farkı kapatmaya yardımcı oluyor gibi geliyor
- Abartıyı çıkarınca OpenAI ve Anthropic, para dökerek kendi üstlerini örtmeye ve daha büyük bir ateş yakmaya çalışan iki taraf gibi göründü
- AI benimsenmesi Google için OpenAI ya da Anthropic kadar varoluşsal bir mesele değil bence Üstelik Google ne söylerse söylesin, diğer ikisi kadar hype üretmeleri zor ve sonuçta bu hep daha çok kurumsal tanıtım metni gibi duyuluyor
Gemini, ChatGPT ve Claude’un üçünü de kullanan biri olarak, Gemini’nin diğer iki modele kıyasla sürekli çok daha az token kullandığını gördüm Sonuçta Gemini’nin bugünkü seviyede kalmasının nedeni daha küçük bir thinking budget gibi görünüyor Google muhtemelen en fazla compute’a ve en düşük maliyet yapısına sahip, bu yüzden neden diğer ikisi gibi çıkarım compute’unu güçlü biçimde zorlamadıkları merak konusu. Bunun nedeni başka hizmet yükleri mi, yoksa eğitim odaklı strateji mi bilmiyorum ama oldukça ilginç buluyorum
- Birkaç aydır yaklaşık 20 dolarlık bir Google One aboneliğiyle Gemini Pro kullanıyordum; bilgi doğrulamak için web araması yapma sıklığının bile ChatGPT 5.4 Pro’ya göre sürekli daha düşük olduğunu hissettim Kodlama karşılaştırması da yapmak istemiştim ama Gemini VSCode eklentisi çalışmadığı için yapamadım Android ve web uygulamasında çok sayıda bug vardı; hatta thread’ler arasında gidip gelince sohbet geçmişi kayboluyordu, bu yüzden bu ay Google One aboneliğimi iptal etmeyi düşünüyorum
- Gemini’yi Claude ya da ChatGPT yerine kullanmak için ne tür bir rekabet avantajı sunduğunu pek anlayamıyorum Çıktı kalitesi bana göre o ikisinin epey gerisinde kalıyor
- Bugün yeni duyurulan kurumsal agentic platformun, Fortune 500 şirketlerinin çıkarım iş yüklerini üzerine çeken bir çekim kuyusu olmasını umuyorum
- GLM-5’in GLM-4.7’den daha iyi olmasının temel nedenlerinden birinin token kullanımında daha cömert olması olduğuna yarı yarıya eminim 4.7’de kaynak kodu yeterince okutmak aşırı zordu ama bir kez okuduğunda oldukça yetenekliydi Tutumluluk bir erdem ama aynı zamanda yeterince düşünmemek, unsurları yeterince hesaba katmamak, kaynak kodu yeterince okumamak anlamına da gelebilir. Sonuçta token’ı az kullanmakla çok kullanmak arasındaki denge hâlâ kimsenin kesin olarak bilmediği bir alan gibi geliyor
Bir TPU 8t superpod’un 9.600 çipe ve 2PB paylaşımlı yüksek bant genişlikli belleğe kadar ölçeklenebildiği açıklaması etkileyiciydi Bu alanı çok iyi bildiğimi söyleyemem ama en azından bana göre bu, Google’ın oldukça büyük bir rekabet avantajı gibi görünüyor
- Bence de öyle. Yine de instruction ile data ayrımı tarafında bir atılım olmadan AGI yapılabileceğini sanmıyorum
TPU 8t ve TPU 8i’nin önceki nesle göre watt başına performansta 2 kata kadar artış sunduğu ifadesi oldukça etkileyiciydi Özellikle önceki neslin 2025 ürünü kadar yeni olması bunu daha da ilginç kılıyordu. Ayrıca eğitim ve çıkarım donanımının ayrılmış olması da dikkat çekiciydi; NV donanımı kullanan şirketlerin de bunu böyle ayırıp ayırmadığını yoksa daha genel amaçlı mı kaldığını merak ettim
- Eğitimin compute-bound, çıkarımın ise memory-bound olduğu iyi biliniyor ama bildiğim kadarıyla Nvidia dağıtımları genelde bunlardan yalnızca birine özel optimize edilmiyor Birçok bulut ve neo-cloud sağlayıcısı iş yükünün kendisine sahip değil; bu yüzden genel amaçlılık önemli ve H200 gibi pahalı donanımlara bir de ağ yatırımı yapmışken bunları çeşitli müşterilere satabilmeleri gerekiyor Ama Vera Rubin’in Grok LPU’su ya da Cerebras gibi yalnızca çıkarım optimizasyonuna odaklı hızlandırıcılar da gelmeye başladı; yani uzmanlaşma eğilimi şimdiden başlamış durumda
- NVIDIA tarafı için kesin konuşamam ama AWS’nin kendi eğitim çipleri ve çıkarım çipleri ayrı ayrı var Yalnız söylentiye göre çıkarım çipleri fazla zayıf olduğu için bazı şirketler çıkarımı bile eğitim çiplerinde çalıştırıyor
- Özel donanım genelde daha yüksek performans verir; bu yüzden bir alan olgunlaştıkça, karmaşık ve pahalı sistemlerin ucuz ve yaygın 1 dolarlık çiplere doğru indiğini düşünüyorum Bu yüzden Google’ın, NVidia üzerinde inşa eden şirketlere kıyasla kendi stack’ini çok daha iyi anladığını hissediyorum. Google klavyeden silikona kadar her şeyi sahipleniyor; bu yüzden birbiriyle kaynak için yarışan özellikleri nasıl ayıracağını yeterince iteratif olarak öğrenmiş gibi görünüyor
- Eğitim çipleri sonuçta yavaş ama throughput’u yüksek büyük ölçekli çıkarım için de gayet işe yarayabilir gibi duruyor Zaman hassasiyeti düşük kullanım senaryolarında bunun epey yaygınlaşacağını tahmin ediyorum
- Vera Rubin’de hızlı çıkarım için Groq çiplerinin yer alması bile başlı başına bir trend işaretiydi Enerji talebi bu kadar yüksekken mümkün olan her optimizasyonun peşine düşmek doğal geliyor
Gemini’yi JetBrains’in Junie’siyle birlikte kullanıyorum; Junie’nin kendisi Claude Code kadar iyi olmasa da, şu anki Google araçlarının çok ilerisinde olduğunu düşünüyorum Bu kombinasyonla oldukça ucuza istikrarlı sonuçlar alabiliyorum
- JetBrains IDE ve araç bağlamı içinde bakınca da Junie’nin rakip ürünlerle aynı seviyede olduğunu düşünüyor musun, merak ettim
Büyük çıkarım sağlayıcıları arasında Google’ın model emeklilik politikası en rahatsız edici olanlardan biri gibi geliyor Modeli tam 1 yıl sonra kaldırıp sizi yeni nesle zorla geçiriyorlar; kendi silikonlarını kullandıkları için daha istikrarlı olmalarını beklerdim ama tam tersi çıktı. rate limiting de OpenAI’ye göre çok daha sert, bunun TPU’dan mı yoksa sadece garip bir politika kararından mı kaynaklandığını merak ediyorum
- Google’ın eski Gemini sürümlerini fazla umursamaz biçimde sonlandırması oldukça can sıkıcıydı Benim yorumum şu: araçların çoğu yalnızca en güncel modeli kullandığı için yeni model kısa sürede toplam hacmin %90’ından fazlasını alıyor, sonra da Google usulü bir maliyet-fayda analizi devreye girip eski sürüm sessizce kapatılıyor Gemini 2.5 için EOL tarihini yakın zamanda uzatmaları beni aksine şaşırttı; Google hiçbir zaman müşteriye takıntılı bir şirket değildi bence
- Flash 2 daha haziranda bile EOL olmayacakken hafta sonu boyunca 429 görüp %90 hata oranı yaşadım Bu yüzden sonunda GPT 5.4 nano’ya geçtim
AI’da nihai bir kazanan çıkarsa, bunun ya tüm stack’e sahip olan Google ya da en çok AI destekli edge site dağıtacak Apple olacağını düşünüyorum; başka bir tablo gözümde pek canlanmıyor
- Bence kazanan, belirli görevleri iyi yapan bir yerel model sarmalayıcısı da olabilir Arama gibi işleri, insanı memnun etmeye çalışan insanlaştırılmış bir dalkavuk gibi değil de gerçekten yapacak şekilde tasarlanmış olan taraf daha olası görünüyor
- Google’ın ürün tarafında yine bocalama ihtimali de gayet yüksek bence Muazzam dağıtım gücü sayesinde yine ayakta kalabilir ama daha iyi bir ürün çıkarsa, IE’den Chrome’a geçişte olduğu gibi yeterince yıkıcı bir dönüşüm yaşaması da mümkün görünüyor
Mimari açıklaması bu bağlantıda daha ayrıntılı özetlenmişti. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

Ajan Çağı İçin İki Çip: Google’ın 8. Nesil TPU’su

8. nesil TPU’ya genel bakış

10 yılı aşkın tasarım felsefesi

Eğitim ve çıkarım neden ayrıldı?

TPU 8t: Eğitime adanmış güç merkezi

Büyük ölçekli genişleme (Massive Scale)

Maksimum kullanım (Maximum Utilization)

Neredeyse doğrusal ölçekleme (Near-Linear Scaling)

Güvenilirlik ve erişilebilirlik

TPU 8i: Çıkarım motoru

Bellek duvarını aşmak (Breaking the Memory Wall)

Axion tabanlı verimlilik

MoE model ölçekleme

Gecikmeyi ortadan kaldırmak (Eliminating Lag)

Maliyet başına performans

Gemini ile ortak tasarım, herkes için açık

Framework ve erişilebilirlik

Büyük ölçekte enerji verimliliği tasarımı

Ajanik çağ için altyapı

İlgili okumalar

1 yorum

Hacker News yorumları