Google'ın sıvı soğutması: Hot Chips 2025'te tanıtıldı
(chipsandcheese.com)- Sıvı soğutma, veri merkezlerinde yüksek güçlü çiplerin ısı sorununu çözmek için hızla yaygınlaşıyor
- Havaya kıyasla yaklaşık 4.000 kat daha yüksek ısı iletkenliğine sahip olduğu için, özellikle yapay zeka patlamasıyla artan TPU soğutma talebine yanıt olarak Google tarafından aktif biçimde benimseniyor
- Google, bakım kolaylığı ve ölçeklenebilirliği artırmak için CDU (Coolant Distribution Unit) tabanlı raf düzeyi sıvı soğutma döngüleri işletiyor
- Split-flow soğuk plaka ve çıplak kalıp soğutma (TPUv4) gibi yüksek performanslı PC pazarındaki teknikler veri merkezi ölçeğine uygulanıyor
- Sıvı soğutma, fanlara kıyasla %5'in altında güç tüketimiyle verimli; sızıntı ve mikrobiyal büyüme gibi sorunlara karşı Google kapsamlı doğrulama, uyarı sistemleri ve önleyici bakımı birlikte yürütüyor
- NVIDIA ve Rebellions AI gibi şirketler de sıvı soğutmayı benimseyerek veri merkezi soğutmasında standartlaşma eğilimini hızlandırıyor
Sıvı soğutmanın gerekliliği ve arka planı
- Sıvı soğutma, PC meraklıları arasında tanıdık bir teknoloji ve kurumsal bilişim ortamlarında da uzun bir geçmişe sahip
- Son dönemde yapay zeka ve makine öğrenimi iş yüklerinin güç tüketiminin artmasıyla birlikte veri merkezlerinde sıvı soğutmanın önemi büyük ölçüde arttı
- Google, suyun ısı iletkenliğinin havaya göre yaklaşık 4.000 kat yüksek olmasına dikkat çekerek bunu en yeni çiplerin yüksek ısısına karşı bir çözüm olarak benimsedi
- Hot Chips 2025'te Google, TPU'ların (makine öğrenimi hızlandırıcıları) soğutulmasına yönelik veri merkezi ölçekli sıvı soğutma yaklaşımını tanıttı
Google'ın sıvı soğutma sistemi yapısı
- Google, 2018'den bu yana TPU'larda sıvı soğutma kullanıyor ve bu süreçte çeşitli deneyler ile iyileştirmeler yaptı
- En yeni soğutma çözümü, yalnızca sunucu içinde değil tüm rafta sıvı soğutma döngüsü uyguluyor
- Bir soğutma rafı, PC'lerdeki radyatör + pompa kombinasyonuna benzer işlev gören 6 adet CDU (Coolant Distribution Unit) biriminden oluşuyor
- Esnek hortumlar ve hızlı sökülebilir bağlantılar kullanılarak bakım kolaylığı ve kurulum toleransı iyileştiriliyor
- 6 CDU'dan yalnızca 5'inin çalışması bile yeterli soğutma sağladığından, bir birimde bakım yapılırken tüm sistemin durdurulması gerekmiyor
Isı değişimi ve çip yerleşimi
- CDU, iç soğutma sıvısı ile veri merkezinin dış besleme suyu arasında yalnızca ısı alışverişi yapıyor; iki sıvı doğrudan karışmıyor
- CDU'dan çıkan soğutma sıvısı, manifold üzerinden çok sayıda TPU sunucusuna dağıtılıyor
- TPU çip bağlantısı sıralı (seri) yapıda ve tüm soğutma bütçesi, döngüdeki son çipin ısı ihtiyacı temel alınarak hesaplanıyor
Soğutma teknolojisinin optimizasyonu
- Split-flow cold plate yapısı uygulanarak geleneksel doğrusal tasarıma kıyasla daha iyi soğutma performansı elde ediliyor
- Ayrıca bare-die soğutma (TPUv4, önceki TPUv3 ise lidded) kullanılıyor; bu, genellikle üst düzey PC meraklılarının ısı transfer verimini artırmak için yaptığı “delidding” işlemine benziyor
- TPUv4, v3'e kıyasla 1,6 kat daha yüksek güç tükettiği için bu ek soğutma yöntemlerine ihtiyaç duyuyor
Güç verimliliği ve ısı taşınımı
- Sıvı soğutma pompalarının güç tüketiminin, geleneksel hava soğutmalı fanların güç tüketiminin %5'inden az olduğu görülüyor
- Google'ın sistemi, water-to-water ısı değişimi yöntemi sayesinde gerçek soğutma gücünü büyük ölçüde pompalardan sağlıyor
- PC meraklılarının kullandığı ortamlarda çoğunlukla fan-radyatör kombinasyonu kaldığından, güç avantajı veri merkezlerindeki kadar büyük olmuyor
Bakım, güvenilirlik ve güvenlik
- Bakım açısından, mikrobiyal çoğalma veya sızıntı riski gibi sıvı soğutma sistemlerinin ortak riskleri veri merkezi ölçeğinde de mevcut
- Hızlı sökülebilir bağlantı parçaları, yedek CDU'lar ve benzeri bakım kolaylaştırıcı düzeneklerle kesinti olmadan büyük ölçekli yönetim hedefleniyor
- Önleyici bakım, sızıntı testleri, çeşitli anomali sinyallerinin tespiti ve sistematik müdahale protokolleriyle kurum genelinde tutarlılık ve güvenilirlik sağlanıyor
- Bu yaklaşım, bireysel PC meraklılarının gayriresmî bakım yöntemleriyle tezat oluşturuyor
Sektör eğilimleri ve yapay zeka rüzgarı
- NVIDIA ve Rebellions AI gibi şirketler de Hot Chips 2025 sergisinde çeşitli harici sıvı soğutma sistemleri sergiledi
- NVIDIA GB300 sunucusu: harici sıvı soğutma portları ile fanları birlikte konumlandırıyor
- Rebellions AI, Koreli bir şirket olarak yeni ML hızlandırıcısı REBEL Quad prototipini, soğutucu ve chiller'ı birleştiren benzer bir yöntemle gösterdi
- Yapay zeka iş yüklerindeki artışın, önümüzdeki dönemde de veri merkezlerine yönelik sıvı soğutma talebini ve benimsenmesini daha da hızlandırması bekleniyor
1 yorum
Hacker News yorumu
Bir zamanlar Azure veri merkezi kurulumlarını yöneten SVP ile yapılmış bir röportaj izlemiştim; bir noktada artık bilgisayar işinde değil, endüstriyel soğutma işinde olduğunu fark ettiğini ve bu sayede işin çok daha anlaşılır hale geldiğini söylüyordu. Bu yazıyı okurken aklıma hemen bu geldi.
Ana bilgisayarlar (S/3x0, Cray vb.) 50 yılı aşkın süredir yaygın biçimde su soğutma kullanıyor ve süper bilgisayar sınıfı HPC veri merkezleri de en az 20 yıldır sıvı soğutmadan yararlanıyor; bu yüzden Google ölçeğindeki veri merkezi tasarımını PC meraklılarının kullandığı soğutmayla kıyaslamak biraz tuhaf geliyor. Bu ya geçmişi unutmak ya da tamamen yanlış bir karşılaştırma örneği.
per-row cooling) bunun ana sebeplerinden biri olabilir.Teorik olarak veri merkezi soğutması basit. CPU'lar 60-70 derecede çalışıyor, dış ortam sıcaklığı da çoğunlukla 30 derecenin altında; yani fanlar ve pompaların biraz yardımıyla ısı doğal olarak “aşağı doğru akar”. Sorun şu ki hava soğutmada tesis çalışanları, bilgisayarları soğutmak için kullanılan aynı havayı solumak zorunda kalıyor. Soğutma sıcaklığı yükseldikçe bu çalışan sağlığı için iyi olmuyor. (Biz hot aisle'ları kışın bile 100F civarında çalıştırıyoruz ve her 3 rack'te bir, dış chiller suyuyla çalışan heat exchanger kurulu.) Dış sıcaklık yükseldikçe ısıyı bina dışına gerçekten atabilmek için soğutucu akışkanın sıcaklığının daha da yüksek olması gerekiyor ve chiller şart hale geliyor. Aşırı sıcaklarda enerji tüketimi de ciddi biçimde artıyor. Eğer tüm veri merkezi sıvı soğutmaya geçerse, rack'ten çıkan coolant sıcaklığını çok daha yukarı çekmek mümkün olabilir ve yılın en sıcak zamanlarında bile chiller olmadan ısı atılabilir gibi geliyor. Şu anda yalnızca bir kısmı sıvı soğutmalı ve coolant sıcaklığı hot aisle sıcaklığına göre sınırlandırılıyor; bu sıcaklık bile şimdiden oldukça sıcak hissettiriyor.
Yazıda TPU çiplerinin seri bağlanıp aynı soğutma döngüsünden geçirildiğinden ve kapasitenin son çipin sıcaklığına göre planlandığından bahsediliyordu. Dört çipin her biri 250W yayıyorsa ve pompa dakikada 1 litre su basıyorsa, girişe göre çıkışın zorunlu olarak 14 derece daha sıcak olması gerekir. Bu seri ya da paralel olmasına bakmaksızın aynıdır (suyun özgül ısısı nedeniyle).
Eskisi kadar Google altyapısından etkilenmiyorum. Google internet özgürlüğünü zedeleyen adımlar atmayı sürdürdükçe ona karşı sempatim ciddi biçimde azaldı. Artık onların kurduğu sıvı soğutma sistemi gibi şeyler de bende çok heyecan uyandırmıyor. Detaylara bağlı olarak zor bir mühendislik işi olabilir ama özel olarak çığır açıcı hissettirmiyor. Eğer bunu bir Google çalışanı okuyup kırılırsa, bunu kişisel değil Google'ın kendisiyle ilgili bir mesele olarak görsün. Güzel işler yapmak için başka yerlere bakmak da düşünülebilir.
B1M'de gördüğüm ilginç bir örnek aklıma geldi: Paris Olimpiyatları'ndaki yüzme havuzunun internetin ısısıyla ısıtıldığı söyleniyordu. YouTube videosu
Zaman zaman yapay zekanın su israf ettiğine dair şeyler görüyorum; bunun da öyle bir durum olup olmadığını merak ediyorum. Acaba CDU, tesisteki suyu evaporatif soğutma için kullanıyor mu bilen var mı?
Su soğutmanın ekonomisini merak ediyorum. Çipler pahalılaştığı ve daha hızlı çalıştırılmaları gerektiği için mi sıvı soğutma avantajlı hale geldi; yoksa veri merkezi alanı pahalı olduğu için yoğunluğu artırma ihtiyacından mı; ya da sinyal iletim mesafesini azaltmanın (1 feet = 1 nanosaniye) hesaplama verimine anlamlı katkısı olduğundan mı?
Teoride PC kullanıcıları da ısıyı taşıyan suyu tuvalet rezervuarında dolaştırarak, her sifonda verimli bir soğutma sağlayabilir. Gelecek tam da burada.
2006 ile 2012 arasında veri merkezlerinde sık sık çalıştım; çoğu kez gece geç saatte gitmem gerekirdi. Veri merkezleri insanların düşündüğünden daha zorlu ortamlardır. Keşke soğutma biraz daha sessiz ve daha az sert olsaydı. Portların ve benzeri şeylerin arka tarafta olmasının sebebi, hava girişinin tam da orada olması. Isınmak için sıcak tarafa gidip elleri ısıtmak zorunda kaldığımı hatırlıyorum.