- Sıvı soğutma, veri merkezlerinde yüksek güçlü çiplerin ısı sorununu çözmek için hızla yaygınlaşıyor
- Havaya kıyasla yaklaşık 4.000 kat daha yüksek ısı iletkenliğine sahip olduğu için, özellikle yapay zeka patlamasıyla artan TPU soğutma talebine yanıt olarak Google tarafından aktif biçimde benimseniyor
- Google, bakım kolaylığı ve ölçeklenebilirliği artırmak için CDU (Coolant Distribution Unit) tabanlı raf düzeyi sıvı soğutma döngüleri işletiyor
- Split-flow soğuk plaka ve çıplak kalıp soğutma (TPUv4) gibi yüksek performanslı PC pazarındaki teknikler veri merkezi ölçeğine uygulanıyor
- Sıvı soğutma, fanlara kıyasla %5'in altında güç tüketimiyle verimli; sızıntı ve mikrobiyal büyüme gibi sorunlara karşı Google kapsamlı doğrulama, uyarı sistemleri ve önleyici bakımı birlikte yürütüyor
- NVIDIA ve Rebellions AI gibi şirketler de sıvı soğutmayı benimseyerek veri merkezi soğutmasında standartlaşma eğilimini hızlandırıyor
Sıvı soğutmanın gerekliliği ve arka planı
- Sıvı soğutma, PC meraklıları arasında tanıdık bir teknoloji ve kurumsal bilişim ortamlarında da uzun bir geçmişe sahip
- Son dönemde yapay zeka ve makine öğrenimi iş yüklerinin güç tüketiminin artmasıyla birlikte veri merkezlerinde sıvı soğutmanın önemi büyük ölçüde arttı
- Google, suyun ısı iletkenliğinin havaya göre yaklaşık 4.000 kat yüksek olmasına dikkat çekerek bunu en yeni çiplerin yüksek ısısına karşı bir çözüm olarak benimsedi
- Hot Chips 2025'te Google, TPU'ların (makine öğrenimi hızlandırıcıları) soğutulmasına yönelik veri merkezi ölçekli sıvı soğutma yaklaşımını tanıttı
Google'ın sıvı soğutma sistemi yapısı
- Google, 2018'den bu yana TPU'larda sıvı soğutma kullanıyor ve bu süreçte çeşitli deneyler ile iyileştirmeler yaptı
- En yeni soğutma çözümü, yalnızca sunucu içinde değil tüm rafta sıvı soğutma döngüsü uyguluyor
- Bir soğutma rafı, PC'lerdeki radyatör + pompa kombinasyonuna benzer işlev gören 6 adet CDU (Coolant Distribution Unit) biriminden oluşuyor
- Esnek hortumlar ve hızlı sökülebilir bağlantılar kullanılarak bakım kolaylığı ve kurulum toleransı iyileştiriliyor
- 6 CDU'dan yalnızca 5'inin çalışması bile yeterli soğutma sağladığından, bir birimde bakım yapılırken tüm sistemin durdurulması gerekmiyor
Isı değişimi ve çip yerleşimi
- CDU, iç soğutma sıvısı ile veri merkezinin dış besleme suyu arasında yalnızca ısı alışverişi yapıyor; iki sıvı doğrudan karışmıyor
- CDU'dan çıkan soğutma sıvısı, manifold üzerinden çok sayıda TPU sunucusuna dağıtılıyor
- TPU çip bağlantısı sıralı (seri) yapıda ve tüm soğutma bütçesi, döngüdeki son çipin ısı ihtiyacı temel alınarak hesaplanıyor
Soğutma teknolojisinin optimizasyonu
- Split-flow cold plate yapısı uygulanarak geleneksel doğrusal tasarıma kıyasla daha iyi soğutma performansı elde ediliyor
- Ayrıca bare-die soğutma (TPUv4, önceki TPUv3 ise lidded) kullanılıyor; bu, genellikle üst düzey PC meraklılarının ısı transfer verimini artırmak için yaptığı “delidding” işlemine benziyor
- TPUv4, v3'e kıyasla 1,6 kat daha yüksek güç tükettiği için bu ek soğutma yöntemlerine ihtiyaç duyuyor
Güç verimliliği ve ısı taşınımı
- Sıvı soğutma pompalarının güç tüketiminin, geleneksel hava soğutmalı fanların güç tüketiminin %5'inden az olduğu görülüyor
- Google'ın sistemi, water-to-water ısı değişimi yöntemi sayesinde gerçek soğutma gücünü büyük ölçüde pompalardan sağlıyor
- PC meraklılarının kullandığı ortamlarda çoğunlukla fan-radyatör kombinasyonu kaldığından, güç avantajı veri merkezlerindeki kadar büyük olmuyor
Bakım, güvenilirlik ve güvenlik
- Bakım açısından, mikrobiyal çoğalma veya sızıntı riski gibi sıvı soğutma sistemlerinin ortak riskleri veri merkezi ölçeğinde de mevcut
- Hızlı sökülebilir bağlantı parçaları, yedek CDU'lar ve benzeri bakım kolaylaştırıcı düzeneklerle kesinti olmadan büyük ölçekli yönetim hedefleniyor
- Önleyici bakım, sızıntı testleri, çeşitli anomali sinyallerinin tespiti ve sistematik müdahale protokolleriyle kurum genelinde tutarlılık ve güvenilirlik sağlanıyor
- Bu yaklaşım, bireysel PC meraklılarının gayriresmî bakım yöntemleriyle tezat oluşturuyor
Sektör eğilimleri ve yapay zeka rüzgarı
- NVIDIA ve Rebellions AI gibi şirketler de Hot Chips 2025 sergisinde çeşitli harici sıvı soğutma sistemleri sergiledi
- NVIDIA GB300 sunucusu: harici sıvı soğutma portları ile fanları birlikte konumlandırıyor
- Rebellions AI, Koreli bir şirket olarak yeni ML hızlandırıcısı REBEL Quad prototipini, soğutucu ve chiller'ı birleştiren benzer bir yöntemle gösterdi
- Yapay zeka iş yüklerindeki artışın, önümüzdeki dönemde de veri merkezlerine yönelik sıvı soğutma talebini ve benimsenmesini daha da hızlandırması bekleniyor
Henüz yorum yok.