4 puan yazan GN⁺ 2025-08-26 | 1 yorum | WhatsApp'ta paylaş
  • Sıvı soğutma, veri merkezlerinde yüksek güçlü çiplerin ısı sorununu çözmek için hızla yaygınlaşıyor
  • Havaya kıyasla yaklaşık 4.000 kat daha yüksek ısı iletkenliğine sahip olduğu için, özellikle yapay zeka patlamasıyla artan TPU soğutma talebine yanıt olarak Google tarafından aktif biçimde benimseniyor
  • Google, bakım kolaylığı ve ölçeklenebilirliği artırmak için CDU (Coolant Distribution Unit) tabanlı raf düzeyi sıvı soğutma döngüleri işletiyor
  • Split-flow soğuk plaka ve çıplak kalıp soğutma (TPUv4) gibi yüksek performanslı PC pazarındaki teknikler veri merkezi ölçeğine uygulanıyor
  • Sıvı soğutma, fanlara kıyasla %5'in altında güç tüketimiyle verimli; sızıntı ve mikrobiyal büyüme gibi sorunlara karşı Google kapsamlı doğrulama, uyarı sistemleri ve önleyici bakımı birlikte yürütüyor
  • NVIDIA ve Rebellions AI gibi şirketler de sıvı soğutmayı benimseyerek veri merkezi soğutmasında standartlaşma eğilimini hızlandırıyor

Sıvı soğutmanın gerekliliği ve arka planı

  • Sıvı soğutma, PC meraklıları arasında tanıdık bir teknoloji ve kurumsal bilişim ortamlarında da uzun bir geçmişe sahip
  • Son dönemde yapay zeka ve makine öğrenimi iş yüklerinin güç tüketiminin artmasıyla birlikte veri merkezlerinde sıvı soğutmanın önemi büyük ölçüde arttı
  • Google, suyun ısı iletkenliğinin havaya göre yaklaşık 4.000 kat yüksek olmasına dikkat çekerek bunu en yeni çiplerin yüksek ısısına karşı bir çözüm olarak benimsedi
  • Hot Chips 2025'te Google, TPU'ların (makine öğrenimi hızlandırıcıları) soğutulmasına yönelik veri merkezi ölçekli sıvı soğutma yaklaşımını tanıttı

Google'ın sıvı soğutma sistemi yapısı

  • Google, 2018'den bu yana TPU'larda sıvı soğutma kullanıyor ve bu süreçte çeşitli deneyler ile iyileştirmeler yaptı
  • En yeni soğutma çözümü, yalnızca sunucu içinde değil tüm rafta sıvı soğutma döngüsü uyguluyor
  • Bir soğutma rafı, PC'lerdeki radyatör + pompa kombinasyonuna benzer işlev gören 6 adet CDU (Coolant Distribution Unit) biriminden oluşuyor
  • Esnek hortumlar ve hızlı sökülebilir bağlantılar kullanılarak bakım kolaylığı ve kurulum toleransı iyileştiriliyor
  • 6 CDU'dan yalnızca 5'inin çalışması bile yeterli soğutma sağladığından, bir birimde bakım yapılırken tüm sistemin durdurulması gerekmiyor

Isı değişimi ve çip yerleşimi

  • CDU, iç soğutma sıvısı ile veri merkezinin dış besleme suyu arasında yalnızca ısı alışverişi yapıyor; iki sıvı doğrudan karışmıyor
  • CDU'dan çıkan soğutma sıvısı, manifold üzerinden çok sayıda TPU sunucusuna dağıtılıyor
  • TPU çip bağlantısı sıralı (seri) yapıda ve tüm soğutma bütçesi, döngüdeki son çipin ısı ihtiyacı temel alınarak hesaplanıyor

Soğutma teknolojisinin optimizasyonu

  • Split-flow cold plate yapısı uygulanarak geleneksel doğrusal tasarıma kıyasla daha iyi soğutma performansı elde ediliyor
  • Ayrıca bare-die soğutma (TPUv4, önceki TPUv3 ise lidded) kullanılıyor; bu, genellikle üst düzey PC meraklılarının ısı transfer verimini artırmak için yaptığı “delidding” işlemine benziyor
  • TPUv4, v3'e kıyasla 1,6 kat daha yüksek güç tükettiği için bu ek soğutma yöntemlerine ihtiyaç duyuyor
Reklam

Güç verimliliği ve ısı taşınımı

  • Sıvı soğutma pompalarının güç tüketiminin, geleneksel hava soğutmalı fanların güç tüketiminin %5'inden az olduğu görülüyor
  • Google'ın sistemi, water-to-water ısı değişimi yöntemi sayesinde gerçek soğutma gücünü büyük ölçüde pompalardan sağlıyor
  • PC meraklılarının kullandığı ortamlarda çoğunlukla fan-radyatör kombinasyonu kaldığından, güç avantajı veri merkezlerindeki kadar büyük olmuyor

Bakım, güvenilirlik ve güvenlik

  • Bakım açısından, mikrobiyal çoğalma veya sızıntı riski gibi sıvı soğutma sistemlerinin ortak riskleri veri merkezi ölçeğinde de mevcut
  • Hızlı sökülebilir bağlantı parçaları, yedek CDU'lar ve benzeri bakım kolaylaştırıcı düzeneklerle kesinti olmadan büyük ölçekli yönetim hedefleniyor
  • Önleyici bakım, sızıntı testleri, çeşitli anomali sinyallerinin tespiti ve sistematik müdahale protokolleriyle kurum genelinde tutarlılık ve güvenilirlik sağlanıyor
  • Bu yaklaşım, bireysel PC meraklılarının gayriresmî bakım yöntemleriyle tezat oluşturuyor

Sektör eğilimleri ve yapay zeka rüzgarı

  • NVIDIA ve Rebellions AI gibi şirketler de Hot Chips 2025 sergisinde çeşitli harici sıvı soğutma sistemleri sergiledi
    • NVIDIA GB300 sunucusu: harici sıvı soğutma portları ile fanları birlikte konumlandırıyor
    • Rebellions AI, Koreli bir şirket olarak yeni ML hızlandırıcısı REBEL Quad prototipini, soğutucu ve chiller'ı birleştiren benzer bir yöntemle gösterdi
  • Yapay zeka iş yüklerindeki artışın, önümüzdeki dönemde de veri merkezlerine yönelik sıvı soğutma talebini ve benimsenmesini daha da hızlandırması bekleniyor

1 yorum

 
GN⁺ 2025-08-26
Hacker News yorumu
  • Bir zamanlar Azure veri merkezi kurulumlarını yöneten SVP ile yapılmış bir röportaj izlemiştim; bir noktada artık bilgisayar işinde değil, endüstriyel soğutma işinde olduğunu fark ettiğini ve bu sayede işin çok daha anlaşılır hale geldiğini söylüyordu. Bu yazıyı okurken aklıma hemen bu geldi.

  • Ana bilgisayarlar (S/3x0, Cray vb.) 50 yılı aşkın süredir yaygın biçimde su soğutma kullanıyor ve süper bilgisayar sınıfı HPC veri merkezleri de en az 20 yıldır sıvı soğutmadan yararlanıyor; bu yüzden Google ölçeğindeki veri merkezi tasarımını PC meraklılarının kullandığı soğutmayla kıyaslamak biraz tuhaf geliyor. Bu ya geçmişi unutmak ya da tamamen yanlış bir karşılaştırma örneği.

    • bri3d'nin işaret ettiği nokta sayesinde, Google'ın bu örneğinin benim ilk başta anladığımdan daha az yeni olduğunu fark ettim. Yenilik noktası “su kullanılması” değil, sunucuları soğutan chiller'ın tesisin dışına kurulmuş olması. Çoğu ana bilgisayar da su soğutma ile iç ısıyı dışarı taşır, ardından heatsink veya fanlar bu ısıyı uzaklaştırır; Google ise bina içinde değil, tüm tesis için kullanılan dev chiller'larla doğrudan her sunucuya soğutucu sıvı dolaştırıyor. Geri dönen sıcak su da chiller kulesinde yeniden soğutuluyor. Pratikte hava tabanlı soğutma, chiller kulesi dışında tamamen devre dışı bırakılmış durumda. Bu sadece bazı sunucu veya rack'ler için değil, veri merkezinin tamamı için aynı anda yapılıyor. Chiller bakımı ya da pompa arızasında ne yaptıklarını merak ediyorum; kesintisizlik için muazzam bir yedeklilik vardır diye tahmin ediyorum. AWS de benzer bir sistem kurdu ve açıklayıcı görselleri daha net, bakmak isteyenler için: AWS veri merkezi sıvı soğutma yazısı
    • Google'ın ucuz, genel amaçlı donanım temelli bir geçmişi olduğu için bu değişim şaşırtıcı değil. Bir bakıma x86 sunucuların ana bilgisayar özelliklerini (sanallaştırma vb.) içine almasının onlarca yıl sürmesine benziyor. İlgili blog
    • Yazıda “sıvı soğutma, PC meraklılarına tanıdık ve kurumsal hesaplamada da eski bir kavram” deniyordu. Veri merkezlerinde de eğilim, sunucu düzeyinde pasif soğutma ve daha yüksek çalışma sıcaklıklarına doğruydu; ama bu örnek o eğilimi ciddi biçimde tersine çeviriyor. Muhtemelen satır bazlı soğutma (per-row cooling) bunun ana sebeplerinden biri olabilir.
    • HPC veri merkezlerinin 20 yılı aşkın süredir sıvı soğutma kullandığı söylendi ama bunun çoğunlukla rack kapısı gibi noktalarda uygulandığını sanıyordum. Gerçek doğrudan sıvı soğutma (DLC) ise sanki ancak son dönemde, 2. nesil sunuculardan itibaren gerçekten sunucunun içine girdi. Intel'in üst seviye CPU'ları yüzünden biraz zorunlu hale geldi. Mevcut veri merkezlerine eklemek de zordu ve baş ağrıtıyordu; sızdıran soğutma torbaları yüzünden birçok servis talebi açmıştım (üretici gizli).
    • Hiperscale veri merkezlerinin genelde güç yoğunluğunu en üst düzeye çıkarması gerekmez; yoğunluğu artırınca çeşitli sorunlar doğduğu için tasarımcılar çoğu zaman bunu özellikle istemez. Modern HPC kümelerinin yoğunluk takıntısı da aslında yanlış bir bakış açısı olabilir. Ama ML iş yüklerinde fiziksel olarak birbirine yakın yerleşim, interconnect verimliliği açısından gerçekten avantaj sağlar.
  • Teorik olarak veri merkezi soğutması basit. CPU'lar 60-70 derecede çalışıyor, dış ortam sıcaklığı da çoğunlukla 30 derecenin altında; yani fanlar ve pompaların biraz yardımıyla ısı doğal olarak “aşağı doğru akar”. Sorun şu ki hava soğutmada tesis çalışanları, bilgisayarları soğutmak için kullanılan aynı havayı solumak zorunda kalıyor. Soğutma sıcaklığı yükseldikçe bu çalışan sağlığı için iyi olmuyor. (Biz hot aisle'ları kışın bile 100F civarında çalıştırıyoruz ve her 3 rack'te bir, dış chiller suyuyla çalışan heat exchanger kurulu.) Dış sıcaklık yükseldikçe ısıyı bina dışına gerçekten atabilmek için soğutucu akışkanın sıcaklığının daha da yüksek olması gerekiyor ve chiller şart hale geliyor. Aşırı sıcaklarda enerji tüketimi de ciddi biçimde artıyor. Eğer tüm veri merkezi sıvı soğutmaya geçerse, rack'ten çıkan coolant sıcaklığını çok daha yukarı çekmek mümkün olabilir ve yılın en sıcak zamanlarında bile chiller olmadan ısı atılabilir gibi geliyor. Şu anda yalnızca bir kısmı sıvı soğutmalı ve coolant sıcaklığı hot aisle sıcaklığına göre sınırlandırılıyor; bu sıcaklık bile şimdiden oldukça sıcak hissettiriyor.

    • “CPU 60-70 derece, dışarısı da 30 derecenin altında, o halde ısı kendiliğinden akar” yaklaşımı doğru değil. Asıl mesele, CPU'nun çalışma gücünden ürettiği ısının dışarı aktarılması. Eğer termal empedans yüksekse CPU aşırı ısınır ve arızalanabilir.
    • 15 yıl önce IBM'in ETH Zurich'e kurduğu bir süper bilgisayar, 60 derecelik sıcak suyla soğutuluyordu ve radyatörler üzerinden doğrudan binanın sıcak su sistemine bağlanmıştı. Aquasar tanıtımı
    • Bir gün veri merkezi çalışanlarının, soğutma verimini en üst düzeye çıkarmak için ısı koruyucu kıyafetlerle içeri girmesi gerekip gerekmeyeceğini merak ediyorum.
  • Yazıda TPU çiplerinin seri bağlanıp aynı soğutma döngüsünden geçirildiğinden ve kapasitenin son çipin sıcaklığına göre planlandığından bahsediliyordu. Dört çipin her biri 250W yayıyorsa ve pompa dakikada 1 litre su basıyorsa, girişe göre çıkışın zorunlu olarak 14 derece daha sıcak olması gerekir. Bu seri ya da paralel olmasına bakmaksızın aynıdır (suyun özgül ısısı nedeniyle).

    • Seri bağlantıda son çipteki ısı transfer verimi, paralel bağlantıya göre daha düşük olabilir. Çünkü su son çipe geldiğinde başlangıca göre daha sıcaktır. Sıcaklık farkı daha küçük olduğundan ısı daha yavaş uzaklaşır.
    • Gerçekte seri ve paralel yapıda akış hızını farklı hesaplamak gerekir; mühendislik açısından pratikte fark yaratır.
    • Basıncı yeterince artırırsanız dakikada 1 litreden çok daha yüksek debi elde edebilirsiniz. Masaüstünde 18W olan şey, sunucu tarafında kabaca 10 katıdır.
    • Seri bağlantıda bazı çipler “aşırı soğutulmuş” olur ve en sıcak çipe göre tasarlamak için daha fazla soğutucu sıvı gerekir.
  • Eskisi kadar Google altyapısından etkilenmiyorum. Google internet özgürlüğünü zedeleyen adımlar atmayı sürdürdükçe ona karşı sempatim ciddi biçimde azaldı. Artık onların kurduğu sıvı soğutma sistemi gibi şeyler de bende çok heyecan uyandırmıyor. Detaylara bağlı olarak zor bir mühendislik işi olabilir ama özel olarak çığır açıcı hissettirmiyor. Eğer bunu bir Google çalışanı okuyup kırılırsa, bunu kişisel değil Google'ın kendisiyle ilgili bir mesele olarak görsün. Güzel işler yapmak için başka yerlere bakmak da düşünülebilir.

  • B1M'de gördüğüm ilginç bir örnek aklıma geldi: Paris Olimpiyatları'ndaki yüzme havuzunun internetin ısısıyla ısıtıldığı söyleniyordu. YouTube videosu

  • Zaman zaman yapay zekanın su israf ettiğine dair şeyler görüyorum; bunun da öyle bir durum olup olmadığını merak ediyorum. Acaba CDU, tesisteki suyu evaporatif soğutma için kullanıyor mu bilen var mı?

    • CDU veri merkezinin içine kurulur ve yalnızca rack coolant'ından tesis coolant'ına ısı aktarır. Dışarıda ise ısı değişim tesisi bulunur ve bu süreçte çoğu zaman cooling tower üzerinde su püskürtülerek evaporatif soğutma yapılır. Her veri merkezinde detaylar farklıdır ama tesis düzeyinde soğutma her zaman vardır. Yapay zekanın su “israf ettiği” yönündeki tartışma biraz yorucu geliyor; su sadece dolaşım sistemi içinde en verimli noktaya taşınıyor. Su maliyeti ve dışsallıklar piyasada gerçekten doğru yansıtılsa daha anlamlı bir tartışma olurdu. ABD'de sorun, suyun fiyatı, kullanım hakları ve gerçek faydası arasında sağlıklı bir bağ olmaması.
    • AWS de yakın zamanda benzer bir yazı yayımladı: AWS veri merkezi sıvı soğutma yazısı. Ama dışarı atılan sıcak suyun nasıl yeniden soğutulup tekrar kullanıldığına dair net anlatılmış bir örnek hâlâ görmedim; en çok merak ettiğim kısım bu.
    • Yapay zekanın su kullanımıyla ilgili somut rakamlar ya da ciddi tartışmalar neredeyse hiç yok; daha çok yolların arabalar tarafından kullanılması gibi, suyu “kullanıyor” denip geçiliyor. Bu da sanki su gerçekten boşa harcanıyormuş izlenimi veriyor. Eğer ortada net veri olsaydı, bu kadar muğlak imalarla yetinilmezdi diye düşünüyorum. Su gerçekten tüketiliyorsa, bunun anlamı içme suyu olarak kullanılamaz hale gelmesi, buharlaşıp gitmesi ya da çamur benzeri atıklara hapsolup geri kazanılamaması olur. Bunun gerçekten olup olmadığını ve gerçekten önemli bir sorun teşkil edip etmediğini bilmek istiyorum. Veri olmadan dolaşan anlamsız rakamlar sinir bozucu.
    • İlgili bir yazı var: Texas yapay zeka veri merkezleri ve su israfı meselesi
  • Su soğutmanın ekonomisini merak ediyorum. Çipler pahalılaştığı ve daha hızlı çalıştırılmaları gerektiği için mi sıvı soğutma avantajlı hale geldi; yoksa veri merkezi alanı pahalı olduğu için yoğunluğu artırma ihtiyacından mı; ya da sinyal iletim mesafesini azaltmanın (1 feet = 1 nanosaniye) hesaplama verimine anlamlı katkısı olduğundan mı?

    • Veri merkezinin toplam elektrik tüketiminin önemli bir kısmı soğutmaya gider. Sadece soğutma verimini artırmak bile doğrudan maliyet düşürür.
    • Kablolama mesafesinin etkisi aslında çok küçüktür. En iyi interconnect fabric'lerde bile ping-pong süresi (istek/yanıt gidiş-dönüşü) yaklaşık 1 mikrosaniye düzeyindedir; feet seviyesindeki mesafe farkları ise onlarca nanosaniye eder. Büyük bir kümede yoğunluğu iki katına çıkarsanız bile gidiş-dönüş sinyal gecikmesi yaklaşık 60 nanosaniye artar (toplam 1 mikrosaniyenin %6'sından az). Gerçek uygulamalarda büyük fark yaratmaz. Ama yoğunluk arttığında, backplane veya bakır konektörlerle daha fazla çipi doğrudan bağlamak daha kolay olabilir.
    • Pratikte sebep 2 ile 3'ün karışımı gibi. Çipler küçüldükçe daha fazla güç çekiyor ve daha çok ısınıyor; buna karşılık çok sayıda fan da ek güç tüketiyor. Sıvı soğutma, çipten sıvıya doğrudan ısı transferi sağladığı için fan, klima ve ilave hava dolaşımı maliyetlerini azaltıyor. ServeTheHome'un ilgili yazısına bakılabilir: Supermicro sıvı soğutmanın güç tüketimine etkisi analizi
    • Klasik hesaplama iş yükleri için emin değilim ama TPU gibi bellek ağırlıklı işlemlerde kablolama mesafesi farkının oldukça önemli olduğunu düşünüyorum.
    • Çiplerin ultra hızlı ağlarla birbirine bağlanması gerektiğinden, yoğunluğu artırmak önemli.
  • Teoride PC kullanıcıları da ısıyı taşıyan suyu tuvalet rezervuarında dolaştırarak, her sifonda verimli bir soğutma sağlayabilir. Gelecek tam da burada.

  • 2006 ile 2012 arasında veri merkezlerinde sık sık çalıştım; çoğu kez gece geç saatte gitmem gerekirdi. Veri merkezleri insanların düşündüğünden daha zorlu ortamlardır. Keşke soğutma biraz daha sessiz ve daha az sert olsaydı. Portların ve benzeri şeylerin arka tarafta olmasının sebebi, hava girişinin tam da orada olması. Isınmak için sıcak tarafa gidip elleri ısıtmak zorunda kaldığımı hatırlıyorum.