45°C soğutma tasarımıyla veri merkezlerinde su kullanımı neredeyse sıfıra indiriliyor
(blogs.nvidia.com)- AI sunucularının güç yoğunluğu arttıkça, soğutma veri merkezi maliyetleri ve su kullanımı açısından temel darboğaz haline geldi; NVIDIA ise Rubin neslinde soğutma sıvısını en fazla 45°C’de çalıştırabilen bir tasarım öne çıkarıyor
- Rubin nesli AI altyapısı, çiplerden ağ bileşenlerine kadar her şeyi fansız biçimde soğutan %100 sıvı soğutma yapısına sahip ve bunun merkezinde kapalı devre ile dry cooler’lar yer alıyor
- Uygun iklimlerde, geleneksel soğutma kulesi tabanlı sistemlerin yıllık megawatt başına kullandığı yaklaşık 2,6 milyon galon su neredeyse sıfıra indirilebiliyor; bu da en fazla %100 tasarruf anlamına geliyor
- 45°C’lik soğutma sıvısı çipten ısıyı emip yaklaşık 55°C olarak çıksa bile doğrulanmış çalışma sınırları içinde kalıyor; böylece sunucular soğuk havaya daha az bağımlı oluyor
- Tam sıvı soğutma; fanları, sıcak-soğuk koridorları ve hava soğutmalı altyapı için gereken alanı azaltırken raf yoğunluğunu artırarak artan AI hesaplama talebinin yarattığı soğutma maliyeti yükünü düşürmeyi hedefliyor
Rubin neslinde %100 sıvı soğutma
- NVIDIA’nın en yeni AI sunucuları, soğutma sıvısını en fazla 45°C, yani 113°F’de çalıştırabiliyor
- Rubin nesli NVIDIA AI altyapısı, tüm çipleri ve ağ bileşenlerini sıvıyla soğutarak %100 sıvı soğutma düzeyine ulaşıyor
- Sistemin hiçbir yerinde fan bulunmuyor
- Soğutma kapalı devre içinde gerçekleşiyor
- Bu yaklaşım, AI factory altyapı yığınının tasarım, kurulum ve işletimine yönelik en iyi uygulamaları içeren NVIDIA DSX AI factory referans tasarımına dahil edilmiş durumda
- Her nesilde watt başına hesaplama performansı artarken, tam sıvı soğutmalı AI hesaplama altyapısı hyperscale veri merkezlerinin soğutma için enerji tüketimini büyük ölçüde azaltabiliyor
Su ve elektrik kullanımını azaltan yapı
- NVIDIA DSX AI factory referans tasarımı, sıfır su tüketimini hedefliyor ve yüksek elektrik kullanımıyla birlikte neredeyse tüm su kullanımını azaltmayı amaçlıyor
- Dry cooler tabanlı tasarım, kapalı devre bir sistem olduğu için buharlaşmalı su soğutması kullanmıyor
- Bazı iklimlerde yıl boyunca yalnızca yaklaşık %1 oranında chiller gerekebiliyor
- Tarihsel olarak soğutma, veri merkezlerinin elektrik tüketiminin en fazla %40’ını oluşturdu
- Sektör tahminlerine göre chiller tesisi sıcaklığını 1°C artırmak, soğutma enerji maliyetini yaklaşık %4 azaltabiliyor
- 50MW ölçekli bir hyperscale tesis, sıvı soğutma altyapısına geçtiğinde soğutmayla ilişkili enerji ve su maliyetlerinde yılda 4 milyon doların üzerinde tasarruf sağlayabiliyor
- Uygun iklimlerde 45°C sıvı soğutma mimarisi, chillersız çalışmayı mümkün kılıyor ve geleneksel soğutma kulesi tabanlı sistemlerin yıllık megawatt başına yaklaşık 2,6 milyon galon olan su kullanımını neredeyse sıfıra düşürebiliyor
Soğuk veri merkezleri her zaman verimli değildir
- Sektörde uzun süredir soğuk veri merkezlerinin daha verimli olduğu yönünde bir algı vardı
- Gerçekte çipler, sezgilerin düşündüğünden çok daha sıcak ortamlarda da çalışabiliyor
- Tam sıvı soğutmalı çipe 45°C soğutma sıvısı girdiğinde, çip yüzeyinden ısıyı emerek yaklaşık 55°C olarak çıkıyor
- Bu süreçte performans düşmüyor
- Sıvı soğutmalı cold plate, cihaz sıcaklığını doğrulanmış çalışma sınırları içinde tutuyor
- Rafa giren soğutma sıvısı 45°C olsa bile işlemciler en yüksek performansta çalışmaya devam ediyor
- Sunucular soğuk havaya bağımlı olmadığından, veri merkezinin ortam hava sıcaklığı daha esnek biçimde ayarlanabiliyor
Fanların ve sıcak-soğuk koridorların azaldığı sunucu yapısı
- Geleneksel veri merkezleri, fan gürültüsüne ve sıcak-soğuk koridor yönetimine büyük ölçüde bağımlı
- Soğutma fanları toplam gürültüyü 85dB’nin üzerine çıkarabiliyor
- Bu seviye, kulak koruyucu ekipman gerektirecek kadar yüksek
- Rubin mimarisi, soğutmayı hava akışından çok sıvı devresine dayalı hale getiriyor
- Soğutma sıvısı, %75 su ve %25 propilen glikol karışımından oluşuyor
- Bu sıvı, doğrudan işlemcilerin üzerine yerleştirilen cold plate’lerden geçerek ısıyı kaynağında emiyor
- Soğutma sıvısının en fazla 45°C’de çalıştırılması, birçok iklimde mekanik chiller’lar ve gürültülü fanlar olmadan tesis devresinin ısıyı dışarı atabilmesini sağlıyor
- Uygun bölgelerde cooling distribution unit, ısıyı kaynağında yakalayıp bina dışındaki büyük radyatör serpantini biçimindeki dry cooler’lara gönderiyor
- Devre bir kez doldurulduktan sonra tesis ömrü boyunca kapalı durumda çalışıyor
- Geleneksel hava soğutmalı altyapıya kıyasla AI factory içinde kapladığı alan ciddi biçimde azalıyor
İklim koşulları ve atık ısının değerlendirilmesi
- Coğrafi koşullar önemli bir kısıt
- Scottish Highlands’taki bir veri merkezi ile Phoenix, Arizona’daki bir veri merkezinin soğutma gerçekliği aynı değil
- Daha sıcak iklimlerde bile 45°C soğutma sıvısı, chillersız işletmeye daha fazla yaklaşılmasını sağlıyor
- Yalnızca dış hava sıcaklığı nedeniyle gerekli olan birkaç günde chiller devreye girebiliyor
- Yeni AI factory modeli, atık ısı geri kazanımı olasılığı da sunuyor
- AI factory işletiminden çıkan fazla ısı, yakındaki ticari veya konut binalarının ısıtılmasında yeniden kullanılabiliyor
Tam sıvı soğutma için mühendislik değişimi
- Önceki sıvı soğutmalı sunucular hibrit yapıdaydı
- GPU ve CPU’lar cold plate kullanıyordu
- Sistemin geri kalanı ise kanatlı heatsink’lere ve hava soğutmaya dayanıyordu
- Tam sıvı soğutmalı sunucularda, bu bileşenlerin soğutma yönteminin sıvı tabanlı olacak şekilde yeniden tasarlanması gerekti
- NVIDIA’nın termal mühendislik ekibi, çok sayıda yüksek güçlü çipe sıvı ulaştırma yöntemini basitleştirdi
- Kart üzerindeki birden fazla çipe sıvı, tek giriş ve tek çıkış ile yönlendiriliyor
- Böylece daha temiz bir tray düzeyinde soğutma mimarisi elde ediliyor
- Sunucunun dış yapısı ve kurulum yoğunluğu da değişiyor
- Rubin sunucuları, hava soğutmalı sunuculardaki delikli bezel yerine temiz ve kapalı bir ön panele sahip
- Tam sıvı soğutmalı sunucular, hava soğutmalı sunuculara göre daha yüksek raf yoğunluğuna izin veriyor
- Daha önce 6U yer kaplayan bir sistem 2U’ya sığabiliyor; böylece daha az alan ve gürültüyle daha fazla hesaplama gücü sunuluyor
AI altyapısının büyümesi ve soğutma verimliliği
- AI iş yükleri hafiflemiyor
- Veri merkezi inşasını yönlendiren hesaplama talebi, altyapı yatırımının neredeyse tüm kategorilerinden daha hızlı artıyor
- Hesaplamanın soğutulma biçiminde verimlilik iyileştirmeleri olmazsa, büyük ölçekli AI operasyonlarının enerji maliyetleri donanım artışıyla birlikte büyüyor
- En fazla 45°C sıvı soğutma, donanım ölçeklenmesi ile soğutma maliyetleri arasındaki farkı daraltan bir araç haline geliyor
1 yorum
Hacker News görüşleri
“Dış havanın istikrarlı biçimde serin olduğu bölgeler” şartı tam da işin açığı
Kulağa, “soğuk yerlere veri merkezi kurup soğutma kaynaklarından tasarruf edelim, atık ısıyı da olduğu gibi çevreye salıp kirlilik yaratalım” demek gibi geliyor
Nvidia’nın gerçekten iyi bir şey yaptığına az kalsın inanacaktım
Düşük sıcaklık, geniş boş alanlar, büyük çevresel sorunların nispeten az olması ve olsa bile itiraz edecek fazla vatandaş bulunmaması
Soğutma için daha fazla su gerekirse eriyen buzdan da yeterince sağlanabilir gibi görünüyor
Bedava ısıtma kulağa kötü gelmiyor
Linus da artan CPU ısısıyla havuzunu ısıtıyor
Esas mesele korkmadan akıllıca kullanmak; yapay zeka ve veri merkezleri kalıcı olacaksa, onlarla kavga etmek yerine atık ısıyı gelire çevirmek mümkün olabilir
Nükleer santral atık ısısının sorun olduğuna dair sadece, soğutma suyunun denize değil doğrudan nehre verildiği durumları duydum
Örneğin konut ısıtmasında kullanılabilir
İlginç bir sinerji ortaya çıkıyor: bölgesel ısıtma
45°C düşük bir değer olsa da bölgesel ısıtma dolaşım ağı için kullanılamayacak kadar düşük değil ve veri merkezi ısıyı ücretsiz verirse yerel topluluk için oldukça iyi bir teklif olabilir
Yakındaki bir veri merkezinin topluma değeri neredeyse sıfırdan yılda milyonlarca dolara kadar çıkabilir
Yaz hâlâ sorun, ama ilginç çözümler de mümkün
Jeolojik koşullar uygunsa, yazın yer altı boşluklarını ısıtıp kışın bu ısının bir kısmını geri almak mümkün olabilir gibi görünüyor
Birçok iklim kuşağında, insanlar çatı pencerelerini aptalca kullanmadığı sürece yıllık soğutma maliyeti yerine ısıtma maliyeti çok daha yüksektir [0]
[0] Kabaca hesaplandığında, iletim ve hava değişimi kaynaklı ısıtma-soğutma yükü iç ve dış ortam sıcaklık farkıyla orantılıdır
Kışın dış ortam sıcaklığının -10°F ile 30°F arasında olması nadir değildir; bu da 70°F iç ortamla 40 ila 80°F fark anlamına gelir
Buna karşılık bu iklimlerde yazın dış ortam sıcaklığı nadiren 95°F’yi aşar ve çoğu zaman daha düşüktür; dolayısıyla soğutma farkı 15 ila 25°F düzeyindedir
Isı pompaları da sıcaklık farkı küçüldükçe daha verimli olur
Radyant ısıtma ise bambaşka bir konudur
Yeni yapılarda genelde ısı pompası tercih ediliyor [1]
Mäntsälä’daki 75MW veri merkezi 10 yıldır kasabanın ısıtmasının 2/3’ünü, yani 2.500 haneye denk gelen kısmını sağlıyor [2]
Isı pompaları gerçekten etkileyici
Mevsimsel ısı depolama da zaten kullanılan bir teknoloji ve Espoo yakınlarında onlarca GWh ölçeğinde depolama var; ayrıca 90GWh’lik yeni bir mağara deposu da yapım aşamasında
Bu sistemlerin birbirine bağlı olup olmadığını bilmiyorum
Yazıda bu mühendislik sorununun daha önce hiç çözülmediğinin söylenmesi de ilginç
Google, çipleri eskisine göre daha sıcak çalıştırma yaklaşımında öncü olmuştu ve tüketici PC’lerinde sıvı soğutma da çok uzun zamandır var
En az 30 yıldır
Yeni görünen taraf, tüm çiplerin dolaşım devresine bağlanmış olması; ama PSU’yu nasıl ele aldıklarını bulamadım
Ve geri dönüş de 45°C’nin altında olacak şekilde tasarlanmış olabilir
Soğuk kışları olan Kuzey Yarımküre’nin büyük bölümündeki veri merkezlerinde de muhtemelen benzer durum vardır
Benim kaçırdığım bir şey olabilir ama burada yeniliğin ne olduğunu pek anlamıyorum
Normalden daha yüksek sıcaklıkta sıvı soğutucu kullanıldığını anlıyorum, ama bunun neden daha önce yapılamadığını anlamıyorum
Makaledeki karşılaştırmalar çoğunlukla hava soğutmalı veri merkezlerini baz alıyor; peki diğer sıvı soğutmalı veri merkezleriyle karşılaştırınca durum ne
Önceki veri merkezi tasarımlarında da birileri gerekli çalışma sıcaklığını, enerji kullanımını, ortaya çıkan ısı miktarını vb. hesaplamış olmalı
Düzenleme: Az önce şu kısmı gördüm
“Mevcut sıvı soğutmalı sunucular hibritti. GPU ve CPU’lara cold plate takılıydı ama sistemin geri kalanı hava soğutmalıydı ve kanatçıklı ısı emiciler, hareket eden havayla ısıyı uzaklaştıracak şekilde tasarlanmıştı. Tamamen sıvı soğutmalı sunucularda bu bileşenlerin soğutulması sıvı tabanlı olacak şekilde baştan tasarlanmak zorundaydı.”
Geri kalanı daha çok pazarlamaya benziyor
Cray süperbilgisayarları zaten 1980’lerde akışkan soğutma kullanıyordu; inert sıvı tüm kart boyunca akıyordu
Oradan biraz daha yukarı çıkmak aşırı heyecan verici olmasa da yine de yenilik sayılabilir
Soğutma maliyeti ile arıza oranı ve sermaye harcaması arasında bir ödünleşim var
Bu parçalar kolayca 100°C’nin üstüne çıkabildiği için, dolaşım devresinin 55°C’de kararlı kalmasını sağlamak ciddi iş gerektirir
Yenilik, veri merkezinin çeşitli bölümlerine soğutucunun sıcaklığı kontrol etmek için ne kadar hızlı ve ne kadar fazla akıtılabildiğinde olabilir
Elbette tüm bileşenlerin fansız tasarımla uyumlu olacak şekilde yeniden tasarlanması da buna dahil
Nvidia’nın eskisine göre çok daha dikey entegre hale gelmesi sayesinde mümkün olmuş gibi görünüyor
Ama en yeni yaklaşım, su kullanıp boşaltma yönünde yerleşmiş görünüyor
Veri merkezleri de diğer sanayi tesisleri gibi, istediklerini yapabilecekleri şehir, county ya da eyaletleri bulup rahatlarına göre çalıştırıyor ve bu tek yolmuş gibi alışılıyor
Birçok yerel topluluk tepki gösterip çevresel zarardan şikâyet etse de bunlar görmezden gelindi; ama konu teknik şartname olursa kabul görebilir
“Elverişli iklimlerde Nvidia’nın 45 derecelik sıvı soğutma mimarisi…” deniyor ama tabii ki Greenland dışında elverişli iklimin ne olduğunu merak ediyorum
Yazıda dış sıcaklık ile verimlilik/maliyet arasındaki ilişki çok yetersiz anlatılmış
Kabaca bir açıklama bile olsa iyi olurdu
Almanya’da hava sıcaklığı epey yükselebiliyor ama teknik ekiptekilerin söylediğine göre yalnızca sıcaklık 30’ların sonuna geldiğinde aktif soğutma, yani klima tipi soğutma gerekiyor
Teknolojinin kendisi oldukça ilginç
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
45°C çıkış suyu sıcaklığını garanti etmek için dış havanın kabaca 37°C veya altında olması gerekir
Çoğu yerde yılın bazı zamanlarında yine de soğutma kulesi ya da kompresör gerekir; yani ilgili altyapının tamamını kurmak zorundasınız
Yine de sadece kullanım miktarını azaltmak bile sudan ya da enerjiden büyük tasarruf sağlayabilir
Örneğin London’ın dışını oldukça ılıman sanabilirsiniz ama muhtemelen sadece bu hafta bile ek soğutma gerekmiştir
Buradaki veri merkezlerinde soğutma sistemleri dış sıcaklık 40°C’yi aşsa bile dayanacak şekilde tasarlanıyor; artık bu değer muhafazakâr bir varsayım da değil
Ayrıca Nvidia 45°C su beslemesinden memnun olsa bile, 35°C gibi daha düşük sıcaklıklarda donanım ömrü daha uzun olabilir
GPU’lar pahalı ve kullanım ömrünü uzatmak, biraz daha fazla su ya da enerji harcamaktan daha değerli olabilir
Pratikte AI işlem ekipmanının “yanında” depolama sunucuları, ek CPU işlem ekipmanı ve ağ anahtarları gibi hava soğutmalı sistemler de bulunma ihtimali yüksek
Bu yüzden ayrı alan ve soğutma sistemleri gerekebilir
Yine de bu büyük bir ilerleme
Bunu okuyunca da neden atılım olduğunu anlamıyorum
Çoğu ticari ve endüstriyel soğutma uygulamasında zaten bulunan kapalı soğutma dolaşım devresiyle aynı gibi görünüyor
Makalede, uygun iklimlerde su/glikol dolaşım devresinin ısısını dışarıdaki radyatörlerle atabileceğiniz söyleniyor
O zaman kutuplar dışındaki yerlerde hâlâ yoğuşmalı dolaşım devresi gerektiği anlamına gelmiyor mu
Benim kaçırdığım ne
NASA Ames Research Center’daki Modular Supercomputing Facility, elektrik ve su kullanımı açısından çok verimli
Bu tesiste klima kullanılmıyor
Bildiğim kadarıyla çipler sıvı soğutmalı ve giriş suyu sıcaklığı da epey yüksek. Sanırım 90°F civarında
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
ABD ordusu ve NASA artık metrik sistemi kullanmıyor mu
Korkunç derecede yapay zeka yazısı gibi duran metinden hayal kırıklığına uğrayanlar için özet geçeyim: Bu, tamamen sıvı soğutmalı veri merkezi tasarımı hakkında bir yazı.
Sunucu soğutmanın yaygın yöntemi, masaüstü ya da dizüstü bilgisayarlarda olduğu gibi sıcak donanıma bir ısı emici takıp havayla soğutmaktır.
Donanım daha yoğun ve daha güçlü hale geldikçe daha büyük ısı emicilere ve daha soğuk havaya ihtiyaç duyulur.
Bir noktada alan kısıtları yüzünden ısı emiciyi daha fazla büyütemezsiniz; gürültü ve verimlilik yüzünden de havayı daha hızlı üfleyemezsiniz.
Sonra giriş havasını soğutmak için suyu buharlaştıran soğutucuları çalıştırmaya başlarsınız.
Kaçınmak istediğimiz devasa su tüketimi işte burada ortaya çıkar.
Bir sonraki adım doğal olarak sıvı soğutmadır.
Bu da üst düzey oyuncu masaüstülerine benzer.
Alanın kısıtlı olduğu içeride, küçük bir ısı eşanjörüyle çok miktarda ısı sıvı ortama aktarılır; dışarıda ise soğutma sıvısı ile dış hava arasındaki sıcaklık farkı küçük olsa bile devasa bir ısı eşanjörüyle ısı dışarı atılabilir.
Bu makale, CPU, GPU, bellek ve ağ bileşenleri dahil her şeyi tamamen sıvı soğutmalı yapan bir sistem hakkında.
Asıl harika kısmı da bu.
Buna ek olarak bu çözüm, soğutma sıvısını oldukça sıcak çalıştırabilecek şekilde optimize edilmiş.
Bu, donanım tarafındaki ısı akısını sınırlar ama dış ısı eşanjörünün “kuru” çalışmasına izin vererek suyun gizli ısısını boşa harcamamayı sağlar.
Başka pek çok kullanım alanıyla kıyaslandığında veri merkezi su kullanımı zaten neredeyse sıfıra yakındı.
Zaten baştan PR ya da imaj sorununa daha yakın bir şeyi “sorun çözümü” diye sunup büyük tantanayla buna bu kadar çaba harcandığını görmek her zaman moralimi bozuyor.
Neden özellikle 45°C ve neden sıvı soğutma?
Her şeyi oda sıcaklığına ya da biraz serin havaya göre tasarlamak garip bir tercih gibi geliyor.
Zaten yaklaşık 290K~300K civarındayız; şimdi mesele 320K ya da 330K’de de düzgün çalışabilmesi değil mi?
Neden doğrudan 200°C civarında çalışacak şekilde tasarlayıp, ortam havasını içeri basan serbest soğutma kullanmıyoruz diye merak ettim.
Veri merkezleri neden tavuk kümesine benzemiyor?
Bir şeyler eriyor mu?
Yüksek sıcaklıkta başka tür hatalar mı daha fazla oluyor?
Çok az ek enerji aldıklarında yalıtkandan iletkene dönüşebilen malzemelerdir.
Buna karşılık iyi bir yalıtkan, iletmeye başlamadan önce yanar ya da plazmaya dönüşür.
Enerji sonuçta enerjidir; ortam ısısı yeterince yükseldiğinde, küçük bant aralığı nedeniyle elektronları daha yüksek yörüngelere itebilir.
Bu normal ortam sıcaklıklarında da olur ama elektronlar çok uzağa gidemez ve sayıları fazla değildir.
200°C’de kapalı bir kapı elektron hareketini yeterince engelleyemez.
Kabaca el sallayarak yapılmış teknik açıklama bu; ayrıca YouTube’daki Project in Flight kanalında yarı iletkenlerin nasıl çalıştığını iyi anlatan bir video var.
Yarı iletkenlerin elektriksel özellikleri sıcaklıkla birlikte büyük ölçüde değişir.
Tamamen farklı çipler ve tamamen farklı bir üretim süreci gerekir.