Nvidia GH200 Sunucusunu 7.500 €'ya alıp masaüstüne dönüştürme örneği
(dnhkng.github.io)- Nvidia Grace-Hopper GH200 sunucusunu kişisel bir yapay zeka masaüstüne dönüştürme deneyiyle, 235B parametreli modeli yerel ortamda çalıştırabilecek düzeyde performans elde edildi
- Reddit'te 7.500 € karşılığında ikinci el bir GH200 sistemi satın alarak, veri merkezi için sıvı soğutmalı bir sunucuyu hava soğutmalı bir masaüstüye yeniden monte edildi
- Soğutma, güç ve sensör hataları nedeniyle GPU sıcaklığının 16,777,214°C olarak görünmesi, fan devresi hasarı, elle lehimle onarım gibi birçok donanım arıza giderme işlemi gerçekleştirildi
- Sonuç olarak 4 adet sıvı soğutucu, CNC işleme adaptörleri ve 3D baskı parçaları birleştirilerek stabil bir sistem tamamlandı
- Toplam maliyet yaklaşık 9.000 € olarak, tek bir H100 GPU fiyatından daha ucuza yüksek performanslı yapay zeka iş istasyonu kuruldu
Grace-Hopper sunucu satın alma ve teknik özellikler
- Reddit'in r/LocalLLaMA forumunda 10.000 € değerindeki bir GH200 sunucusu ilanı bulundu, pazarlık sonrası 7.500 € karşılığında satın alındı
- Yapılandırma: 2× Grace-Hopper Superchip, 2× 72 çekirdekli Grace CPU, 2× H100 GPU, 480 GB LPDDR5X, 96 GB HBM3, toplam 1.152 GB yüksek hızlı bellek
- NVLink-C2C bant genişliği 900 GB/s, güç tüketimi 1.000–2.000 W, 3.000 W PSU dahil
- Satıcı, Nvidia sunucularını masaüstüne dönüştürerek satan firma olan GPTshop.ai idi
- Sistem, ilk başta sıvı soğutmalı bir sunucunun hava soğutmalıya çevrilmiş bir “Frankenstein sistemi” şeklindeydi
- Dış görünümü pürüzlüydü, rack montajına uygun değildi ve 48V güç kaynağı takılıydı
Sunucunun sökülmesi ve temizlenmesi
- Sunucu şiddetli tozlanma durumundaydı ve 8 yüksek güçlü fan elektrik süpürgesi seviyesinde gürültü üretiyordu
- Evde kullanılamayacak kadar gürültülü olduğundan, sökülüp temizlenip yeniden monte edildi
- Ana kartın tamamı, birkaç litre izopropil alkol ile temizlendi, ardından ısıtmalı zemin üzerinde bir hafta kurutuldu
- Grace-Hopper modüllerinin iç durumunu görmek için sökülerek iç yapı incelendi
Sıvı soğutma sisteminin yeniden yapılandırılması
- Sızıntı riski nedeniyle özel blok yerine 4 adet Arctic Liquid Freezer III 420 AIO soğutucu kullanıldı
- GPU ve CPU die ölçümleri alındıktan sonra adaptör bloğu Fusion 360 ile tasarlandı
- Prototipler Bambu X1 3D yazıcı ile üretildi, ardından final parçalar CNC işleme ile tamamlandı
- İşlemden sonra kalan yağlar giderildi ve montaj tamamlanarak soğutma performansı sağlandı
Masaüstü montajı
- Çerçeve ProfilAlu alüminyum profil ile yapıldı, tasarım Fusion 360 ile hazırlandı
- Çeşitli PCB ve filtre montaj parçaları 3D baskı ile üretildi
- Yapının sağlamlığını artırmak için birkaç kilo filament kullanıldı
Temel sorunların ortaya çıkışı
- Fan güç bağlantısında ‘patlama’ sesi ve duman oluştu, bazı fan header devreleri hasar gördü
- Yanlış akım hesaplaması nedeniyle MOSFET hasarı tahmin edildi
- Fan gücü, ayrı bir 12V-5A adaptör ile değiştirildi
- Fan hatası nedeniyle BMC(Baseboard Management Controller) başlatma engellendi
phosphor-sensor-monitor.servicedevre dışı bırakılarak fan kontrolü atlandı
GPU sıcaklık hatası ve devre onarımı
- Önyükleme sırasında GPU sıcaklığı 16.777.214°C olarak göründü ve sistem otomatik olarak kapandı
- Bu değer, 24 bit tamsayı maksimumu (2²⁴-2), yani sensör sinyali hatası anlamına geliyordu
- Mikroskopla inceleme sonrası 100 nF kondansatör ve 4.7kΩ direnç hasarı tespit edildi
- Kıvamlı lehimleme ile devre onarıldı, UV maske ile sabitlendi
- Yeniden monte edildikten sonra normal önyükleme başarılı oldu
Son yapılandırma ve performans
- Ek olarak üretilmiş parçalar:
- 8 TB E1.S SSD montajı, 3 kW PSU arka paneli, radyatörü koruyan bir ızgara
- GPU başlatma sorunu NVLink devre dışı bırakma ayarı ile çözüldü
/etc/modprobe.d/nvidia-disable-nvlink.confdosyasınaNVreg_NvLinkDisable=1eklendi
Ölçüm sonuçları
- 144 çekirdekle Llama.cpp derlemesi 90 saniye sürdü, büyük model test sonuçları:
- gpt-oss-120b-Q4_K_M: prompt 2974.79, token 195.84
- GLM-4.5-Air-Q4_K_M: prompt 1936.65, token 100.71
- Qwen3-235B-A22B-Instruct: prompt 1022.79, token 65.90
- GPU başına yaklaşık 300W tüketim, azami değerine (900W) göre geniş bir marj var
Maliyet listesi
- Grace-Hopper sunucu 7.500 €, SSD 250 €, CNC adaptör 700 €, sıvı soğutucu 180 €
- Çerçeve 200 €, cam panel 40 €, 3D baskı malzemesi 40 €, diğer parçalar 50 €
- Temizlik için izopropil alkol 20 €, 12V güç 10 €, LED aydınlatma 10 €
- Toplam maliyet yaklaşık 9.000 €, tekil H100 GPU'dan daha ucuz
Sonuç
- 235B parametreli modeli yerel olarak çalıştırabilen bir masaüstü tamamlandı
- Veri merkezi sınıfı donanımı bireysel kullanıma dönüştürme sürecinde sensör hataları, devre hasarları, soğutma sorunları gibi birçok engel aşıldı
- Sonuçta yüksek performanslı yapay zeka araştırma iş istasyonu düşük maliyetle kurulmuş oldu
1 yorum
Hacker News yorumları
Veri merkezi sınıfı yapay zeka donanımı satın alıp sıvı soğutma → hava soğutma → yeniden sıvı soğutmaya dönüştürürken, GPU sıcaklığının 16 milyon derece olarak görünmesi gibi sayısız kriz yaşadıktan sonra, evde 235B parametreli modeli çalıştırabilen bir masaüstü sistemi tamamladım
Bu, pervasız kararların, yaratıcı problem çözmenin ve veri merkezi ekipmanını günlük kullanıma uyarlama girişiminin hikayesi
Bunu bulmam bir hafta sürdü ve Reddit sayesinde çözdüm. Bunun tüm veri merkezlerinde de yaşanabilecek bir sorun olup olmadığını merak ediyorum
Benim de benzer bir deneyimim oldu. 3 yıl boyunca oğlumla birlikte kullanabileceğimiz rack tipi bir oyun sunucusu kurmak istedim ama ev küçüktü ve eşim izin vermediği için ailemin evindeki 90kWp PV santrali ve rack sunucuyu kullandım
İki ay önce eBay'den 1.400 euroya bir Supermicro SYS-7049GP-TRT aldım; içini açınca içinde Nvidia V100S 32GB olduğunu gördüm. Onu 1.600 euroya satıp yerine iki Xeon 6254 CPU aldım. Sonra iki Blackwell RTX 4000 Pro alınca oğlumla oyun oynamak ve LLM denemeleri yapmak mümkün oldu
Bu kasa 4 çift GPU alabiliyor, yani bir gün dört RTX 6000'e çıkarıp toplam 384GB VRAM'e ulaşmak da mümkün olabilir. İkinci el kurumsal ekipman sağlam ve fiyat/performans açısından çok iyi olduğu için gerçekten keyifli bir hobi
7,5k euroluk 20kg sunucunun 5 euroluk bir IKEA LACK masa üstünde durması komik. LACK'in azami taşıma kapasitesi 25kg, o yüzden riskli görünüyor
“Gidip almak için iki saat araba sürdüm” sözü komik. Tam anlamıyla Your mileage may vary durumu
GPU'ları çalıştırma sürecinin çok sancılı olduğunu söyleyip, ardından gelen kaşifler için kurulum komutlarını bırakmış olması etkileyici
NVIDIA-Linux-aarch64 sürücüsünü kurmak gerekiyormuş; böyle akılla izahı zor komutları her gördüğümde “ben de oradan geçtim” hissi geliyor
Ciddi ciddi soruyorum, böyle bir ekipmanın gerçekten oyun performansı da iyi mi, merak ediyorum. Yapay zeka/ML için optimize edildiğinden, normal oyunlarda aslında çok da iyi çalışmıyor olabilir mi
Ayrıca “orman içindeki çiftliğe gittim” kısmında bunun tehlikeli olup olmadığını da merak ettim
Böyle yazılar gerçekten harika. Bu tür DIY başarı hikayeleri Hacker News'in en güzel yanı
Hâlâ iyi bir fırsat tabii ama bunu H100'ün sıfır fiyatıyla kıyaslamak biraz abartılı. Şu anda RTX 6000 Pro'yu 7-8 bin dolara almak mümkün ve performansı da benzer. Üstelik sıradan iş istasyonlarına da takılabiliyor. İkinci el kurumsal ekipmanda değer kaybı çok büyük
Blackwell, FP8'de H100'den iki kat hızlı ama karşılaştırma FP4 üzerinden yapıldığı için pratikte durum farklı. VRAM bant genişliği de HBM3 ile 4,9TB/s; bu da RTX 6000 Pro'nun 1,8TB/s değerinden 2,5 kat fazla
NVLink-C2C kartlar arasında 900GB/s sunuyor; bu da PCIe5'in yaklaşık 5 katı, dolayısıyla büyük LLM'lerde darboğazı azaltıyor
Örneğin GPT-OSS-120B benchmark'ında RTX 6000 Pro saniyede 145 token, GH200 ise 195 token üretiyor
Gerçek hayatta cyberpunk rüyasını yaşamak gibi. Böyle bir şeyi denemeye cesaret etmesi etkileyici
İkinci el kurumsal ekipman alınabilecek mağaza önerileri istiyorum. Çoğu Kaliforniya'da gibi görünüyor ama NY/NJ bölgesinde de var mı merak ediyorum