1 puan yazan GN⁺ 2025-02-21 | 1 yorum | WhatsApp'ta paylaş

Hetzner hata ayıklaması: powerstat, sensors ve dmidecode ile sorun çözümü

  • Arka plan

    • Ubicloud, Hetzner'in AX162 sunucularını kullanıma aldı ancak ciddi güvenilirlik sorunları yaşadı.
    • AX162 sunucuları önceki modele göre daha yüksek performans sunuyor ve daha ucuzdu, ancak 16 kat daha sık çöküyordu.
    • Sorun ancak birden fazla donanım güncellemesinden sonra çözülebildi.
  • Sorunun ortaya çıkışı

    • İlk AX162 sunucusunun satın alınmasından 3 hafta sonra sunucu çökmesi yaşandı.
    • Sistem günlüklerinde NULL baytlar bulundu; bu, güç kaybı gibi ani bir arızaya işaret ediyordu.
    • Hetzner donanım kontrolü yaptı ancak herhangi bir anormallik bulamadı.
    • Çökme sıklığı artarken, Hetzner her donanım arızası tespit ettiğinde sunucuyu değiştirdi.
  • İlk inceleme

    • Sistem yükü: Yük arttığında sorunun ortaya çıkma olasılığının yükseldiği düşünüldü, ancak düşük yükte veya boşta da çökmeler yaşandı.
    • Sıcaklık: sensors kullanılarak sıcaklık ölçüldü, ancak çökme anındaki sıcaklıklar ortalamanın üzerinde değildi.
    • Arızalı bileşenler: dmidecode komutuyla donanım bilgileri toplandı, ancak çöken sunucularla çökmeyenler arasında büyük bir fark görülmedi.
    • Güç tüketimi: powerstat aracıyla güç tüketimi ölçüldü ve Hetzner'in güç kullanımını sınırlıyor olabileceğinden şüphelenildi.
  • Çökme oranı verilerinin toplanması ve karşılaştırılması

    • Donanım güvenilirliğini ölçmek için yıllık arıza oranı (AFR) kullanıldı.
    • AX162 sunucuları, diğer modellere göre 16 kat daha sık arızalanıyordu.
    • İlk çökmeden sonra sunucuların %80'i 24 saat içinde ikinci bir çökme yaşadı.
  • Yeni donanımla kararlılığın gözlemlenmesi

    • Hetzner, sorunlu bir anakart partisinin varlığını doğruladı ve değişim önerdi.
    • Yeni anakartla değiştirildikten sonra da çökmeler devam etti.
    • En güncel anakartla değiştirildikten sonra birkaç aylık izleme sonucunda çökme sorununun çözüldüğü görüldü.
  • Süreç iyileştirmeleri

    • Yeni bir sunucu modeli devreye alınırken kapsamlı inceleme yapılması gerekiyor.
    • Yeni donanım, önce kritik olmayan işlerden başlayarak kademeli şekilde devreye alınmalı.
    • Riski dağıtmak için daha fazla bare metal sağlayıcısı eklenmeli.
  • Sonuç

    • Hetzner sunucularının ilk devreye alınması sorunlara yol açtı, ancak sürekli iyileştirmelerle sorun çözüldü.
    • Ubicloud, güvenilir ve uyum sağlayabilen bulut çözümleri sunmak için çalışmayı sürdürecek.

1 yorum

 
GN⁺ 2025-02-21
Hacker News yorumu
  • Diğer AX modellerinin çoğunda da (AX42, AX52, AX102) birkaç ay sonra arızalanan ciddi güvenilirlik sorunları var. Bunun temelinde kusurlu bir anakart bulunuyor. Hetzner, belirli bir tarihten önce üretilmiş sunucuların anakartlarının çoğunu değiştirmek zorunda kalmalı
  • Önceki şirketimde Hetzner’da CPU fan arızalarıyla sık karşılaşıyorduk. Bu, olağan HDD/SSD arızalarına ek olarak yaşanıyordu. Kendi izleme sisteminizi kurmanız gerekiyor; yönetilmeyen sunucuların bulut instance’larından daha ucuz olmasının nedenlerinden biri de bu
  • Geriye dönüp bakınca, 6 ay bekleseydim birçok sorundan kaçınabilirdim
    • Bu çok iyi bir tavsiye ve kararlılık gereken tüm sistemlerde buna uyuyorum
    • Güvenlik sorunu yoksa birkaç ay bekliyorum ya da bir iki sürüm geriden gidiyorum
  • Hetzner, güç sınırlaması ihtimalini ne doğruladı ne de yalanladı
    • Güç sınırlamasının sonucu ne olur? Makaleye göre donanımın daha hızlı yıpranmasına yol açabiliyor
    • Hetzner’ın net bir yanıt vermemesi ve UbiCloud’un ölçümleri, gerçekten gücü sınırladıklarını düşündürüyor. Aksi olsaydı muhtemelen bunu açıkça söylerlerdi
  • Dell de zaman zaman bu sorunu yaşıyor. Eski sunucularının ilk partisini aldığımızda I/O (arka panel) bölümünü değiştirmek zorunda kalmıştık. Bu sorun çözüldükten sonra neredeyse 10 yıl çalıştılar
    • Bu sunucuları yakın zamanda emekliye ayırdım. RAID kartından güç regülatörüne kadar her şey yıpranmıştı
    • Yapılandırma değişikliği yüzünden sorunsuz çalışan bir sunucuyu yeniden başlatıp RAID kartını sonsuza kadar kaybetmek sarsıcı bir deneyim
  • Güç kısıtı altında makine sayısını artırmak için veri merkezi işletmecileri genelde makine başına güç kullanımını sınırlar. Ancak bu, anakartın daha hızlı yıpranmasına neden olabilir
    • Bunu açıklayabilecek biri var mı? Sezgilere ters geliyor
    • Arama sonuçlarına göre termal throttling’e çarpılırsa yüksek çalışma sıcaklığı bileşenleri (ör. kapasitörler) daha hızlı yıpratabiliyor. Ancak makale çeşitli sıcaklık sensörlerini incelemiş ve durumun bu olmadığını gösteriyor
  • Acaba bu bir güç/sinyal sorunu ya da VRM problemi olabilir mi diye merak ediyorum. CPU’nun sıcak olmaması, kartın diğer bölümlerinin spesifikasyon dışına çıkıp ölümcül arızalara yol açmadığı anlamına gelmez
    • Güç/sinyal kaynaklı anakart sorunlarını teşhis etmek zordur. Başka bileşenlerle ilgili bir sorun gibi görünürler ve gerçekten anakartı değiştirmeden önce her şeyi değiştirmiş olursunuz
  • Şu anda kullandığım AX102’de de benzer bir şey oldu. Ağ kartıyla ilgili bir sorun yüzünden çökme yaşanıyordu. Neyse ki Hetzner desteği donanım değişiminde yardımcı oldu. Çok sıkıntı yarattı ama donanım sorunlarını çözme konusunda iyi bir ders oldu
  • Veri merkezi deneyimi olan biri, Hetzner’ın anakart tedarikçisiyle nasıl bir ticari uzlaşmaya varmış olabileceğini tahmin edebilir mi? Tüm anakartları ücretsiz değiştirip tazminat aldıklarını varsayabilir miyiz?
  • Güç sınırlaması olup olmadığını varsaymadan önce, o sistemlerde hangi CPU governor’ın çalıştığını görmek isterim. Birçok varsayılan Linux kurulumu güç tasarrufu governor’ı ile gelir; bu da maksimum frekansı ve maksimum gücü sınırlar