Hetzner hata ayıklaması: powerstat, sensors ve dmidecode ile sorun çözümü
-
Arka plan
- Ubicloud, Hetzner'in AX162 sunucularını kullanıma aldı ancak ciddi güvenilirlik sorunları yaşadı.
- AX162 sunucuları önceki modele göre daha yüksek performans sunuyor ve daha ucuzdu, ancak 16 kat daha sık çöküyordu.
- Sorun ancak birden fazla donanım güncellemesinden sonra çözülebildi.
-
Sorunun ortaya çıkışı
- İlk AX162 sunucusunun satın alınmasından 3 hafta sonra sunucu çökmesi yaşandı.
- Sistem günlüklerinde NULL baytlar bulundu; bu, güç kaybı gibi ani bir arızaya işaret ediyordu.
- Hetzner donanım kontrolü yaptı ancak herhangi bir anormallik bulamadı.
- Çökme sıklığı artarken, Hetzner her donanım arızası tespit ettiğinde sunucuyu değiştirdi.
-
İlk inceleme
- Sistem yükü: Yük arttığında sorunun ortaya çıkma olasılığının yükseldiği düşünüldü, ancak düşük yükte veya boşta da çökmeler yaşandı.
- Sıcaklık:
sensorskullanılarak sıcaklık ölçüldü, ancak çökme anındaki sıcaklıklar ortalamanın üzerinde değildi. - Arızalı bileşenler:
dmidecodekomutuyla donanım bilgileri toplandı, ancak çöken sunucularla çökmeyenler arasında büyük bir fark görülmedi. - Güç tüketimi:
powerstataracıyla güç tüketimi ölçüldü ve Hetzner'in güç kullanımını sınırlıyor olabileceğinden şüphelenildi.
-
Çökme oranı verilerinin toplanması ve karşılaştırılması
- Donanım güvenilirliğini ölçmek için yıllık arıza oranı (AFR) kullanıldı.
- AX162 sunucuları, diğer modellere göre 16 kat daha sık arızalanıyordu.
- İlk çökmeden sonra sunucuların %80'i 24 saat içinde ikinci bir çökme yaşadı.
-
Yeni donanımla kararlılığın gözlemlenmesi
- Hetzner, sorunlu bir anakart partisinin varlığını doğruladı ve değişim önerdi.
- Yeni anakartla değiştirildikten sonra da çökmeler devam etti.
- En güncel anakartla değiştirildikten sonra birkaç aylık izleme sonucunda çökme sorununun çözüldüğü görüldü.
-
Süreç iyileştirmeleri
- Yeni bir sunucu modeli devreye alınırken kapsamlı inceleme yapılması gerekiyor.
- Yeni donanım, önce kritik olmayan işlerden başlayarak kademeli şekilde devreye alınmalı.
- Riski dağıtmak için daha fazla bare metal sağlayıcısı eklenmeli.
-
Sonuç
- Hetzner sunucularının ilk devreye alınması sorunlara yol açtı, ancak sürekli iyileştirmelerle sorun çözüldü.
- Ubicloud, güvenilir ve uyum sağlayabilen bulut çözümleri sunmak için çalışmayı sürdürecek.
1 yorum
Hacker News yorumu