Slack'in 2020-05-12 kesinti raporu
(slack.engineering)Slack'in ilk kez oldukça uzun süre boyunca tamamen kapandığı soruna dair açıklama
-
DB yapılandırma değişikliği dağıtımından sonra DB yükünü artıran bir performans hatası fark edildi ve birkaç dakika içinde geri alındı
-
Buna rağmen bu sorun web uygulaması autoscaling'ini tetikledi ve Hard Limit'ten daha fazla sayıda instance arttı
-
Bunun sonucunda load balancer içindeki host listesi güncelleme kısmında bir hata oluştu ve yeni instance'lar kaydedilemedi
→ HAProxy + Consul
-
8 saat geçtikten sonra host listesinde kalan instance'lar yalnızca en eskilerdi ve scale-down gerçekleşince eski instance'lar kapatıldı
-
Yeni instance'ların bunu devralması gerekiyordu ama load balancer host listesinde yeni instance'lar yoktu.
Henüz yorum yok.