- 2-4 Kasım 2023 tarihleri arasında Cloudflare'ın kontrol düzlemi ve analiz hizmetlerinde kesinti yaşandı.
- Kontrol düzlemi ağırlıklı olarak Cloudflare hizmetlerinin müşteriyle temas eden arayüzlerini içerirken, analiz hizmetleri loglama ve analiz raporlamasını kapsıyor.
- Bu olay, Flexential veri merkezindeki bir elektrik arızası nedeniyle meydana geldi; söz konusu veri merkezi Cloudflare'ın en büyük analiz kümesini ve yüksek erişilebilirlik kümesinin kritik bir bölümünü barındırıyor.
- Bu tür kesintileri önlemek için yüksek erişilebilirlik sistemleri kurulmuş olmasına rağmen, bazı kritik sistemlerin olay sırasında kullanılamaz hale gelmesine yol açan açıklanmamış bağımlılıkları vardı.
- Cloudflare'ın kontrol düzlemi ve analiz sistemleri ağırlıklı olarak Oregon eyaletindeki Hillsboro çevresindeki üç veri merkezinde çalışıyor; bu merkezler bağımsız çalışacak ve biri çevrimdışı olsa bile hizmet vermeyi sürdürecek şekilde tasarlanmıştı.
- Bu kesinti, bazı hizmetlerin, özellikle de yeni hizmetlerin, henüz yüksek erişilebilirlik kümesine eklenmemiş olduğunu ve loglama sisteminin de bu kümenin bir parçası olmadığını ortaya çıkardı.
- Flexential veri merkezindeki elektrik arızası, binaya gelen bağımsız güç beslemelerini etkileyen plansız bir bakım olayı nedeniyle meydana geldi ve bunun sonucunda transformatörde toprak arızası oluştu.
- Cloudflare kontrol düzleminin büyük bölümünü felaket kurtarma tesisinden geri yükleyebildi ve bu tesis çevrimiçi olduktan sonra müşterilerin büyük çoğunluğu ürünlerin çoğunda sorun yaşamamış olmalıydı.
- Ancak diğer hizmetlerin geri yüklenmesi daha uzun sürdü ve bunları kullanan müşteriler olay tamamen çözülene kadar sorun yaşamış olabilir.
- Cloudflare, olaydan çıkarılan dersler doğrultusunda değişiklikler uyguluyor; bunlar arasında çekirdek veri merkezlerine bağımlılığın kaldırılması, tüm çekirdek veri merkezleri çevrimdışı olsa bile kontrol düzlemi işlevlerinin sürmesinin güvence altına alınması ve tüm ürün ile özelliklerin yüksek erişilebilirlik kümesine dayanmasının ve güvenilir bir felaket kurtarma planına sahip olmasının zorunlu kılınması yer alıyor.
- Şirket ayrıca tüm veri merkezi işlevleri için daha sıkı chaos testing uyguluyor, tüm çekirdek veri merkezlerini denetliyor ve loglama ile analiz için felaket kurtarma planı geliştiriyor.
1 yorum
Hacker News görüşleri