2 puan yazan GN⁺ 2023-11-05 | 1 yorum | WhatsApp'ta paylaş
  • 2-4 Kasım 2023 tarihleri arasında Cloudflare'ın kontrol düzlemi ve analiz hizmetlerinde kesinti yaşandı.
  • Kontrol düzlemi ağırlıklı olarak Cloudflare hizmetlerinin müşteriyle temas eden arayüzlerini içerirken, analiz hizmetleri loglama ve analiz raporlamasını kapsıyor.
  • Bu olay, Flexential veri merkezindeki bir elektrik arızası nedeniyle meydana geldi; söz konusu veri merkezi Cloudflare'ın en büyük analiz kümesini ve yüksek erişilebilirlik kümesinin kritik bir bölümünü barındırıyor.
  • Bu tür kesintileri önlemek için yüksek erişilebilirlik sistemleri kurulmuş olmasına rağmen, bazı kritik sistemlerin olay sırasında kullanılamaz hale gelmesine yol açan açıklanmamış bağımlılıkları vardı.
  • Cloudflare'ın kontrol düzlemi ve analiz sistemleri ağırlıklı olarak Oregon eyaletindeki Hillsboro çevresindeki üç veri merkezinde çalışıyor; bu merkezler bağımsız çalışacak ve biri çevrimdışı olsa bile hizmet vermeyi sürdürecek şekilde tasarlanmıştı.
  • Bu kesinti, bazı hizmetlerin, özellikle de yeni hizmetlerin, henüz yüksek erişilebilirlik kümesine eklenmemiş olduğunu ve loglama sisteminin de bu kümenin bir parçası olmadığını ortaya çıkardı.
  • Flexential veri merkezindeki elektrik arızası, binaya gelen bağımsız güç beslemelerini etkileyen plansız bir bakım olayı nedeniyle meydana geldi ve bunun sonucunda transformatörde toprak arızası oluştu.
  • Cloudflare kontrol düzleminin büyük bölümünü felaket kurtarma tesisinden geri yükleyebildi ve bu tesis çevrimiçi olduktan sonra müşterilerin büyük çoğunluğu ürünlerin çoğunda sorun yaşamamış olmalıydı.
  • Ancak diğer hizmetlerin geri yüklenmesi daha uzun sürdü ve bunları kullanan müşteriler olay tamamen çözülene kadar sorun yaşamış olabilir.
  • Cloudflare, olaydan çıkarılan dersler doğrultusunda değişiklikler uyguluyor; bunlar arasında çekirdek veri merkezlerine bağımlılığın kaldırılması, tüm çekirdek veri merkezleri çevrimdışı olsa bile kontrol düzlemi işlevlerinin sürmesinin güvence altına alınması ve tüm ürün ile özelliklerin yüksek erişilebilirlik kümesine dayanmasının ve güvenilir bir felaket kurtarma planına sahip olmasının zorunlu kılınması yer alıyor.
  • Şirket ayrıca tüm veri merkezi işlevleri için daha sıkı chaos testing uyguluyor, tüm çekirdek veri merkezlerini denetliyor ve loglama ile analiz için felaket kurtarma planı geliştiriyor.

1 yorum

 
GN⁺ 2023-11-05
Hacker News görüşleri
  • Cloudflare'ın büyük kesintisiyle ilgili makale, şirketin sorunu Flexential tedarikçisinin işlettiği bir veri merkezindeki elektrik arızasına bağladığını belirtiyor.
  • Bazı yorumcular, Cloudflare'ın suçu Flexential'e atmasını ve tedarikçiye dair gizli bilgileri açıklamasını eleştiriyor.
  • Kesintinin temel nedeninin, Cloudflare'ın tek bir veri merkezine bağımlı olması olduğu belirtiliyor; bazı yorumcular bunun Cloudflare'ın itibarı açısından utanç verici olduğunu düşünüyor.
  • Kurtarma süreci kesintinin kendisinden daha uzun sürdü ve bazı hizmetlerin tamamen geri dönmesi yaklaşık 30 saat aldı. Bunun nedeni birçok hizmetin birbirine bağımlı olmasıydı.
  • Bazı yorumcular, özellikle kurumsal müşteriler açısından, kesinti sırasında Cloudflare'ın iletişiminden memnun olmadıklarını dile getiriyor.
  • Sorunlara rağmen bazı yorumcular, Cloudflare'ın şeffaflığını ve olay sonrası raporun kapsamlılığını övüyor.
  • Bazı yorumcular, Cloudflare'ın yedeklilikteki başarısızlıkları ve kontrol düzleminin coğrafi dağıtım eksikliği konusunda endişelerini dile getiriyor.
  • Yorumcular ayrıca Cloudflare'ı tüm hizmetleri yüksek erişilebilirlikli kümelerde çalıştırmamak ve elektrik kesintisinin tüm olası senaryolarını test etmemekle eleştiriyor.
  • Bazı yorumcular, rapordaki insani unsuru takdir ediyor; Cloudflare'ın kurtarma sürecinde ek hataları önlemek için dinlenmeye ihtiyaç olduğunu kabul etmesini olumlu buluyor.
  • Yorumcular, veri merkezinin tamamen çevrimdışı durumdan kurtarılabilme yeteneğinin önemini vurguluyor ve Cloudflare'ı bu senaryoyu test etmemekle eleştiriyor.
  • Bazı yorumcular, yazının yapısına şaşırdıklarını ifade ediyor; gönderinin büyük kısmı üçüncü taraf tedarikçiyi tartışırken Cloudflare'ın kendi toparlanma çabalarına daha az odaklanıyor.