2 Temmuz 2019 Cloudflare Kesintisi Raporu [Çeviri]
(ryanking13.github.io)Cloudflare’ın CTO’sunun olayın özetini ve alınan önlemleri derlediği; büyük ölçekli bir organizasyonda sorunların nasıl ortaya çıktığını ve bunlara nasıl müdahale edildiğini anlamayı sağlayan bir yazı
5 yorum
Orijinal metindeki appendix de ilginç. Soruna neden olan
.*.*=.*deseninin CPU’yu neden tükettiğine dair ayrıntılı bir açıklama da var; düzenli ifadeyi düzeltmek iyi olsa da alternatif olarak motoru değiştirmeyi düşünmeleri de anlamlı görünüyor.Harika bir kesinti raporu. Nasıl müdahale ettiklerini ayrıntılı biçimde anlatmaları başlı başına etkileyici, ama bunu sadece tek bir mühendisin hatası olarak görmeyip karmaşık nedenleri bulup tek tek çözmelerinden çıkarılacak çok ders var. Bir kesinti yaşanmış olsa da, sanki şirkete duyulan güven daha da artacak gibi.
Çok empati kuruyorum. Benim de, birden fazla nedeni işaret etmesinin etkileyici olduğunu düşünmüştüm. Bunu yalnızca tek bir mühendisin hatası olarak görmemek, bence çıkarılacak çok ders barındırıyor.
Aynen öyle. Belki de kesinti raporlarından sorumlu bir yönetici bile vardır? Sorunların kök nedenlerini bu kadar ayrıntılı bulup analiz edebilmeleri etkileyici, ama raporu da “bu kadar ayrıntılı yazmak gerekir mi” dedirtecek kadar iyi yazmışlar.
Bu yazıyı yazan Cloudflare CTO’su John Graham-Cumming zaten tanınmış bir blog yazarıdır. https://blog.jgc.org/