- Google’ın site güvenilirliği mühendisliğinin (SRE) 20 yıllık evrimine dair bir yazı
- Son 20 yılda Google’ın işlem gücü 1.000 kat, ağı ise 10.000 kat büyüdü
- SRE araçları, Python betiklerinden entegre hizmet ekosistemine ve güvenilirliği varsayılan olarak sunan birleşik bir platforma dönüştü
- Yazı, Google’ın 20 yıllık SRE deneyiminden öğrenilen 11 temel dersi vurguluyor
- Ders 1: Azaltma önlemlerinin riski, kesintinin ciddiyetine göre değişmeli
- Ders 2: Kurtarma mekanizmaları, acil durumdan önce tam olarak test edilmeli
- Ders 3: Tüm değişiklikler, geniş çaplı etkiyi önlemek için kademeli olarak uygulanmalı
- Ders 4: Tüm hizmet bağımlılıkları, istenmeyen durumları geri almak için bir "büyük kırmızı düğmeye" sahip olmalı
- Ders 5: Yalnızca birim testleri yeterli değildir; entegrasyon testleri de gerekir
- Ders 6: Kesinti sırasında, yedekler dahil çoklu iletişim kanalları zorunludur
- Ders 7: Hizmetler, olağanüstü durumlarda performansı bilinçli ve zarif biçimde düşürebilmeli
- Ders 8: Felaket dayanıklılığı ve kurtarma testleri, iş sürekliliği stratejisinin bir parçası olmalı
- Ders 9: Azaltma önlemleri, ortalama çözüm süresini (MTTR) azaltmak için otomatikleştirilmeli
- Ders 10: Uygun testlerle birlikte sık rollout yapmak, rollout’un ters gitme olasılığını azaltabilir
- Ders 11: Tek bir küresel donanım sürümü, tek hata noktasıdır; çeşitli altyapıyı korumak, tam kesintileri önleyebilir
- Bu dersler, Google’ın yıllar içinde yaşayıp öğrendiği gerçek olaylara dayanıyor
Henüz yorum yok.