5 puan yazan GN⁺ 2023-10-28 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Google’ın site güvenilirliği mühendisliğinin (SRE) 20 yıllık evrimine dair bir yazı
  • Son 20 yılda Google’ın işlem gücü 1.000 kat, ağı ise 10.000 kat büyüdü
  • SRE araçları, Python betiklerinden entegre hizmet ekosistemine ve güvenilirliği varsayılan olarak sunan birleşik bir platforma dönüştü
  • Yazı, Google’ın 20 yıllık SRE deneyiminden öğrenilen 11 temel dersi vurguluyor
  • Ders 1: Azaltma önlemlerinin riski, kesintinin ciddiyetine göre değişmeli
  • Ders 2: Kurtarma mekanizmaları, acil durumdan önce tam olarak test edilmeli
  • Ders 3: Tüm değişiklikler, geniş çaplı etkiyi önlemek için kademeli olarak uygulanmalı
  • Ders 4: Tüm hizmet bağımlılıkları, istenmeyen durumları geri almak için bir "büyük kırmızı düğmeye" sahip olmalı
  • Ders 5: Yalnızca birim testleri yeterli değildir; entegrasyon testleri de gerekir
  • Ders 6: Kesinti sırasında, yedekler dahil çoklu iletişim kanalları zorunludur
  • Ders 7: Hizmetler, olağanüstü durumlarda performansı bilinçli ve zarif biçimde düşürebilmeli
  • Ders 8: Felaket dayanıklılığı ve kurtarma testleri, iş sürekliliği stratejisinin bir parçası olmalı
  • Ders 9: Azaltma önlemleri, ortalama çözüm süresini (MTTR) azaltmak için otomatikleştirilmeli
  • Ders 10: Uygun testlerle birlikte sık rollout yapmak, rollout’un ters gitme olasılığını azaltabilir
  • Ders 11: Tek bir küresel donanım sürümü, tek hata noktasıdır; çeşitli altyapıyı korumak, tam kesintileri önleyebilir
  • Bu dersler, Google’ın yıllar içinde yaşayıp öğrendiği gerçek olaylara dayanıyor

Henüz yorum yok.

Henüz yorum yok.