- EBS gp3'ün dayanıklılık göstergesi: AWS resmi belgelerine göre yıllık arıza oranı (AFR) %0,1 ~ %0,2 düzeyindedir. Tek bir disk bazında dayanıklılık %99,9 ile oldukça yüksek olsa da, altyapı ölçeği büyüdükçe olasılıksal risk birikir.
- Ölçeğe göre arıza yaşanma olasılığı:
- 1.000 disk işletildiğinde, 1 yıl içinde hiç arıza yaşanmama olasılığı yaklaşık %36,8'dir ($0.999^{1000}$).
- Yani istatistiksel olarak yaklaşık %63,2 olasılıkla en az 1 disk arızası yaşanır; bu da tasarım aşamasında sabit kabul edilmesi gereken bir risk düzeyidir.
- Depolama yapısına göre hayatta kalma oranının değişimi:
- Dağıtık yapı (Sharding/RAID 0): Tüm sistemin dayanıklılığı, tek tek bileşenlerin dayanıklılığının çarpımıyla ($R^n$) belirlenir. Disk sayısı arttıkça sistemin ayakta kalma olasılığı üstel olarak düşer.
- Çoğaltma yapısı (Mirroring/RAID 1): Her shard için arıza olasılığını karesine ($Q^2$) indirerek, aynı donanım kullanılsa bile tüm sistemin dayanıklılığı çarpıcı biçimde artırılabilir.
- Yönetim stratejilerinin ayrılması:
- Redundancy (RAID vb.): Fiziksel donanımın mekanik arızalarına karşı hizmet erişilebilirliğini ve dayanıklılığı korumaya yönelik strateji.
- Backup (S3 snapshot'ları vb.): Operatör hatası, yazılım bug'ları, ransomware gibi 'verinin mantıksal bozulması' durumlarını geri almanın tek yoludur. İkisi birbirinin yerine geçemez.
- Sonuç: Bulutun yönetilen hizmetlerinin yüksek kararlılık sunduğu doğru olsa da, bir sistemin nihai dayanıklılığı tek tek parçaların teknik özelliklerinden çok mühendisin mimari tasarım yeteneği tarafından belirlenir.
1 yorum
Yazıyı keyifle okudum. ^^
Para kısmamanız gereken son alan ama işte hehe