Google arıza #20013 (2020/12/14) raporu güncellemesi
(status.cloud.google.com)2020/12/18 güncellemesi (neden ve çözüm önlemleri eklendi)
#ROOT CAUSE
Geçen ekimden bu yana Google kullanıcı ID hizmetine yeni bir otomatik depolama tahsis sistemi devreye alınmıştı. Bazı hizmetler hâlâ eski kota sistemini kullanıyordu ve kullanım miktarını 0 olarak raporlayan bir soruna sahipti. 0 olarak raporlanmasının anlık bir etki yaratmamasının nedeni Expire süresinin hâlâ kalmış olmasıydı; bu süre dolduktan sonra User ID hizmetinin kotası azaltılınca arıza meydana geldi. İstenmeyen kota değişikliklerini doğrulamak için güvenlik kontrolleri vardı, ancak bunlar 0 senaryosunu ele almıyordu.
Hesap veritabanının kotası azaltıldı, Paxos leader yazamaz hâle geldi ve çoğu okuma işlemi de zaman aşımına uğrayınca kimlik doğrulama sorgularında hatalar oluştu.
#REMEDIATION AND PREVENTION
-
Küresel değişikliklerin hızlı şekilde uygulanmasını önlemek için kota yönetimi otomasyonunun gözden geçirilmesi
-
Yanlış yapılandırmaları hızlıca yakalayabilmek için izleme ve uyarıların iyileştirilmesi
-
İç araçların arızaya yol açtığı durumlarda dış iletişim için kullanılan araç ve süreçlerin dayanıklılığının artırılması
-
User ID hizmeti veritabanı için yazma hatalarına karşı dayanıklılık uygulanması
-
User ID hizmeti başarısız olduğunda veri alanı üzerindeki etkinin sıkı biçimde sınırlandırılması ve GCP hizmetlerinin dayanıklılığının iyileştirilmesi
- 14 Aralık'ta yaşanan arızaya ilişkin ayrıntılı rapor güncellendiği için okurken hızlıca çevirmeyi denedim. Hata varsa lütfen bildirin. Ayrıca GeekNews'i her zaman keyifle okuyorum; arızalarla ilgili ilginç içerikler olursa bırakmaya çalışırım.
Henüz yorum yok.