1 puan yazan GN⁺ 2024-05-26 | 1 yorum | WhatsApp'ta paylaş

Müşteriyi Etkileyen Yakın Zamandaki Olayın Ayrıntılarının Paylaşılması

Google Cloud müşteri desteği

  • Bu ayın başında, Avustralya'daki müşteri UniSuper'ı etkileyen bir Google Cloud olayı meydana geldi.
  • Olayın hemen ardından en yüksek öncelik, müşteriyle birlikte sistemleri tamamen geri yüklemekti.
  • Olay başladıktan kısa süre sonra, müşteriyle ortak bir açıklama yapılarak olay kamuoyu önünde kabul edildi.
  • Müşterinin sistemleri tamamen geri yüklendikten sonra, iç inceleme tamamlandı.
  • Olayın niteliğini netleştirmek ve şeffaflık adına doğru bir açıklama sunmak için bilgiler paylaşıldı.
  • Google Cloud, bu özel ve izole olayın tekrar yaşanmaması için önlemler aldı.
  • Bu olayın etkisi son derece üzücüydü ve müşteriye verilen rahatsızlıktan dolayı içtenlikle özür dilendi.

Etki kapsamı

Etkilenen teknolojiler ve hizmetler

  • Bu olay, Google tarafından yönetilen şu hizmetleri etkiledi:
    • Bir bulut bölgesindeki tek bir müşteri.
    • Bu müşterinin kullandığı Google Cloud hizmetlerinden biri olan Google Cloud VMware Engine (GCVE).
    • İki zone'a yayılan müşterinin birden fazla GCVE private cloud ortamından biri.

Etkilenmeyenler

  • Bu olay aşağıdakileri etkilemedi:
    • Diğer Google Cloud hizmetleri.
    • GCVE veya diğer Google Cloud hizmetlerini kullanan başka müşteriler.
    • Müşterinin diğer GCVE private cloud ortamları, Google hesapları, kuruluşları, klasörleri veya projeleri.
    • Aynı bölgede saklanan müşteri veri yedekleri (Google Cloud Storage).

Olayın nedeni

Özet

  • Müşteri için Google Cloud VMware Engine (GCVE) private cloud ortamının ilk dağıtımı sırasında, bir Google operatörü iç araç kullanarak GCVE hizmetini yanlış yapılandırdı. Bu, bir parametrenin boş bırakılması nedeniyle gerçekleşti.
  • Bunun sonucunda müşterinin GCVE private cloud ortamı sabit bir süreye ayarlandı ve bu sürenin sonunda otomatik olarak silinecek şekilde yapılandırıldı.
  • Olayın nedeni ve sistem davranışı düzeltildi ve bunun bir daha yaşanmaması için önlem alındı.
  • Bu olay, bu müşterinin tek bir GCVE private cloud ortamı dışında başka hiçbir Google Cloud hizmetini etkilemedi.
  • Diğer müşteriler bu olaydan etkilenmedi.

Ayrıntılı analiz

İstisna süreci kullanılarak yapılan dağıtım
  • 2023'ün başlarında, bir Google operatörü belirli kapasite yerleşimi gereksinimlerini karşılamak için müşterinin GCVE private cloud ortamlarından birini dağıtmak üzere bir iç araç kullandı.
  • Kapasite yönetimine yönelik bu iç araç 2023'ün 4. çeyreğinde kullanımdan kaldırıldı ve artık tamamen otomatik çalışıyor, insan müdahalesi gerektirmiyor.
Boş giriş parametresinin yol açtığı istenmeyen davranış
  • Google operatörü iç kontrol protokollerine uydu.
  • Ancak müşterinin private cloud ortamını provision ederken iç araçta bir giriş parametresi boş bırakıldı.
  • Bunun sonucunda sistem, o dönemde bilinmeyen varsayılan sabit 1 yıllık süre değerini bu parametreye atadı.
  • Sistemin atadığı 1 yıllık sürenin sonunda müşterinin GCVE private cloud ortamı silindi.
  • Silme işlemi, Google operatörünün iç aracı kullanırken parametreyi boş bırakmasının sonucu olduğundan müşteriye bildirim gönderilmedi.
  • Müşteri tarafından başlatılan bir silme işlemi ise ancak müşteriye bildirim gönderildikten sonra gerçekleşmiş olurdu.

Kurtarma

  • Müşteri ve Google ekipleri, müşterinin GCVE private cloud ortamını geri yüklemek, ağ ve güvenlik yapılandırmalarını yeniden kurmak, uygulamaları geri getirmek ve verileri kurtararak tam operasyonel duruma dönmek için birkaç gün boyunca 24 saat aralıksız birlikte çalıştı.
  • Bu, müşterinin güçlü ve dayanıklı mimari yaklaşımı sayesinde mümkün oldu.
  • Aynı bölgede saklanan Google Cloud Storage üzerindeki veri yedekleri silme işleminden etkilenmedi ve üçüncü taraf yedekleme yazılımıyla birlikte hızlı kurtarmada kritik rol oynadı.

Düzeltici önlemler

  • Google Cloud, bu olayın tekrar yaşanmaması için birden fazla önlem aldı:
    1. Bu olaya neden olan iç araç kullanımdan kaldırıldı. Bu bölüm artık tamamen otomatik hale getirildi ve müşteri tarafından kullanıcı arayüzü üzerinden kontrol edilebiliyor.
    2. Sistem veritabanı temizlendi ve diğer hiçbir GCVE dağıtımının risk altında olmadığından emin olmak için tüm GCVE private cloud ortamları manuel olarak incelendi.
    3. Bu dağıtım iş akışları için GCVE private cloud ortamlarını silinmek üzere ayarlayan sistem davranışı düzeltildi.

Sonuç

  • Google Cloud içinde bu nitelikte bir olay ilk kez yaşandı. Bu sistematik bir sorun değil.
  • Google Cloud hizmetleri soft delete, önceden bildirim ve insan müdahalesi gibi güçlü koruma mekanizmalarına sahip.
  • Bu koruma mekanizmalarının yürürlükte kalmaya devam ettiği doğrulandı.
  • Müşteriyle yakın iş birliği, hızlı kurtarma için kritik öneme sahip. Müşterinin CIO'su ve teknik ekibi, Google Cloud ekibiyle yakın çalışarak 24 saatlik kurtarma sürecini hızlı ve doğru biçimde yürüttükleri için takdiri hak ediyor.
  • Beklenmedik olaylar meydana geldiğinde hızlı toparlanma için güçlü ve dayanıklı risk yönetimi kritik öneme sahip.
  • Google Cloud, hâlâ dünyanın en dayanıklı ve güvenilir bulut altyapılarından birine sahip. Bu tek seferlik olaya rağmen, çalışma süresi ve dayanıklılığı bağımsız olarak doğrulandı.

GN⁺ görüşü

  • Olayın önemi: Bu olay, bulut hizmeti sağlayıcısının sorunları ne kadar hızlı çözdüğünün ve müşteriyle nasıl iş birliği yaptığının ne kadar önemli olduğunu gösteriyor.
  • Otomasyon ihtiyacı: İç araçların otomasyonunun ne kadar önemli olduğunu, özellikle insan hatasının sistem üzerinde büyük etki yaratabildiği durumlarda vurguluyor.
  • Müşteriyle iş birliği: Müşteriyle yakın çalışmanın sorun çözümünde ne kadar kritik olduğunu gösteriyor. Bu, güven inşası açısından da önemli bir unsur.
  • Veri yedeklemenin önemi: Veri yedeklerinin ne kadar önemli olduğunu, özellikle beklenmedik olaylarda hızlı kurtarma için vazgeçilmez olduğunu vurguluyor.
  • Gelecekteki önleyici adımlar: Google Cloud'un olayın tekrarını önlemek için aldığı önlemler, diğer bulut hizmeti sağlayıcıları için de iyi bir örnek olabilir.

1 yorum

 
GN⁺ 2024-05-26
Hacker News görüşü

Hacker News yorumları özeti

  • Sorunun çözümündeki derinliğe yönelik memnuniyetsizlik

    • Olayın etkisine kıyasla çözüm yeterince derin değil. Aynı sorunun tekrar yaşanmaması sağlandı, ancak benzer sorunların ortaya çıkma ihtimali hâlâ var. Hizmetin sonlandırılmasını/silinmesini sistematik olarak önlemek için ek önlemler gerekiyor.
  • GCP müşteri koruma önlemlerine dair soru

    • GCP müşterilerine, GCP’nin koruma önlemlerini TAM’e sormaları tavsiye ediliyor. GCP’de insan temelli koruma önlemleri neredeyse yok ve AWS’ye kıyasla çok daha az.
  • 24x7 çalışma ifadesine dair şüphe

    • "Google ekibi birkaç gün boyunca 24x7 çalıştı" ifadesi sorgulanıyor.
  • İlgili olaylar

    • UniSuper üyelerinin, Google Cloud’daki yanlış yapılandırma nedeniyle bir hafta boyunca hesaplarına erişemediği olay ile Google Cloud’un müşterinin hesabını yanlışlıkla sildiği olay anılıyor.
  • Google tarafındaki hataya dair şaşkınlık

    • Bunun Google tarafındaki bir hata olduğunun ortaya çıkmasına şaşırıldığı belirtiliyor. UniSuper’ın büyük bir şok yaşamış olması gerektiği söyleniyor.
  • İncelemenin kapsamlılığı

    • Sadece belirli araçlar/süreçler değil, otomatik silme sorununun incelenmesi ve soft delete davranışının doğrulanması açısından da bunun kapsamlı bir inceleme olduğu değerlendiriliyor. Ancak varsayılan davranışa yönelik ek inceleme gerektiği de belirtiliyor.
  • GCP’ye yönelik beklenti

    • UniSuper’ın sorunu çözülmüş olsa da, bu olayın GCP için gerekli bir uyarı olması umuluyor.
  • Müşterinin çabasına övgü

    • Müşterinin CIO’su ve teknik ekibinin, Google Cloud ekibiyle iş birliği yaparak 24x7 kurtarma çalışmalarını hızlı ve doğru biçimde yürütmesi övülüyor.
  • UniSuper müşterisinin deneyimi

    • Bir UniSuper müşterisinin olayın gerçekte ne olduğunu haberlerden öğrendiği ve olayı "sistem kesintisi" olarak küçültmeye yönelik bir girişim olduğunu söylediği aktarılıyor.
  • İlk duyurudaki yanlış anlama

    • İlk duyurunun yanlış anlamaya yol açtığı, aslında yalnızca belirli bir bölgedeki sanal makinelerin kaybedildiği açıklanıyor. Bunun sistemin başa çıkabileceği türde bir sorun olduğu belirtiliyor.