1 puan yazan GN⁺ 2023-12-04 | 1 yorum | WhatsApp'ta paylaş

Google Cloud Platform'un sorunları ve müdahale

  • Railway, uygulama geliştirme platformunu çalıştırmak için Google Cloud Platform (GCP) Compute Engine kullanıyor.
  • Belirli makineler yanıt vermemeye başlayınca hizmette kesinti yaşandı ve bu durum yaklaşık 10 dakika sürdü.
  • Sorun çözüldü, tüm iş yükleri başarıyla taşındı ve hizmet yeniden ayağa kalktı.

Google Cloud ile zorlu ilişki

  • Railway son 18 ayda Google Cloud ile çeşitli sorunlar yaşadı.
  • Ağ sorunları sürünce, sorunu çözmek için kendi ağ yığınını kurdu.
  • Google kayıt defteri kotasını sınırlayınca, bunu aşmak için kendi kayıt defteri ürününü geliştirdi.
  • Google'ın destek hizmetinden hayal kırıklığına uğrayarak, sorunu çözmek için Google başkan yardımcılarıyla görüştü.
  • Google hizmet şartlarını değiştirerek maliyetleri %20 artırdı ve Railway buna yönelik bir çözüm bekliyor.
  • Railway, Google Cloud hizmetlerini bırakıp kendi bare metal instance'larına taşınmayı planlıyor.

Olayın geriye dönük incelemesi

  • Google makineleri yeniden başlattı ve sunucular çevrimdışı kaldı.
  • Otomatik felaket kurtarma sistemi vardı, ancak bazı sunucular kurtarılamayınca felaket kurtarma işlemi manuel olarak yürütüldü.
  • Bunun, Google Cloud'un otomatik live migration sürecinden kaynaklanan bir sorun olduğu tahmin edildi ve Google ile iletişime geçilmeye çalışıldı ancak yanıt alınamadı.
  • Serial console log analizi sonucunda, GCP guest ortamında kullanıcı alanından çekirdeğe bellek aktarımı sırasında nadir durumlarda kaynak baskısı altında soft lockup yaşandığı tahmin edildi.

Kullanıcılar için sonuç

  • Manuel felaket kurtarma sırasında her host için yaklaşık 10 dakikalık kesinti yaşandı.
  • Birden fazla hizmet iş yükü çalıştıran kullanıcılar için kesinti daha uzun sürebilir.
  • Railway, kullanıcılara verdiği rahatsızlıktan dolayı özür diliyor ve daha yüksek güvenilirlik sağlamak için kendi bare metal altyapısına taşınmayı planlıyor.

GN⁺ görüşü

Bu haberde en önemli nokta, Google Cloud Platform'un teknik sorunları ile müşteri desteği problemlerinin kullanıcılar üzerindeki etkisi. Railway'nin yaşadığı sorunlar, bulut hizmeti sağlayıcılarında güvenilirlik ve desteğin ne kadar kritik olduğunu vurgularken, bu tür problemleri çözmek için kendi altyapısını kurmanın önemini de gösteriyor. Metin, bulut bilişimin karmaşıklığını ve potansiyel risklerini anlamaya yardımcı oluyor; teknik sorunlara dair içgörü ve müdahale yöntemleri sunduğu için ilgi çekici ve faydalı.

1 yorum

 
GN⁺ 2023-12-04
Hacker News görüşleri
  • Küçük ölçekli bir yazılım şirketinin deneyimi

    • İki kişilik bir yazılım şirketi olarak Google ile çeşitli sorunlar yaşadıklarını belirtiyor.
    • Sorunların çoğu Google Adwords ile ilgili.
    • Google, yüksek meblağlar ödeyen asıl yazara bile düzgün destek sunmuyorsa, küçük işletmeler için umut az demek.
  • GCP'deki değişim hakkında görüş

    • Birkaç yıl önce GCP, AWS'ye kıyasla fiyat/performans açısından daha iyi bir seçenekti.
    • O dönemde GCP desteği çok iyiydi ve ilk ticket işleme deneyimi de etkileyiciydi.
    • Satış ekibiyle etkileşimler de olumluydu, ancak artık AWS maliyet/verim açısından GCP'yi yakaladı ve yönetilen servislerde öne geçti.
    • GCP destek deneyimi belirgin şekilde kötüleşti ve ağ sorunlarını fark etmekte başarısız oldu.
    • GCP'ye çok yatırım yaptıklarını, ancak mevcut durumdan hayal kırıklığı duyduklarını ve harcamaları azaltmaya çalıştıklarını söylüyor.
  • GCP ve AWS güvenilirlik karşılaştırması

    • GCP'de compute instance'ların çökmesi nadir olmasına rağmen eleştirildiği söyleniyor.
    • AWS'de ise instance'ların sık sık durduğu ya da ortadan kaybolduğu deneyimlenmiş.
    • Kişisel deneyim ve AWS dokümanlarına dayanarak, AWS'nin temel bileşenlerinin GCP'den daha az güvenilir olduğu ileri sürülüyor.
  • Bulut sağlayıcılarının sorunları hakkında görüş

    • Tüm bulut sağlayıcılarında sorunlar var.
    • AWS'de çeşitli sorunlar bulunup raporlanmış ve destek ekibi zaman kaybettirmiş.
    • EC2, EBS, S3 gibi çekirdek servisler dışında kullanmaktan kaçınıldığı belirtiliyor.
  • Google Cloud destek hizmeti deneyimi

    • Google Cloud destek hizmeti etkileyici bulunmuyor.
    • AWS'de ise destek deneyiminin her zaman iyi olduğu söyleniyor.
    • Google Cloud'da olumlu bir etkileşim yaşanırsa, bunu özellikle vurgulayıp pozitif geri bildirim verilmesi öneriliyor.
  • GCP'nin özellik sorunlarıyla ilgili deneyim

    • GCP'nin kurumsal özellikleri düzgün çalışmadı ve bunu düzeltmeye çalışırken kesintiye yol açtı.
    • GCP temsilcileri NDA'yı hatırlatarak sorunu kabul etmek istemedi.
  • GCP'nin belgelenmemiş eşikleriyle ilgili deneyim

    • Cloud Run'da CPU kullanımı ve eşzamanlı istekler temelinde açıklanamayan ölçeklenme olayları yaşandı.
    • Premium destek üzerinden ek kriterler olduğu öğrenildi, ancak ayrıntılı açıklama alınamadı.
  • Google Cloud ağ sorunlarına çözüm

    • Google Cloud ürünlerinde sürekli ağ sorunları yaşandı.
    • Kendi ağ yığınlarını kurarak sorunu çözdüler.
    • Temel ağ kararsızken UDP/Wireguard overlay'in nasıl daha güvenilir olabildiği sorgulanıyor.
  • Google Cloud'un güvenilirliği hakkında görüş

    • İlk dönem bulut bilişimdeki güvenilirlik sorunları anlaşılabilir olsa da, 2023'te büyük müşterileri hayal kırıklığına uğratmak iyi bir durum değil.
    • Başkalarının da benzer deneyimler yaşayıp yaşamadığı, yoksa sadece yazarın mı şanssız olduğu merak ediliyor.
  • GCP'deki sorunlara dair kişisel kafa karışıklığı

    • Nested virtualization'ın sorunla ne ilgisi olduğu konusunda kafa karışıklığı var.
    • MMIO instruction'a yapılan atfın anlaşılmadığı belirtiliyor.
    • Yazarın son olaylar nedeniyle büyük hayal kırıklığı yaşadığı ve bir çözüm bulmaya çalıştığı görülüyor.