GCP olaylarının mevcut durumu
(blog.railway.app)Google Cloud Platform'un sorunları ve müdahale
- Railway, uygulama geliştirme platformunu çalıştırmak için Google Cloud Platform (GCP) Compute Engine kullanıyor.
- Belirli makineler yanıt vermemeye başlayınca hizmette kesinti yaşandı ve bu durum yaklaşık 10 dakika sürdü.
- Sorun çözüldü, tüm iş yükleri başarıyla taşındı ve hizmet yeniden ayağa kalktı.
Google Cloud ile zorlu ilişki
- Railway son 18 ayda Google Cloud ile çeşitli sorunlar yaşadı.
- Ağ sorunları sürünce, sorunu çözmek için kendi ağ yığınını kurdu.
- Google kayıt defteri kotasını sınırlayınca, bunu aşmak için kendi kayıt defteri ürününü geliştirdi.
- Google'ın destek hizmetinden hayal kırıklığına uğrayarak, sorunu çözmek için Google başkan yardımcılarıyla görüştü.
- Google hizmet şartlarını değiştirerek maliyetleri %20 artırdı ve Railway buna yönelik bir çözüm bekliyor.
- Railway, Google Cloud hizmetlerini bırakıp kendi bare metal instance'larına taşınmayı planlıyor.
Olayın geriye dönük incelemesi
- Google makineleri yeniden başlattı ve sunucular çevrimdışı kaldı.
- Otomatik felaket kurtarma sistemi vardı, ancak bazı sunucular kurtarılamayınca felaket kurtarma işlemi manuel olarak yürütüldü.
- Bunun, Google Cloud'un otomatik live migration sürecinden kaynaklanan bir sorun olduğu tahmin edildi ve Google ile iletişime geçilmeye çalışıldı ancak yanıt alınamadı.
- Serial console log analizi sonucunda, GCP guest ortamında kullanıcı alanından çekirdeğe bellek aktarımı sırasında nadir durumlarda kaynak baskısı altında soft lockup yaşandığı tahmin edildi.
Kullanıcılar için sonuç
- Manuel felaket kurtarma sırasında her host için yaklaşık 10 dakikalık kesinti yaşandı.
- Birden fazla hizmet iş yükü çalıştıran kullanıcılar için kesinti daha uzun sürebilir.
- Railway, kullanıcılara verdiği rahatsızlıktan dolayı özür diliyor ve daha yüksek güvenilirlik sağlamak için kendi bare metal altyapısına taşınmayı planlıyor.
GN⁺ görüşü
Bu haberde en önemli nokta, Google Cloud Platform'un teknik sorunları ile müşteri desteği problemlerinin kullanıcılar üzerindeki etkisi. Railway'nin yaşadığı sorunlar, bulut hizmeti sağlayıcılarında güvenilirlik ve desteğin ne kadar kritik olduğunu vurgularken, bu tür problemleri çözmek için kendi altyapısını kurmanın önemini de gösteriyor. Metin, bulut bilişimin karmaşıklığını ve potansiyel risklerini anlamaya yardımcı oluyor; teknik sorunlara dair içgörü ve müdahale yöntemleri sunduğu için ilgi çekici ve faydalı.
1 yorum
Hacker News görüşleri
Küçük ölçekli bir yazılım şirketinin deneyimi
GCP'deki değişim hakkında görüş
GCP ve AWS güvenilirlik karşılaştırması
Bulut sağlayıcılarının sorunları hakkında görüş
Google Cloud destek hizmeti deneyimi
GCP'nin özellik sorunlarıyla ilgili deneyim
GCP'nin belgelenmemiş eşikleriyle ilgili deneyim
Google Cloud ağ sorunlarına çözüm
Google Cloud'un güvenilirliği hakkında görüş
GCP'deki sorunlara dair kişisel kafa karışıklığı