Olay Raporu: Railway, Google Cloud tarafından engellendi [çözüldü]
(status.railway.com)- Railway üzerindeki yaygın hizmet kesintisi giderildi; nedenin Railway’nin Google Cloud hesabının engellenmesi olduğu doğrulandı
- Kesinti sırasında kullanıcılar
"no healthy upstream","unconditional drop overload", oturum açma hataları ve panoya erişememe yaşayabildi - Railway, Google Cloud destek ekibi ile doğrudan iletişime geçerek hesap erişimini geri yükledi ve kontrol düzlemi ile iş yüklerinin kurtarılmasını sürdürdü
- Kurtarma sürecinde Google Cloud tarafındaki ağ sorunları devam etti ve bazı hizmetlerin başlamasını engelledi; enterprise dışı build’ler geçici olarak sınırlandırıldı
- Hizmet tamamen geri geldi, ancak anormal olarak algılanan bazı iş yükleri otomatik olarak yeniden dağıtılıyor; gerekirse kullanıcıların bunları manuel olarak yeniden dağıtması gerekiyor
Kesintinin özeti ve nihai durum
- Railway, yaygın hizmet kesintisini giderdi; olay sonrası analiz Incident Report üzerinden incelenebilir
- Kesinti süresince kullanıcılar
"no healthy upstream","unconditional drop overload", oturum açma hataları ve panoya erişememe yaşayabildi - Sorunun nedeni Railway’nin Google Cloud hesabının engellenmesiydi ve bu durum bazı Railway hizmetlerini kullanılamaz hale getirdi
- Railway, Google Cloud destek ekibi ile doğrudan iletişime geçerek hesap erişimini geri yükledi ve iş yüklerinin toparlanmasını ilerletti
- Hizmet tamamen kurtarıldı, ancak anormal durumda algılanan bazı iş yükleri otomatik olarak yeniden dağıtılıyor; yanıtları normale dönmeyen hizmetlerin kullanıcı tarafından manuel olarak yeniden dağıtılması gerekebilir
Kurtarma süreci ve kullanıcı etkisi
-
İlk inceleme ve nedenin doğrulanması
- Railway, pano, API ve iç ağı çalıştıran kontrol düzlemi için kullanılan Google Cloud altyapısını geri yükledi
- Üst seviye bulut sağlayıcısına erişim geri geldikten sonra bile Railway panosu ve bulut altyapısında çalışan hizmetler, düzeltme dağıtımı yapılana kadar etkilenmeye devam edebildi
- Google Cloud hesabının engellenmesinden sonra Railway platform ekibi, Google Cloud üzerinde barındırılan altyapının bir kısmına erişimi doğruladı ve kalan hizmetlere erişimi geri yükledi
-
Google Cloud ve ağ sorunları
- Railway, Google Cloud üzerindeki compute kaynaklarını geri getirdi, ancak Google Cloud tarafındaki ağ sorunları devam ettiği için bazı hizmetler başlatılamadı
- Kurtarma sırasında Google Cloud üzerinde barındırılan iş yükleri aralıklı sorunlar yaşamayı sürdürebildi
- Railway altyapı ekibi, etkilenen hizmetleri yeniden çevrimiçi hale getirmek için alternatif yolları da değerlendirdi
-
Build ve dağıtım kısıtlamaları
- Railway metal iş yükleri kademeli olarak toparlanmaya başladı
- Kurtarma sürecinde build altyapısının aşırı yüklenmesini önlemek için tüm enterprise dışı build’ler geçici olarak sınırlandırıldı
- Sonrasında enterprise dışı dağıtımlar geçici olarak askıda kalırken, enterprise dağıtımları etkilenmedi
- Dağıtımlar yeniden mümkün hale geldikten sonra bile Google Cloud üzerinde kalan iş yükleri, kurtarma tamamlanana kadar aralıklı sorunlar yaşayabildi
-
Mevcut durum
- Railway hizmetleri tamamen kurtarıldı; yanıtları normale dönmeyen hizmetlerin pano veya CLI üzerinden yeniden dağıtılması gerekiyor
- Ek bağlam FAQ üzerinden görülebilir; doğrudan desteğe ihtiyaç varsa Railway Station üzerinde bir başlık açılabilir
1 yorum
Hacker News yorumları
Railway bu kesintiyi çözdü ve olay sonrası analizini yayımladı
https://blog.railway.com/p/incident-report-may-19-2026-gcp-a...
20 Mayıs 07:57 UTC itibarıyla durum sayfası da yayında
https://status.railway.com/incident/I23M92U0
Toplamda bizim taraftaki kesinti süresi 11 saati aştı
GCP'nin yine bir startup'ı düşürmesinin üzerinden 0 gün geçti
Bunu sanki yılda en az bir kez görüyorum; AWS ya da Azure'da ise duyduğumu hatırlamıyorum
Ciddi söylüyorum, bu yüzden GCP kullanmıyorum. Büyük üçlü içinde kullanımı en rahat bulut olabilir ama bu itibar yüzünden kendini baltalıyor
Azure da geçen yıl Azure ve O365 hizmetlerinin tamamının front door'unu bozmuştu
Bu şirketlerin her birinin güçlü olduğu alanlar var ama bazen büyük çapta dağıtıyorlar
Herkes Google'ı suçlamak istiyor ama Railway'i epey uzun süre kullanmış biri olarak sonuca varmadan önce GCP'nin tarafını da duymak isterim. Railway'de daha önce de böyle sorunlar oldu ve ekibin bunları ele alış biçimi güven vermiyordu
Her hâlükârda bu olay benim için bardağı taşıran son damla oldu
Başka bir hizmet için de benzer bir şeye ihtiyacım vardı ve ararken coolify'ı buldum. coolify kullanılabiliyorken Railway'i tercih etmek için hiçbir neden yok
GCP'den tamamen uzak durmak dışında Railway'in bunu önlemek için yapabileceği gerçekten hiçbir şey yoktu
Mayıs 2024'teki UniSuper kesintisi de vardı: https://cloud.google.com/blog/products/infrastructure/detail...
https://www.unisuper.com.au/about-us/media-centre/2024/a-joi...
UniSuper CEO'su Peter Chun ile Google Cloud CEO'su Thomas Kurian'ın ortak açıklamasına göre, UniSuper'ın Private Cloud hizmeti sağlanırken dikkatsiz bir yapılandırma hatası yapıldı ve sonuçta UniSuper'ın Private Cloud aboneliği silindi
Google Cloud, bunun dünya çapında hiçbir Google Cloud müşterisinde daha önce görülmemiş, izole ve “bir kerelik” bir olay olduğunu söyledi; ancak bu abonelik silinmesi iki bölgenin de silinmesine yol açtı ve kurtarma için yüzlerce sanal makine, veritabanı ve uygulamanın geri getirilmesi gerekti
Oldukça ciddi bir hataydı; onların VMWare ortamı 1 yıllık sona erme tarihi ile oluşturulmuştu ve Google Cloud açısından tek bir “kaynak” olarak görülüyordu
Aylık harcaması yüksek bir şirkette bunun nasıl olabildiğini gerçekten anlamıyorum. Önceki iş yerimde AWS'de şüpheli bir workload çalıştığında, TAM herhangi bir işlemden önce bize ulaşmıştı
Burada sanki hatalı bir yapay zeka otomasyonu vardı ve GCP insanlara gerçekten ulaşıp yanıt almayı sevmiyor; birkaç saat sonra bir dış kaynak çalışanı destek kuyruğunda durumu görüp sadece kalıp bir yanıt göndermiş gibi geliyor
Her seferinde kendilerini tanıtıp mühendislik ekibiyle toplantı ayarlamamızı istediler, bizimle hiç ilgisi olmayan standart slayt desteleriyle geldiler ve ancak gülünecek durumlar yarattılar; bir sonraki iletişim de yeni bir AE atandığında oldu
GCP'yi ve hizmetlerini seviyorum, yıllardır memnunum ama insan tarafı gerçekten korkunç ve neden bunu sürdürdüklerini anlamıyorum
Bir muhatabımız olmasaydı daha da kötü olabilirdi
Açık bir API işleten biri olarak Railway IP'lerinden gelen spam miktarı akıl almaz düzeyde. Kötüye kullanım önleme tarafı berbat; umarım bu olay operasyonlarını iyileştirmeleri için bir dönüm noktası olur
Kötüye kullanım önlemleri koyarsan da gürültülü yanlış pozitifler oluşur; bu GCP olayı da böyle bir şey olabilir
Hosting şirketi işleten insanları kıskanmıyorum. İnternetin yüzeyinin altında gerçekten kirli bir dünya var
Ek olarak, AWS bu konuda gerçekten iyi. Muhtemelen yaklaşık 30 yıllık perakende dolandırıcılığı ve kötüye kullanım tecrübesinin etkisi var
Bir dakika, Railway GCP üzerinde mi çalışıyordu? “Başka bir bulutun üstüne bulut inşa etmiyoruz” diye büyük büyük konuşmamışlar mıydı?
Yoksa bununla kastettikleri, VPS kiralamak yerine bulut sağlayıcısından sadece bare metal kiralamak mıydı?
En azından hyper scaler'lardan birine sadece para ödemek yerine colocation yapan ve stack'in daha fazlasına sahip olan başka bir sağlayıcı çıktığını sanıp umutlanmıştım
https://blog.railway.com/p/heroku-walked-railway-run
“İlk günden beri bu fikri en önde tuttuk.
Ayrıca sezgisel olarak şunu da anladık: başka bir bulutun üstüne bulut inşa edemezsiniz. Railway'in işinin ve nihayetinde müşterilerimizin işlerinin olabildiğince sağlam olması için kendi sunucularımızı işletmeye ve diğer bulutlarla iyi geçinmenin zanaatine yıllar harcadık.”
Şimdi biraz araştırma yapmam gerekecek. Bundan daha istikrarlı ve tek bir şirketin keyfine daha az bağlı bir şeye ihtiyacım var
Railway açısından da kötü, çünkü en büyük vaatleri olan huzurlu yazılım dağıtımı iddiasının tam kalbini vuruyor. Bu tam bir kaos
Railway'in kendi veri merkezlerini kurduğunu sanıyordum [0]
“Aslında başkasının bulutunun üstüne bulut inşa edemezsiniz.”
Gerçekten de öyleymiş…
[0] https://blog.railway.com/p/launch-week-02-welcome
Railway'e kaydolurken sistemin kötüye kullanımı, kripto madenciliği vb. konulardaki şartları okuyup anladığını onaylatma biçimleri ilginç
Tahminimce çok sayıda kullanıcı ücretsiz katmanı kötüye kullanıp hizmet sağlayıcıyla sorun yaşatıyor
Rakip olsam bile Railway'in böyle darbe almasını keyifle izlemem ama ücretsiz hesaplama kaynakları her türden tuhaf kullanıcıyı çekiyor. Biz de bunu yaşadık ve funnel'ın üst tarafı daralsa bile erkenden ücretsiz compute sunmaktan kaçınmaya karar verdik
Sadece Google'ı suçlamanın doğru olduğunu sanmıyorum. Railway sanki platform istikrarını korumakta giderek daha fazla zorlanıyor
Böyle bir olayın tüm hizmeti düşürmemesi gerekir. İşiniz kelimenin tam anlamıyla istikrarlı bir backend sağlamaksa, yedekleriniz olmalı. Bana kötü planlama gibi görünüyor