1 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Railway üzerindeki yaygın hizmet kesintisi giderildi; nedenin Railway’nin Google Cloud hesabının engellenmesi olduğu doğrulandı
  • Kesinti sırasında kullanıcılar "no healthy upstream", "unconditional drop overload", oturum açma hataları ve panoya erişememe yaşayabildi
  • Railway, Google Cloud destek ekibi ile doğrudan iletişime geçerek hesap erişimini geri yükledi ve kontrol düzlemi ile iş yüklerinin kurtarılmasını sürdürdü
  • Kurtarma sürecinde Google Cloud tarafındaki ağ sorunları devam etti ve bazı hizmetlerin başlamasını engelledi; enterprise dışı build’ler geçici olarak sınırlandırıldı
  • Hizmet tamamen geri geldi, ancak anormal olarak algılanan bazı iş yükleri otomatik olarak yeniden dağıtılıyor; gerekirse kullanıcıların bunları manuel olarak yeniden dağıtması gerekiyor

Kesintinin özeti ve nihai durum

  • Railway, yaygın hizmet kesintisini giderdi; olay sonrası analiz Incident Report üzerinden incelenebilir
  • Kesinti süresince kullanıcılar "no healthy upstream", "unconditional drop overload", oturum açma hataları ve panoya erişememe yaşayabildi
  • Sorunun nedeni Railway’nin Google Cloud hesabının engellenmesiydi ve bu durum bazı Railway hizmetlerini kullanılamaz hale getirdi
  • Railway, Google Cloud destek ekibi ile doğrudan iletişime geçerek hesap erişimini geri yükledi ve iş yüklerinin toparlanmasını ilerletti
  • Hizmet tamamen kurtarıldı, ancak anormal durumda algılanan bazı iş yükleri otomatik olarak yeniden dağıtılıyor; yanıtları normale dönmeyen hizmetlerin kullanıcı tarafından manuel olarak yeniden dağıtılması gerekebilir

Kurtarma süreci ve kullanıcı etkisi

  • İlk inceleme ve nedenin doğrulanması

    • Railway, pano, API ve iç ağı çalıştıran kontrol düzlemi için kullanılan Google Cloud altyapısını geri yükledi
    • Üst seviye bulut sağlayıcısına erişim geri geldikten sonra bile Railway panosu ve bulut altyapısında çalışan hizmetler, düzeltme dağıtımı yapılana kadar etkilenmeye devam edebildi
    • Google Cloud hesabının engellenmesinden sonra Railway platform ekibi, Google Cloud üzerinde barındırılan altyapının bir kısmına erişimi doğruladı ve kalan hizmetlere erişimi geri yükledi
  • Google Cloud ve ağ sorunları

    • Railway, Google Cloud üzerindeki compute kaynaklarını geri getirdi, ancak Google Cloud tarafındaki ağ sorunları devam ettiği için bazı hizmetler başlatılamadı
    • Kurtarma sırasında Google Cloud üzerinde barındırılan iş yükleri aralıklı sorunlar yaşamayı sürdürebildi
    • Railway altyapı ekibi, etkilenen hizmetleri yeniden çevrimiçi hale getirmek için alternatif yolları da değerlendirdi
  • Build ve dağıtım kısıtlamaları

    • Railway metal iş yükleri kademeli olarak toparlanmaya başladı
    • Kurtarma sürecinde build altyapısının aşırı yüklenmesini önlemek için tüm enterprise dışı build’ler geçici olarak sınırlandırıldı
    • Sonrasında enterprise dışı dağıtımlar geçici olarak askıda kalırken, enterprise dağıtımları etkilenmedi
    • Dağıtımlar yeniden mümkün hale geldikten sonra bile Google Cloud üzerinde kalan iş yükleri, kurtarma tamamlanana kadar aralıklı sorunlar yaşayabildi
  • Mevcut durum

    • Railway hizmetleri tamamen kurtarıldı; yanıtları normale dönmeyen hizmetlerin pano veya CLI üzerinden yeniden dağıtılması gerekiyor
    • Ek bağlam FAQ üzerinden görülebilir; doğrudan desteğe ihtiyaç varsa Railway Station üzerinde bir başlık açılabilir

1 yorum

 
GN⁺ 1 시간 전
Hacker News yorumları
  • Railway bu kesintiyi çözdü ve olay sonrası analizini yayımladı
    https://blog.railway.com/p/incident-report-may-19-2026-gcp-a...
    20 Mayıs 07:57 UTC itibarıyla durum sayfası da yayında
    https://status.railway.com/incident/I23M92U0

    • Böyle bir durumda Google'dan tazminat talep edilebilmesi gerektiğini düşünüyorum. Bu, ağ kesintisi ya da hizmet arızası gibi kullanım şartlarına girecek bir mesele değil
    • Railway kesintinin çözüldüğünü söylüyor ama birçok servis hâlâ 502 dönüyor ve kapalı durumda. Bizde ancak elle yeniden dağıtımı tetikleyince düzeldi; bunu Railway'in otomatik yapması gerekirdi
      Toplamda bizim taraftaki kesinti süresi 11 saati aştı
  • GCP'nin yine bir startup'ı düşürmesinin üzerinden 0 gün geçti
    Bunu sanki yılda en az bir kez görüyorum; AWS ya da Azure'da ise duyduğumu hatırlamıyorum
    Ciddi söylüyorum, bu yüzden GCP kullanmıyorum. Büyük üçlü içinde kullanımı en rahat bulut olabilir ama bu itibar yüzünden kendini baltalıyor

    • Tersine, GCP'de ciddi bir kesinti yaşandığını pek hatırlamıyorum. AWS/Azure sanki yılda birkaç kez felaket düzeyinde çöküyor
    • AWS bunu daha verimli yapıyor. us-east-1 çökünce bir sürü startup'ı aynı anda düşürüyor
    • https://en.wikipedia.org/wiki/Timeline_of_Amazon_Web_Service...
      Azure da geçen yıl Azure ve O365 hizmetlerinin tamamının front door'unu bozmuştu
      Bu şirketlerin her birinin güçlü olduğu alanlar var ama bazen büyük çapta dağıtıyorlar
    • AWS bir keresinde servislerimizi o kadar ağır throttle etti ki işletemez hâle geldik. Büyümemizi bir ay boyunca durdurduklarını anlatan bir yazı yazacaktım ama artık çok anlamlı gelmiyor
    • Biz de aynı sebeple GCP'ye hiç dokunmuyoruz
  • Herkes Google'ı suçlamak istiyor ama Railway'i epey uzun süre kullanmış biri olarak sonuca varmadan önce GCP'nin tarafını da duymak isterim. Railway'de daha önce de böyle sorunlar oldu ve ekibin bunları ele alış biçimi güven vermiyordu
    Her hâlükârda bu olay benim için bardağı taşıran son damla oldu

    • Bende de yalnızca anekdot düzeyinde ama katılıyorum. Railway'in geliştirme ekibi burada burada vibe coding karıştırarak epey gevşek ilerliyormuş gibi hissettiriyor. “Daha startup'ız, biraz idare edin” denecek bir seviye var; Railway o çizgiyi aşıyor
    • Evet. Diğer başlıklarda bulut sağlayıcısını sert biçimde eleştiren birçok hesap görüyorum ama bu öfke selinde kök nedeni merak eden ya da o ihtimali tartmaya çalışan tavrın neredeyse hiç olmaması tuhaf
    • 2 yıl önce desteğe ihtiyaç duymuştum; o kadar berbattı ki doğrudan Vercel'e geçip onları boş verdim
      Başka bir hizmet için de benzer bir şeye ihtiyacım vardı ve ararken coolify'ı buldum. coolify kullanılabiliyorken Railway'i tercih etmek için hiçbir neden yok
    • Belirli geçmiş örnekleri paylaşabilirsen okumak isterim
    • Bilmemem gereken bazı ayrıntılar duydum. Bunun %100 Google'ın hatası olduğunu rahatlıkla söyleyebilirim; Railway daha fazlasını paylaşamazsa hayal kırıklığı olur
      GCP'den tamamen uzak durmak dışında Railway'in bunu önlemek için yapabileceği gerçekten hiçbir şey yoktu
  • Mayıs 2024'teki UniSuper kesintisi de vardı: https://cloud.google.com/blog/products/infrastructure/detail...
    https://www.unisuper.com.au/about-us/media-centre/2024/a-joi...
    UniSuper CEO'su Peter Chun ile Google Cloud CEO'su Thomas Kurian'ın ortak açıklamasına göre, UniSuper'ın Private Cloud hizmeti sağlanırken dikkatsiz bir yapılandırma hatası yapıldı ve sonuçta UniSuper'ın Private Cloud aboneliği silindi
    Google Cloud, bunun dünya çapında hiçbir Google Cloud müşterisinde daha önce görülmemiş, izole ve “bir kerelik” bir olay olduğunu söyledi; ancak bu abonelik silinmesi iki bölgenin de silinmesine yol açtı ve kurtarma için yüzlerce sanal makine, veritabanı ve uygulamanın geri getirilmesi gerekti

    • O dönemde UniSuper olayı hakkında yazmıştım: https://danielcompton.net/google-cloud-unisuper
      Oldukça ciddi bir hataydı; onların VMWare ortamı 1 yıllık sona erme tarihi ile oluşturulmuştu ve Google Cloud açısından tek bir “kaynak” olarak görülüyordu
    • “Private Cloud aboneliğinin silinmesi iki bölgenin de silinmesine yol açtı” ifadesi tam olarak tek hata noktası diye adlandırılan şeydir ve güvenlik/süreklilik sorumluluğu almış herkes için kâbus gibidir
    • Bir aboneliği kapatır kapatmaz ya da siler silmez dünya çapında zincirleme silme tetikleyen bir yapı tam bir felaket tarifi gibi geliyor. Neden sadece silinecek diye işaretleyip bir gün ya da bir hafta sonra kaldırmadıklarını anlamıyorum
  • Aylık harcaması yüksek bir şirkette bunun nasıl olabildiğini gerçekten anlamıyorum. Önceki iş yerimde AWS'de şüpheli bir workload çalıştığında, TAM herhangi bir işlemden önce bize ulaşmıştı
    Burada sanki hatalı bir yapay zeka otomasyonu vardı ve GCP insanlara gerçekten ulaşıp yanıt almayı sevmiyor; birkaç saat sonra bir dış kaynak çalışanı destek kuyruğunda durumu görüp sadece kalıp bir yanıt göndermiş gibi geliyor

    • Konu GCP desteğiyse artık hiçbir şey beni şaşırtmıyor. Bizim için hiç gerekmemesine rağmen son 6 yılda Account Executive tarafında 12'den fazla değişiklik oldu ve hepsi tamamen işe yaramazdı
      Her seferinde kendilerini tanıtıp mühendislik ekibiyle toplantı ayarlamamızı istediler, bizimle hiç ilgisi olmayan standart slayt desteleriyle geldiler ve ancak gülünecek durumlar yarattılar; bir sonraki iletişim de yeni bir AE atandığında oldu
      GCP'yi ve hizmetlerini seviyorum, yıllardır memnunum ama insan tarafı gerçekten korkunç ve neden bunu sürdürdüklerini anlamıyorum
    • Diğer başlıkta da anlamlı bir yanıt vardı sanırım. Biz de hesabımızı sonunda geri aldık ama Account Rep ve CSM olmasına rağmen ne olduğunu anlamamız zaman aldı
      Bir muhatabımız olmasaydı daha da kötü olabilirdi
    • Sonuçta bu Google. Hizmeti kullanmana izin verir, sonra normun dışına çıktığın anda seni askıya alır
  • Açık bir API işleten biri olarak Railway IP'lerinden gelen spam miktarı akıl almaz düzeyde. Kötüye kullanım önleme tarafı berbat; umarım bu olay operasyonlarını iyileştirmeleri için bir dönüm noktası olur

    • Bir hosting şirketi işletirken temel gerilim tam da bu. Kaydı kolaylaştırırsan çok sayıda yeni kullanıcı gelir ama çok fazla kötüye kullanım da gelir
      Kötüye kullanım önlemleri koyarsan da gürültülü yanlış pozitifler oluşur; bu GCP olayı da böyle bir şey olabilir
      Hosting şirketi işleten insanları kıskanmıyorum. İnternetin yüzeyinin altında gerçekten kirli bir dünya var
      Ek olarak, AWS bu konuda gerçekten iyi. Muhtemelen yaklaşık 30 yıllık perakende dolandırıcılığı ve kötüye kullanım tecrübesinin etkisi var
  • Bir dakika, Railway GCP üzerinde mi çalışıyordu? “Başka bir bulutun üstüne bulut inşa etmiyoruz” diye büyük büyük konuşmamışlar mıydı?
    Yoksa bununla kastettikleri, VPS kiralamak yerine bulut sağlayıcısından sadece bare metal kiralamak mıydı?
    En azından hyper scaler'lardan birine sadece para ödemek yerine colocation yapan ve stack'in daha fazlasına sahip olan başka bir sağlayıcı çıktığını sanıp umutlanmıştım
    https://blog.railway.com/p/heroku-walked-railway-run

    • Wayback Machine'de görülen bağlantılı yazıda şöyle deniyor
      “İlk günden beri bu fikri en önde tuttuk.
      Ayrıca sezgisel olarak şunu da anladık: başka bir bulutun üstüne bulut inşa edemezsiniz. Railway'in işinin ve nihayetinde müşterilerimizin işlerinin olabildiğince sağlam olması için kendi sunucularımızı işletmeye ve diğer bulutlarla iyi geçinmenin zanaatine yıllar harcadık.”
    • Evet ve bu yüzden kızgınım. Yalan söylediler. Tamamen GCP'ye bağımlılarmış
      Şimdi biraz araştırma yapmam gerekecek. Bundan daha istikrarlı ve tek bir şirketin keyfine daha az bağlı bir şeye ihtiyacım var
      Railway açısından da kötü, çünkü en büyük vaatleri olan huzurlu yazılım dağıtımı iddiasının tam kalbini vuruyor. Bu tam bir kaos
  • Railway'in kendi veri merkezlerini kurduğunu sanıyordum [0]
    “Aslında başkasının bulutunun üstüne bulut inşa edemezsiniz.”
    Gerçekten de öyleymiş…
    [0] https://blog.railway.com/p/launch-week-02-welcome

    • Vercel bunu başarıyormuş gibi görünüyor. PlanetScale de en azından veritabanı tarafında öyle; zaten her şey bir bakıma veritabanıdır
  • Railway'e kaydolurken sistemin kötüye kullanımı, kripto madenciliği vb. konulardaki şartları okuyup anladığını onaylatma biçimleri ilginç
    Tahminimce çok sayıda kullanıcı ücretsiz katmanı kötüye kullanıp hizmet sağlayıcıyla sorun yaşatıyor
    Rakip olsam bile Railway'in böyle darbe almasını keyifle izlemem ama ücretsiz hesaplama kaynakları her türden tuhaf kullanıcıyı çekiyor. Biz de bunu yaşadık ve funnel'ın üst tarafı daralsa bile erkenden ücretsiz compute sunmaktan kaçınmaya karar verdik

  • Sadece Google'ı suçlamanın doğru olduğunu sanmıyorum. Railway sanki platform istikrarını korumakta giderek daha fazla zorlanıyor
    Böyle bir olayın tüm hizmeti düşürmemesi gerekir. İşiniz kelimenin tam anlamıyla istikrarlı bir backend sağlamaksa, yedekleriniz olmalı. Bana kötü planlama gibi görünüyor

    • Tam olarak ne demek istediğini anlamıyorum. Railway'in tüm müşteri projelerini barındırmak için gerçekten çoklu bulut mimarisi kullanmasını mı bekliyorsun? Genel resimde bunun kullanılabilirliği azaltması daha olası gibi görünüyor
    • Felaket kurtarma oldukça pahalı değil mi? Özellikle de Railway ölçeğinde daha da öyle gibi duruyor