1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Railway platformunda genel bir kesinti, 19 Mayıs 2026 22:20 UTC’den itibaren yaklaşık 8 saat sürdü ve doğrudan neden Google Cloud’un üretim hesabını askıya almasıydı
  • Dashboard ve API anında 503 hatası döndürdü; Google Cloud üzerinde barındırılan compute, veritabanı, kontrol düzlemi ve burst-compute altyapısı çevrimdışı oldu
  • Railway Metal ve AWS iş yükleri çalışmayı sürdürdü, ancak edge proxy Google Cloud’daki kontrol düzlemi API’sine bağımlı olduğundan rota önbelleği süresi dolunca 404 hataları yayılmaya başladı
  • Hesap erişimi geri geldikten sonra bile kalıcı diskler, compute instance’ları ve ağ ayrı ayrı kurtarılmak zorunda kaldı; GitHub OAuth ve webhook rate limiting de girişleri ve build’leri ek olarak engelledi
  • Railway, tek bir üst sağlayıcının eyleminin tam platform kesintisine dönüşmesine yol açan mimari kararların sorumluluğunu kabul etti ve Google Cloud’u veri düzleminin hot path’inden çıkaracak bir yeniden tasarım üzerinde çalışıyor

Etki

  • 19 Mayıs 2026 22:20 UTC’den 20 Mayıs yaklaşık 06:14 UTC’ye kadar, yaklaşık 8 saat boyunca Railway’de platform genelinde kesinti yaşandı
  • Google Cloud, Railway’nin üretim hesabı hizmetini askıya alınca API, kontrol düzlemi, veritabanları ve Google Cloud üzerinde barındırılan compute altyapısı çevrimdışı oldu
  • Kullanıcılar dashboard ve API’de anında 503 hataları gördü ve "no healthy upstream" ile "unconditional drop overload" mesajlarıyla giriş yapamaz hale geldi
  • Google Cloud compute üzerinde barındırılan tüm iş yükleri çevrimdışı oldu
  • Railway Metal ve AWS burst-cloud ortamındaki iş yükleri çalışmaya devam etti, ancak Railway’nin edge proxy sistemi rota tablolarını doldurmak için Google Cloud’da barındırılan kontrol düzlemi API’sine bağımlıydı
  • Önbelleğe alınmış ağ rotalarının süresi dolunca Google Cloud dışındaki iş yüklerine de ulaşılamaz hale gelindi ve ağ kontrol düzlemi etkin instance’ların rotalarını çözemediği için 404 hataları döndürmeye başladı
  • Etkinin en yüksek olduğu anda tüm bölgelerdeki Railway iş yüklerine ulaşılamaz durumdaydı
  • Google Cloud ortamı kurtarılırken, tek tek servisler geri getirilene kadar platform genelinde build ve deployment işlemleri engellendi
  • Tüm altyapı geri geldikten sonra, beklemede biriken deployment işleri platformu aşırı yüklememek için kademeli olarak işlendi
  • Aynı anda GitHub da Railway’nin OAuth ve webhook entegrasyonlarına rate limiting uygulayarak girişleri ve build’leri geçici olarak engelledi
  • Çağrı hacmindeki artış, Google Cloud kesintisi nedeniyle önbelleklerin boşalmasının sonucuydu
  • Hizmet şartları onay kayıtları da sıfırlandı; bu nedenle kullanıcıların dashboard’u bir sonraki ziyaretlerinde yeniden onay vermesi gerekti
  • Railway, tek bir üst sağlayıcının eyleminin platform genelinde kesintiye dönüşmesini mümkün kılan mimari kararların sorumluluğunu kabul etti

Kesinti zaman çizelgesi

  • 19 Mayıs 22:10 UTC: Otomatik izleme, API health check başarısızlığını tespit etti ve nöbetçi ekibi uyardı
  • 19 Mayıs 22:11 UTC: Dashboard 503 hatası döndürmeye başladı ve kullanıcılar giriş yapamaz hale geldi
  • 19 Mayıs 22:19 UTC: Google Cloud Platform’un Railway’nin üretim hesabını askıya aldığı, kök neden olarak doğrulandı
  • 19 Mayıs 22:22 UTC: Google Cloud’a P0 ticket açıldı ve Railway’nin GCP hesap yöneticisi doğrudan devreye girdi
  • 19 Mayıs 22:29 UTC: Kesinti ilan edildi
  • 19 Mayıs 22:29 UTC: GCP hesap erişimi geri geldi ancak tüm compute instance’ları hâlâ durdurulmuş durumdaydı ve kalıcı disklere erişilemiyordu
  • 19 Mayıs 22:35 UTC: Önbelleğe alınmış ağ rotalarının süresi dolmaya başlayınca Railway Metal ve AWS iş yükleri 404 hataları döndürmeye başladı
  • 19 Mayıs 23:09 UTC: İlk kalıcı disk yeniden çevrimiçi oldu
  • 19 Mayıs 23:54 UTC: Tüm kalıcı diskler ready durumuna geri döndü ancak ağ hâlâ çalışmıyordu
  • 20 Mayıs 00:39 UTC: Disklerin ready durumda olduğu doğrulandı, ancak kurtarma Google Cloud ağının geri gelmesine takıldı
  • 20 Mayıs 01:30 UTC: Compute instance’ları geri gelmeye başladı
  • 20 Mayıs 01:38 UTC: Edge trafiği yeniden sunulmaya başladı ve ağ toparlandı
  • 20 Mayıs 01:57 UTC: Orkestrasyon ve build altyapısı geri geldi; bekleyen işler aynı anda çalışıp sistemi zorlamasın diye deployment geçici olarak durduruldu
  • 20 Mayıs 02:04 UTC: Compute host’ları kademeli olarak yeniden çevrimiçi oldu
  • 20 Mayıs 02:47 UTC: GitHub, Railway’nin OAuth ve webhook entegrasyonlarına rate limiting uygulamaya başladı; bazı kullanıcılar giriş yapamadı ve build’ler engellendi
  • 20 Mayıs 02:55 UTC: Dashboard’a yeniden erişilebilir hale gelindi
  • 20 Mayıs 03:59 UTC: Tüm katmanlarda deployment işleme yeniden başladı
  • 20 Mayıs 04:00 UTC: API, dashboard ve OAuth endpoint’lerinin çalıştığı doğrulandı; kalan iş yüklerinin kurtarılması sürdü
  • 20 Mayıs 06:14 UTC: Kesinti izleme aşamasına alındı
  • 20 Mayıs 07:58 UTC: Kesinti çözüldü

Ne oldu ve nasıl toparlandı

  • Google Cloud hesap askıya alması

    • 19 Mayıs 22:20 UTC’de Google Cloud, otomatik bir işlemin parçası olarak Railway’nin üretim hesabını yanlışlıkla askıya alınmış duruma geçirdi
    • Bu işlem, Google Cloud içindeki birden fazla hesabı etkiledi
    • Platform genelinde uygulanan bir işlem olduğu için kısıtlama öncesinde tek tek müşterilere önceden bildirim yapılmadı
    • Askıya alınmış durum, Railway Dashboard, API, ağ altyapısının bir bölümü ve Google Cloud üzerinde barındırılan ek burst-compute altyapısı dahil GCP ile ilişkili altyapıyı devre dışı bıraktı
  • Kontrol düzlemi bağımlılığı

    • Railway’nin kontrol düzlemi, dashboard’u sunan, build ve deployment işlemlerini yürüten ve edge’in kullandığı rota tablolarını dolduran temel bağımlılık kümesidir
    • Google Cloud’daki tüm iş yükleri anında etkilendi
    • Railway’nin edge proxy sistemi, Google Cloud içinde barındırılan ağ kontrol düzleminin rota tablosu önbelleğini tutuyordu
    • Önbellek geçerli kaldığı sürece Railway Metal ve AWS’deki iş yükleri trafiği işlemeye devam etti
    • Önbelleğin süresi dolunca edge artık etkin instance’ların rotalarını çözemedi ve Metal ile AWS dahil tüm bölgelerdeki iş yükleri 404 hataları döndürmeye başladı
    • İş yüklerinin kendisi çevrimiçiydi, ancak ağ arızasının etkisi Google Cloud dışındaki bölgelere de yayıldı
  • Yüksek erişilebilirlik tasarımının sınırları

    • Railway altyapısı yüksek erişilebilirlik hedefiyle tasarlandı; veritabanları birden fazla availability zone üzerinde çalışıyor ve ağ, AWS, GCP ve Railway Metal arasında yedekli bağlantılar kullanıyor
    • Hesap erişimi geri gelse bile tek tek servisler otomatik olarak toparlanmadı
    • Kalıcı diskler, compute instance’ları ve ağ ayrı ayrı kurtarma gerektirdi ve bu kurtarma karakteristiği nedeniyle kesinti birkaç saat daha uzadı
    • Diskler 23:54 UTC’de ready durumuna döndü, ancak kritik ağ ve edge yönlendirme 20 Mayıs yaklaşık 01:30 UTC’ye kadar tamamen toparlanmadı
    • Railway, bu gecikme ve ilgili hataların Google tarafında oluşup oluşmadığının doğrulanmasını bekliyor
  • Kademeli toparlanma ve ikincil etkiler

    • Ağ geri geldikçe Railway’nin çekirdek servisleri ve son kullanıcı iş yükleri katman katman doğrulandı
    • Build sisteminin aşırı yüklenmesini önlemek için deployment geçici olarak durduruldu, ardından kademeli olarak yeniden açıldı
    • Çekirdek sistemlerin toparlanmasına paralel olarak GitHub, Railway’nin OAuth ve webhook entegrasyonlarına rate limiting uyguladı
    • Tüm yeniden deneme isteklerinin hacmi ve burst karakteri nedeniyle kullanıcı girişleri ve build’ler geçici olarak engellendi
    • 20 Mayıs yaklaşık 04:00 UTC itibarıyla API, dashboard ve OAuth endpoint’lerinin çalıştığı doğrulandı; kalan iş yüklerinin toparlanması sürdü

Önleyici önlemler

  • Mevcut dayanıklılık tasarımı

    • Railway’nin ağ kontrol düzlemi, multi-AZ, multi-zone yapı ile tasarlandı; böylece birden fazla makine ve bileşen kaybedilse bile kullanıcı etkisi olmadan çalışmayı sürdürebiliyor
    • Bu tasarım, birkaç ay önce yayına alınmadan önce staging ortamında ve gerçek trafikte test edildi
    • Railway, önceki kesintilerden sonra dayanıklılığa yatırım yapıyordu ve bunun sonucu olarak kullanıcı GitHub kurulumlarını ikincil rate limiting olmadan istikrarlı biçimde geri getirmeyi başarmıştı
  • Tekil bağımlılığın kaldırılması

    • Railway ağı, Metal <> GCP <> AWS arasında yüksek erişilebilirlikli fiber ara bağlantılardan oluşan bir mesh ring yapısıdır
    • Ancak bu halka içinde bile iş yükü keşfedilebilirliği, Google Cloud makinelerinde çalışan ağ kontrol düzlemi API’sine bağlı güçlü bir bağımlılık olarak kalmıştı
    • Mesh yaklaşık bir saat boyunca çalışmayı sürdürdü, ancak rota önbelleğinin süresi dolunca rota tablolarını yeniden dolduramadığı için başarısız oldu
    • Railway şimdi bu bağımlılığı derhal kaldırıp yapıyı gerçek bir mesh haline getirmek için çalışıyor
    • Amaç, herhangi bir ara bağlantı kopsa bile bulutlar arasında her zaman bir yolun kalmasını sağlamak
  • Veritabanı ve failover iyileştirmeleri

    • Railway, yüksek erişilebilirlikli veritabanı shard’larını AWS ve Metal geneline yaymayı planlıyor
    • Gelecekte belirli bir buluttaki tüm instance’lar aniden kaybolsa bile veritabanı quorum’unun hizmeti sürdürmesi ve artık çalışmayan iş yükleri için anında failover yapılması hedefleniyor
  • Veri düzlemi ve kontrol düzleminin yeniden tasarımı

    • Google Cloud servislerini veri düzleminin hot path’inden çıkarıp yalnızca ikincil veya failover amaçlı tutma planı sürüyor
    • Bu çalışma, host bağlantılarını mümkün kılan veri düzlemi ile kullanıcıların Railway’ye erişip yönettiği dashboard’u çalıştıran kontrol düzlemi için yeni bir mimarinin uygulanmasıyla paralel ilerliyor
    • Bu yükseltme, özellikle kullanıcıya dönük bileşenler olmak üzere çekirdek servislerin herhangi bir tek tedarikçiye ya da platforma bağımlı olmamasını sağlamayı amaçlıyor

Sorumluluk ve sonuç

  • Tedarikçi seçimine ilişkin sorumluluk Railway’ye aittir ve bu tercih de nihayetinde Railway’nin sorumluluğundadır
  • Müşteriler, arızanın nedeninin Google mı yoksa Railway mi olduğundan çok ürünün kendisine bakar; Railway’nin çalışma süresi Railway’nin sorumluluğudur

1 yorum

 
GN⁺ 2 시간 전
Hacker News yorumları
  • İlginç ve hâlâ açıklanmamış kısım, Google'ın hesabı neden işaretlediği
    Olay sonrası analize gözlemlenen zaman damgaları ne kadar eklense de, kök neden ele alınmadı
    Hikâyede “mantıklı gelmeyen” kısımda, muhtemelen kimsenin henüz kamuya açıklamak istemediği gerçek bir açıklama vardır

    • Yaklaşık 2017'de https://www.fatherly.com/ işletirken birebir aynı şeyi yaşadım
      Google hesabı önceden haber vermeden kapattı ve o sırada ayda yaklaşık 10 bin dolar harcıyorduk
      Hatta premium destek hesabı bile kilitlendi, bu yüzden destek ekibine “kilitlendiğimizi” bile bildiremedik
      Yaklaşık 8 saat sonra rastgele bir Google destek mühendisi bunun Bitcoin madenciliği yaptığımız için olduğunu söyledi ama bu tamamen saçmalıktı
      Tüm dönem için CPU kullanım grafikleri ve log'lar vardı, herhangi bir sıçrama da yoktu
      Yaklaşık 12 saat sonra tekrar açtılar ve bunun bir “kötüye kullanım tespiti yapılandırma hatası” olduğunu söylediler, ayrıca yaklaşık 100 dolarlık kredi verdiler
      AWS hakkında ne denirse densin, AWS olsaydı bir temsilci önce iletişime geçmeden müşteriye bunu yapmazdı
      O günden beri GCP'ye güvenmiyorum
    • Google bu olay raporunu beğenmiyorsa, buna kendisi yanıt vermesi gerekmiyor mu? Başta Railway'nin sebebi gerçekten bilip bilmediği bile kesin değil
    • Genelde böyle durumlarda nedenini söylemiyorlar gibi görünüyor ve görünen o ki çoğu şey otomatikleştirilmiş
      Otomasyon sistemleri hata yapar ama daha büyük sorun, tamamen opak olmaları
      Google bile o sistemin tam olarak nasıl çalıştığını bilmiyor olabilir
    • “Kök nedeni ele almadı” derken “sen” ile kimin kastedildiğini anlamadım
      Eğer Railway'nin GCP'den ayrılmak yerine buna enerji harcaması gerektiği kastediliyorsa, marka ve uzun vadeli müşteri kaybını telafi etmek için GCP'ye dava açmayı düşünmüyorlarsa neden yapsınlar bilmiyorum
      GCP hiçbir ön uyarı olmadan kapattığı anda iş zaten bitmiştir, daha fazla sormaya da gerek yok bence
    • Her zamanki gibi en üstteki yorumlar Google'a yönelik derin antipati içinde boğulmuş ve bunun Railway'yi bu konuyu ele almaya zorlayacağını sanmıyorum
  • Railway'nin bu ay teknoloji medyasında pek iyi görünmediği anlaşılıyor
    Her iki durumda da itibarın zedelenmesine diğer tarafın otomatik süreçleri neden oldu
    Aslında Google temsilcisine Gemini CLI'yi öldüren sorunu anlatacaktım ama bu olay çok daha endişe verici

    • Eğer olay, yapay zekaya yönetici kimlik bilgileri verip production veritabanını sildirdikleri ve veritabanının gerçekten silindiği olaysa, bu onların kendi hatası
      Yönetici hesap kimlik bilgilerini yapay zekaya veren yalnızca onlardı
      Üstelik kişisel sorumluluk da almadılar ve bu kesinlikle itibarlarına zarar verdi
      Bu kez en azından bir miktar sorumluluk kabul ediyorlar, bunu gelişme olarak teslim etmek gerekir
      Ayrıca GCP'nin güvenilirlik sorunları ve Google'ın müşteri desteği problemleri gerçekten ciddi
      Düzeltme: Aşağıda ilk iki paragrafın yanlış atfedildiğini ve bunun Railway değil, Railway'nin müşterisiyle ilgili olduğunu öğrendim. Özürler, Railway!
    • Başkasının platformu üzerine inşa etmek her zaman risklidir; başkasının platformu üzerine bir de platform inşa etmek daha da risklidir
      Şirketimiz geçmişte AWS üzerine bazı ek güvenceler ekleyen bir hosting sağlayıcısı kullanıyordu
      Artık AWS ihtiyaç duyduğumuz özellikleri doğrudan sağlıyor, bu yüzden normal AWS'ye geçişi tamamladık
  • Ne yazık ki bu yüzden dün Azure'a acil migration yapmak zorunda kaldım
    Neyse ki veritabanını Railway'de tutmuyorduk, bu yüzden birkaç saat içinde toparlandık
    Railway'nin sunduğu sadelik gerçekten harikaydı ama bir B2B enterprise uygulamasını o altyapıda çalıştırmaya devam etmek için fazla çok olay ve sınırlama vardı
    Üzücü bir gün :(

    • Railway, senden kaybettiği gelir için Google'a dava açabilir gibi görünüyor. Eğlenceli olurdu
    • Başta neden Railway'yi seçtiğini merak ediyorum
      Hizmeti çok iyi tanımıyorum; benzersiz özellikleri için mi seçtin yoksa fiilen sanal makine amaçlı mıydı?
      Eğer benzersiz özellikleri yüzündense, oradan çıkış migration'ının ne kadar zor olduğunu da merak ediyorum
    • Azure'un da hesabı askıya aldığı mı kastediliyor?
  • Küçük SaaS araçları veya iç ürünler için, ekip AWS ya da başka bir IaaS sağlayıcısını doğrudan yönetmek istemiyorsa iyi alternatif ne olur?

    1. Vercel - bu ay durumu kötü
    2. Supabase - bu ay durumu kötü
    3. Railway - artık bu ay onun da durumu kötü
    • DigitalOcean. Ciddiyim; çok uzun zamandır var ve her gün bağımlı olduğumuz birçok temel altyapıyı kurdu. Örneğin Ceph
    • IaaS'i doğrudan kullanamıyorsanız, hizmetin kesilebileceğini kabul etmeniz gerekir
      AWS gibi bir şey kullansanız bile, birden fazla availability zone arasında yedekli yapı kurmazsanız ara sıra kesinti yaşarsınız
      Birden fazla availability zone üzerinde yedekli yapı kursanız bile AWS tamamen izole bir mimari değildir; bazı servisler başarısız olabilir ve kesinti yaşanabilir
      Bu yüzden kesintiyi kabul edin ve size en uygun aracı kullanın. Tabii GitHub seviyesinde aşırı kötü durumlar hariç
      Eğer kesintiyi hiç kabul edemiyorsanız, kesinti olmayacağına güvenecek seviyeye gelmek için milyonlarca dolar ve aylarca çalışma gerekir
      Netflix'in Chaos Monkey'si ve o seviyedeki altyapı ancak yeterli olur
    • Buradan çıkarılacak mesaj, tek bir bulut sağlayıcısına güvenilemeyeceği gibi görünüyor
      En azından tam operasyonel kabiliyete sahip iki sağlayıcı gerekir
    • Neden kimse bare-metal sunucu veya VPS satın alabileceğini düşünmüyor anlamıyorum
      Kullandıkça öde ücretleri olmadan da epey yol alınabilir
    • Aracı sağlayıcılar değer katabilir ama risk de getirir; bu yüzden AWS, GCP vb. kullanmak istememenizin nedenini önce değerlendirirdim
      Büyük bulut sağlayıcıları, Railway'nin sunduğundan yalnızca biraz daha zor servisler veriyor ve ihtiyaç arttıkça daha gelişmiş özelliklere genişleyebiliyorsunuz
      Özellikleri, güvenliği ve erişilebilirliği kontrol eden bir üçüncü taraf eklemek zorunda kalmıyorsunuz
      Örneğin bu zaman çizelgesine göre GCP 7 dakika içinde yanıt verdi
      Cloud Run kullanıyor olsaydınız kesinti süresi 7 saatten fazla kısalırdı; ayrıca bilinmeyen tetikleyici başka müşteri aktiviteleriyle veya Railway'nin garip davranışlarıyla ilgiliyse, belki de en başta etkilenmezdiniz
      Bir de karmaşıklık var
      Railway'nin düzeltmek zorunda kaldığını yazdığı karmaşık altyapının önemli bir kısmı, yalnızca kendi hesabınızı kullansanız gerekli olmayacaktı
      O kod muhtemelen faydalı işler yapıyordur ama hosting sağlayıcısı için gerekli olup normal kullanıcı için gerekmeyen çok sayıda hareketli parça var
      Bu kesinti herkesi birlikte vurdu ama tekil AWS kullanıcıları veya bare-metal kullanıcıları baştan beri etkilenmemiş olurdu
      Herkes için aynı tek bir küresel optimum yok ama geliştiriciler, dağıtım adımlarından birkaçını azaltarak kazandıkları zamana kıyasla doğrudan maliyeti ve başkasının ortamında çalışmanın daha görünmez maliyetini ciddi biçimde küçümseme eğiliminde
  • “19 Mayıs 22:10 UTC - Otomatik izleme API sağlık kontrolü başarısızlığını tespit etti, nöbetçi ekip çağrıldı ve sorumlular incelemeye başladı”
    “19 Mayıs 22:20 UTC - Google Cloud, otomatik aksiyonların bir parçası olarak Railway'nin production hesabını yanlışlıkla askıya alınmış duruma geçirdi”
    Zaman damgaları doğruysa, hesabın askıya alınmasından 10 dakika önceki hataya ne sebep oldu?
    En basit açıklama, iki zaman damgasından birinin yanlış olmasıdır; bu da tek başına büyük bir mesele değil
    Ama zaman damgalarından emin değilseniz, birbirleriyle açıkça çelişmelerine rağmen onları rapora kesinleşmiş gibi koymak oldukça tuhaf

    • Zaman damgalarının doğru olduğunu varsayarsak, Google hesabı “askıya alındı” durumuna gelmeden önce kaynakları sonlandırmaya başlamış olabilir ve tüm kaynaklar devre dışı kaldıktan sonra ancak bu durum tamamlanmış olabilir
    • Metindeki 22:20 zaman damgası yanlış
      22:10'un geçtiği zaman çizelgesi bölümü kendi içinde tutarlı ve şunu da içeriyor
      “19 Mayıs 22:19 UTC - Kök neden belirlendi: Google Cloud Platform, Railway'nin production hesabını askıya aldı”
      Bir olay gerçekleşmeden önce kök neden tespit edilemez
    • O 10 dakika aslında oldukça normal olabilir
      Örneğin bir Google çalışanı ayarları yanlışlıkla değiştirip, önceki olaylarda olduğu gibi askıya alma gerektiriyormuş gibi görünen bir sinyal üretmiş ve bunun askıya alma sürecine dönüşmesi 10 dakika sürmüş olabilir
      Ya da bir Railway müşterisi dolandırıcılık yapmış veya öyle görünmüş olabilir; Google sistemi erişimi kısıtlamaya başladıktan sonra 10 dakika boyunca bunu askıya almaya yükseltip yükseltmemeye karar vermiş olabilir
      Onay sürecinde bir insan varsa bu daha da olasıdır
      Ama belli ki o kişi, bunun yapılmaması gerektiğini görecek kadar derine inmemiş
  • GCP işleten herkes için bu bir uyarı olmalı
    GCP ne yaptığını düşünmeden hesapları sağa sola askıya alıyor gibi görünüyor
    Sanki production kararlarını Gemini 3.1 Pro'ya verdiriyorlar
    TK'nin, OCI'de olduğu gibi kurum kültürünü tamamen bozma geçmişi var ve duyduğuma göre GCP'de de benzer şeyler yaptı
    GCP ile Google tamamen farklı çalışma biçimlerine sahip organizasyonlar
    Sırf adında Google var diye Google kalitesi beklememek gerekir
    Nokia gibi, bugün ucuz lisanslı ürünlere yapıştırılan eski bir marka gibi. Abartı ama gerçekten çok da uzak değil
    Bununla da kalmıyor; servisleri rastgele kapatıp migration için yaklaşık 6 ay süre vermesiyle de tanınıyor
    Yapacak işi olmayan çok sayıda mühendisi olduğu için iç kullanıcıları o servislerden çıkarmaya yönlendirebiliyor ama müşterilerin çoğu bunu yapamaz
    Eski bir GCP çalışanının yazdığı harika bir yazı vardı ama şimdi bulamıyorum
    İşinizi ciddiye alıyorsanız GCP'den vebadan kaçar gibi kaçınmalısınız
    Düzeltme: İronik biçimde Gemini o yazıyı buldu. Okumaya değer: https://steve-yegge.medium.com/dear-google-cloud-your-deprec...

    • Üstelik bu Railway
      HN ana sayfasında en üste çıkacak kadar bilinen bir isim ve belli bir ölçekte, bir noktada Google içinde müdahale edecek birini bulabilmesi gerekir
      Bu benim yaptığım küçük bir ürün olsaydı, hiçbir başvuru yolum olmazdı
    • “Sırf adında Google var diye Google kalitesi beklemeyin” sözü, son birkaç on yılda deneyimlediğim Google kalitesiyle birebir örtüşüyor
    • GCP hiçbir zaman desteğiyle ünlü olmadı ve servis kapatmaları da hep büyük bir risk oldu
      Asıl ürün kalitesi iyi olduğu için bu daha da üzücü
      Rahatlıkla 2 numaralı sağlayıcı olabilirdi ama Azure çok dengesiz ve dokümantasyonu da düşük seviyede
      GCP'nin 3. sırada olması büyük ölçüde kendi yarattığı bir sonuç
    • Dışarıdan bakınca TK, GCP'nin büyüme eğrisine göre işini iyi yapıyor gibi görünüyor
      Tamamen dayanaksız kişisel değerlendirmem şu: Google'ın gevşek enterprise yaklaşımını düzeltmek için disiplinli bir yetişkin rolüyle getirildi
      Bu olayın da gösterdiği gibi daha gidilecek yol var ama “ciddi” bir enterprise organizasyonu olmak için muhtemelen buna ihtiyaç vardı
      Ama bu süreçte Google'ın geri kalanıyla çatışan bir kültür yaratmış olabilir
      Yine de OCI'de yıkılacak bir kültür gerçekten var mıydı? Tersine, TK'nin o kültürü Google'a taşımış olması daha olası görünüyor
    • Tüm Google ürünleri böyle çalışıyor
      Önemli hiçbir iş için kullanılmamalı
  • Google Cloud'un müşteri hesaplarını ciddi biçimde bozduğu ilk olay bu değil: https://cloud.google.com/blog/products/infrastructure/detail...

  • “Railway, tedarikçi seçimi konusunda sorumluluğu üstlenir ve sonuçta bu seçim de bizim sorumluluğumuzdur. Müşteriler bir kesintinin Google'dan mı Railway'den mi kaynaklandığını umursamaz. Müşterinin gördüğü bizim ürünümüzdür. Çalışma süreniz bizim sorumluluğumuzdur ve bunu sağlamaya devam edeceğiz”
    Bunu PR diliyle geçiştirmeyip kabul etmeleri takdire değer
    GCP'ye güvenmek Railway tarafında bir mimari başarısızlıktı ve bunu düzeltmeye çalıştıklarını gösteriyor
    Bunu önceden öngörmeleri gerekir miydi? Evet. Yine de hiç yapmamaktan iyidir, geç de olsa yapmak

    • Bir yerlerden UVic ESS ofis şablon metni gibi geliyor :P
  • “Son olarak, Google Cloud servislerini data plane'in hot path'inden çıkarıp yalnızca ikincil/failover amaçları için tutma planları yapıyoruz”
    Oldukça açık
    Google artık bir B2B hizmet sağlayıcısı olarak güvenilir değil

    • Meta da farklı değil
      Bir şirkette, geliştiricilerden birinin kişisel Facebook hesabı hiçbir neden olmadan Meta tarafından engellendi diye, şirketin Meta OAuth uygulaması tamamen kullanılamaz hale gelmişti
      Defalarca escalation yapıldı ama hiçbir yere ulaşılamadı
      Meta, hesabın “kişisel” olmak zorunda olması nedeniyle daha da kötü
      Business Manager olsa bile oraya eklenen tüm kullanıcılar kişisel Meta/Facebook hesaplarına bağlı
      Saçmalık
    • Daha fazla şirketin bu mesajı duyması gerekiyor
      Google tam da bu tür sorunlar yüzünden bir hizmet sağlayıcısı olarak güvenilemeyeceğini defalarca kanıtladı
    • Yine de para vermeye devam edecek kadar güveniyor olmaları, büyük teknoloji şirketlerinin ne kadar derine kök saldığını gösteriyor
      Bu yüzden onlarca parçaya bölünmeleri gerekiyor
    • Google'ın hesapları açıklama yapmadan askıya alma veya kapatma geçmişi çok eskiye gidiyor
      Çoğu zaman ancak kullanıcılar öfkelerini kamuya taşıyıp olay yayılınca gecikmeli olarak geri adım atıyorlar
      Google, ücretli müşterilere karşı hiçbir yükümlülüğü yokmuş gibi davranmayı hep sürdürdü
    • Hesabın neden askıya alındığını açıklamadılar
      Bence en önemli kısım bu
      Bir bulut sağlayıcısı hiçbir sebep yokken tüm hesabı askıya almaz