1 puan yazan GN⁺ 2025-11-19 | 1 yorum | WhatsApp'ta paylaş
  • Cloudflare küresel ağında iç hizmet performansında düşüş yaşandı ve birçok hizmet aralıklı olarak etkilendi
  • Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers gibi başlıca hizmetler geçici kesintiler yaşadı
  • Mühendislik ekibi sorunu tespit ederek düzeltme çalışmalarını yürüttü ve WARP ile Access hizmetleri önce geri yüklendi
  • Ardından dünya genelinde hata oranı ve gecikme kademeli olarak normal seviyelere döndü, dashboard hizmeti de yeniden sağlandı
  • Şu anda tüm hizmetler normal şekilde çalışıyor ve olay tamamen çözüldü

Olay özeti

  • Cloudflare, iç hizmetlerde performans düşüşü (Internal Service Degradation) yaşarken bazı hizmetlerde aralıklı kesintiler görüldü
    • Etkilenen hizmetler arasında Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers yer aldı
    • Şirket hemen kurtarma çalışmalarına başladı ve sorunun çözüm sürecine ilişkin güncellemeleri düzenli olarak paylaştı

Sorunun tespiti ve ilk müdahale

  • Cloudflare, inceleme sürüyor (Investigating) aşamasında iç hizmetlerdeki düşüşü doğruladı
    • Bazı müşteriler aralıklı hatalar ve gecikmeler yaşadı
    • Mühendislik ekibi bir yandan kök nedeni analiz ederken diğer yandan kurtarma çalışmalarını sürdürdü
  • Daha sonra sorunun kaynağı tespit edildi (Identified) ve düzeltme çalışmaları başlatıldı
    • Düzeltme sırasında Londra bölgesinde WARP bağlantısı geçici olarak devre dışı bırakıldı ve bu bölgedeki kullanıcılar internet bağlantısı başarısızlıkları yaşadı

Hizmetlerin geri yüklenmesi

  • Düzeltme çalışmalarının ardından Access ve WARP hizmetleri önce geri yüklendi ve hata oranı olay öncesi seviyelere döndü
    • Londra bölgesindeki WARP bağlantısı yeniden etkinleştirildi
  • Sonrasında Application Services müşterilerine yönelik hizmet geri yükleme çalışmaları devam etti
    • Dashboard hizmetini geri getirmek için değişiklikler dağıtıma alındı
    • Bazı müşteriler hâlâ oturum açma veya dashboard kullanımıyla ilgili sorunlar yaşasa da, ek düzeltmelerle bunlar çözüldü

Ağ genelinde istikrarın sağlanması

  • Dünya genelinde hata oranı ve gecikme (latency) kademeli olarak azalarak normal seviyelere döndü
    • Bot Management'in skor hesaplaması (bot scores) geçici olarak etkilendi ancak geri yükleme sürecinde normale döndü
    • Mühendislik ekibi kalan hataları giderdi ve ağın tamamının toparlanmasını hızlandırdı
  • Ardından tüm hizmetler normal şekilde çalışmaya başladı ve hata oranı ile gecikme tamamen normale döndü

Olayın kapanışı ve sonraki adımlar

  • Cloudflare, tüm hizmetlerin normal çalıştığını doğrulayıp olayı kapattı
    • Şu anda ek bir yapılandırma değişikliği yok ve platform yakından izleniyor
    • Olayın nedenine ilişkin olay sonrası inceleme (post-incident investigation) sürüyor ve sonuçların daha sonra paylaşılması planlanıyor
  • Bu kesinti, küresel ağın genelini etkileyen bir olay olarak kayda geçti

1 yorum

 
GN⁺ 2025-11-19
Hacker News görüşleri
  • Cloudflare API token’ı olan biri, CF proxy’yi devre dışı bırakmaya yarayan komutu paylaştı
    curl komutuyla zone ID ve DNS kayıtları alınabiliyor; ardından PATCH isteğiyle "proxied": false olarak ayarlanabiliyor
    Ancak SSL sertifikasının kaybolması, güvenlik/performans düşüşü ve backend IP’sinin açığa çıkması riski olduğuna dikkat etmek gerekiyor

    • Yalnızca eski Global API Key’e sahipseniz X-Auth-Email ve X-Auth-Key header’larını kullanabilirsiniz
      Ayrıca sadece Cloudflare trafiğine izin verecek şekilde ayar yapanların bu kuralı geçici olarak kapatması gerekiyor
    • Bir dahaki sefere bu yöntemi kullanmayı düşünmüştüm ama API token’ını önceden oluşturmadığım için beklemek zorunda kaldım
      Neyse ki şimdi yeniden online duruma geldi
    • Bunu Terraform provider ile hallettim ama dashboard’a erişemeyenler için bu yöntem faydalı
    • Güzel ipucu. Bu arada curl içinde GET isteği varsayılandır, dolayısıyla -X GET gerekmez
      -d seçeneği kullanılırsa otomatik olarak POST olur; PATCH için -X PATCH doğrudur
    • Cloudflare WARP açılınca bazı siteler tekrar çalışıyor. 1.1.1.1 de benzer bir etki yaratıyor gibi görünüyor
      Ama tünellemeden sonra bile bazı siteler hâlâ kısmen erişilemez durumda
  • Cloudflare CTO’sunun açıklamasına göre, bot engelleme sistemindeki potansiyel bir bug, yapılandırma değişikliğinden sonra kontrolden çıkarak ağ genelinde kesintiye yol açtı
    Kaynakta, bunun bir saldırı değil iç sorun olduğu anlatılıyor

    • Büyük şirketlerin hâlâ yapılandırma değişikliklerini kademeli olarak dağıtmıyor olması şaşırtıcı
      Kod da ayar da veridir; tüm dünyaya tek seferde dağıtım yapılıp büyük kesintiler yaşanması şeklindeki desen tekrar ediyor
    • Keşke bu kritik bilgi yorumların en üstünde olsaydı. Siber saldırı tahminleri arasında bulmak zordu
    • Tek bir yapılandırma değişikliği CF hissesini %4 düşürdü. Böyle kesintilerin sektör geneline ekonomik etkisinin ne kadar olduğunu merak ediyorum
  • Bir iş arkadaşım bir anda koşarak geldi; Cloudflare ayarını değiştirdikten hemen sonra sitenin çökmesi yüzünden soruna kendisinin neden olduğunu sanıp paniklemiş
    Bu yazıyı görünce rahatlamış

    • “Daha da kötü, bütün Cloudflare’i sen çökerttin” diye şaka yapıldı
    • Yine de gerçekten öyle değil mi? Daha önce Fastly’nin büyük kesintisi olmuştu, o yüzden insanın içinde bir şüphe kalıyor
    • Birinin hata yapmadığını öğrenince hissedilen o garip rahatlama için tam uygun bir kelime var mı diye merak ediyorum
    • Belki de o iş arkadaşı Cloudflare çalışanıdır
    • Ben de müşterilerden sitenin çalışmadığına dair onlarca mesaj aldım; dün ayar değiştirdiğim için soğuk terler döktüm
      “Cloudflare down” mesajını görünce içten içe gerçekten rahatladım
  • Hollanda’dan baktığımda neredeyse tüm servisler çökmüştü
    Cloudflare dashboard’una girilemiyordu, Betterstack dashboard’u da aynı durumdaydı
    İşin ironik yanı, status sayfası ayaktaydı ama müşterilere duyuru yapılamıyordu

    • Ben de aynısını yaşadım. HN’nin sağlam kalmasının nedeni Cloudflare kullanmıyor olması
      “Gerek yoksa Cloudflare arkasına koymayın” diye bir blog yazısı yazdım
    • AWS ya da Cloudflare’a aşırı bağımlı olmanın tehlikeli olduğunu her yıl yeniden anlıyoruz ama alternatif üretmek kolay değil
      Yine de böyle büyük kesintiler olduğunda müşteriler beklenmedik şekilde anlayış gösterebiliyor
    • Cloudflare dashboard’u tamamen ölü değildi; ısrarla denerseniz proxy’yi kapatabiliyordunuz
      Birkaç dakika sürdü ama hcker.news’ü CF’den ayırdım
    • Böyle durumları görünce, yerel bir VPS üzerinde status sayfası barındıran bir servis kurmanın iş fırsatı olabileceği hissi doğuyor
    • Yan projem Total Real Returns içinde
      altta harici bir status sayfasına bağlı gerçek zamanlı uptime widget’ı bulunduruyorum
      status SVG ve
      harici status sayfasına bakabilirsiniz
  • Cloudflare ya da AWS durduğunda, self-hosted servislerimin gayet iyi çalıştığını görmenin ayrı bir hazzı var
    Onların %99.999 erişilebilirliğinden daha istikrarlı olan şu anda benim

    • Benim basit kişisel sitem bile AWS, Azure ve Cloudflare kesintilerinde tamamen ayakta kaldı
      Artık bir uptime tracker mı eklesem diye düşünüyorum
    • Benim self-hosted sitem ise tam tersine Cloudflare proxy yüzünden çöktü. İnsanın hevesi kaçıyor
    • Geleneksel şirketler Oracle, SAP gibi sistemler çalışmaya devam ederken, yalnızca yeni cloud tabanlı servislerin durduğu durumlar yaşıyor
      Yeni SaaS şirketlerinin çıkaracağı ders bu olmalı
    • DNS’i nasıl yönettiğimi soran çok oluyor. Ben de Raspberry Pi üzerinde host ediyorum ve DNS’i kısa süre önce Cloudflare’a taşıdım
      Küçük sitemin bu yüzden çökmesi hem komik hem de tuhaf biçimde tatmin edici
  • Son dönemde büyük altyapı kesintileri hızla artmış gibi geliyor. AWS ve Cloudflare’ın ikisi de SLA’in çok altında kalıyor

    • Bu durum, büyük şirketlerin kitlesel işten çıkarmalar yapıp yerini AI ile dolduracaklarını söyledikleri döneme denk geliyor
    • Bu tür kesintiler, SLA’deki ‘9 sayılarının anlamsız olduğunu fark ettiriyor
      Bunlar gerçek uptime değil, şirketlerin keyfine göre tanımladığı ölçüler
    • Bazıları buna “vibe code theory” diyor. Sezgiyle yazılmış kod arttıkça bug ve kesintilerin de arttığını öne süren, yarı şaka bir teori
    • Yıl sonu deploy yasağı dönemi ile Q4 hedef baskısının çakışması sonucu oluşan acele deploy kültürünün neden olduğu da söyleniyor
    • Ya da bunun ülke ölçeğinde bir siber saldırı olabileceğine dair komplovari bir bakış da var
  • Cloudflare ya da AWS durduğunda web’in yarısının durması, merkezileşme sorununu ciddi biçimde gösteriyor

    • Kullanıcılar da bunu çok umursamıyor. “İnternet çöktü” algısı sayesinde tekil servisler sorumluluktan kaçabiliyor
      Bu yapının değişmemesinin nedeni de bu
    • DDoS savunmasında ölçek ekonomisi çalışıyor. Müşteri sayısı arttıkça bant genişliği büyüyor ve savunma güçleniyor
      Küçük CDN’lerin rekabet etmesi zorlaşıyor; sonuçta doğal tekel benzeri bir yapı ortaya çıkıyor
      Cloudflare’ın ücretsiz plan sunması da bu ağ etkisini hedefleyen bir stratejiydi
    • Tek bir arıza noktasından daha kaygı verici olan şey, bu merkezileşmenin web standartlarını ve bağımsız hosting’in geleceğini çarpıtabilmesi
      Ayrıca devlet sansürünün yoğunlaşacağı bir hedef hâline gelme riski de büyük
    • Let’s Encrypt de potansiyel bir risk barındırıyor.
      Web’in üçte ikisi ona bağımlı; sertifika ömürleri giderek kısalıyor ve hacklenme ya da kesinti yaşanırsa tüm web felç olabilir
      Şu an iyi niyetli bir kurum olabilir ama geçmişte Google için de benzer şeyler düşünülüyordu
    • AWS furyasından sonra geliştiricilerin dedicated server yerine yalnızca cloud’a bağımlı hâle gelmesi de sorunlardan biri
      Yazılım seviyesinde çok yedek var ama altyapı seviyesinde multi-hosting sağduyusu kayboldu
  • İşin ironik tarafı, DownDetector da Cloudflare Turnstile kullandığı için o da çöktü

    • AWS kesintisi bildirimleri de patladı ama büyük olasılıkla false positive idi
    • Ben de bunu gördüm
  • Cloudflare’ın “Your browser: Working / Host: Working / Cloudflare: Error” şeklindeki görsel özür mesajı etkileyiciydi

    • Bu ekranı ilk kez gördüm. Ama benim durumumda “Host” Cloudflare Pages olduğu için anlam biraz tuhaftı
    • “Cloudflare”a tıklayınca hâlâ sorunun müşteri sunucusunda olduğunun söylenmesi biraz komik
    • Dürüst bir mesaj olduğu için hoşuma gitti ama kullanıcıların tepkisi yine “Wi-Fi’ı düzeltir misin?” oldu
    • Yine de durumun ne olduğu netleştiği için müdahale etmek mümkündü. Gerekirse proxy’yi devre dışı bırakıp servis etkisi azaltılabiliyordu
    • Ben de bir saat boyunca log’ları didikledikten sonra sorunun kendi sunucumda olmadığını anladım
  • Cloudflare Challenge (“I’m not a robot”) kullanan siteler de HTTP 500 hatası vererek durdu
    “challenges.cloudflare.com için engeli kaldırın” mesajı çıkıyordu

    • Son zamanlarda hata işleme seviyesi çok kötü. Şirketler sorumluluktan kaçmak için kullanıcıyı suçluyor
      ya da sonsuz yükleme ekranı gösteriyor. Oysa backend aslında çok net bir hata döndürüyor ama frontend bunu gizliyor
      Yakın zamanda, parolanın fazla uzun olduğunu söylemesi gerekirken “e-posta zaten kullanımda” hatası gösteren bir örnek bile gördüm
    • Bu kesinti yüzünden chat.bing.com’un AI araması (GPT5) da durdu
      İşin ironik yanı, AI’ye insan olduğunuzu kanıtlamanız gereken bir durum oluşmasıydı
    • Bazı siteler (pinkbike gibi) “you have been blocked” mesajı gösteriyordu
    • Yani yalnızca robotlar değil, gerçek insanlar da engellenmiş oldu /s
    • Görünüşe göre frontend, kullanıcının DNS ya da eklentilerle ilgili domain’i engellediğini sanıyor
      Cloudflare Captcha’nın çökmüş olamayacağına dair o /s tarzı inkâr komik duruyor