- Cloudflare küresel ağında iç hizmet performansında düşüş yaşandı ve birçok hizmet aralıklı olarak etkilendi
- Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers gibi başlıca hizmetler geçici kesintiler yaşadı
- Mühendislik ekibi sorunu tespit ederek düzeltme çalışmalarını yürüttü ve WARP ile Access hizmetleri önce geri yüklendi
- Ardından dünya genelinde hata oranı ve gecikme kademeli olarak normal seviyelere döndü, dashboard hizmeti de yeniden sağlandı
- Şu anda tüm hizmetler normal şekilde çalışıyor ve olay tamamen çözüldü
Olay özeti
- Cloudflare, iç hizmetlerde performans düşüşü (Internal Service Degradation) yaşarken bazı hizmetlerde aralıklı kesintiler görüldü
- Etkilenen hizmetler arasında Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers yer aldı
- Şirket hemen kurtarma çalışmalarına başladı ve sorunun çözüm sürecine ilişkin güncellemeleri düzenli olarak paylaştı
Sorunun tespiti ve ilk müdahale
- Cloudflare, inceleme sürüyor (Investigating) aşamasında iç hizmetlerdeki düşüşü doğruladı
- Bazı müşteriler aralıklı hatalar ve gecikmeler yaşadı
- Mühendislik ekibi bir yandan kök nedeni analiz ederken diğer yandan kurtarma çalışmalarını sürdürdü
- Daha sonra sorunun kaynağı tespit edildi (Identified) ve düzeltme çalışmaları başlatıldı
- Düzeltme sırasında Londra bölgesinde WARP bağlantısı geçici olarak devre dışı bırakıldı ve bu bölgedeki kullanıcılar internet bağlantısı başarısızlıkları yaşadı
Hizmetlerin geri yüklenmesi
- Düzeltme çalışmalarının ardından Access ve WARP hizmetleri önce geri yüklendi ve hata oranı olay öncesi seviyelere döndü
- Londra bölgesindeki WARP bağlantısı yeniden etkinleştirildi
- Sonrasında Application Services müşterilerine yönelik hizmet geri yükleme çalışmaları devam etti
- Dashboard hizmetini geri getirmek için değişiklikler dağıtıma alındı
- Bazı müşteriler hâlâ oturum açma veya dashboard kullanımıyla ilgili sorunlar yaşasa da, ek düzeltmelerle bunlar çözüldü
Ağ genelinde istikrarın sağlanması
- Dünya genelinde hata oranı ve gecikme (latency) kademeli olarak azalarak normal seviyelere döndü
- Bot Management'in skor hesaplaması (bot scores) geçici olarak etkilendi ancak geri yükleme sürecinde normale döndü
- Mühendislik ekibi kalan hataları giderdi ve ağın tamamının toparlanmasını hızlandırdı
- Ardından tüm hizmetler normal şekilde çalışmaya başladı ve hata oranı ile gecikme tamamen normale döndü
Olayın kapanışı ve sonraki adımlar
- Cloudflare, tüm hizmetlerin normal çalıştığını doğrulayıp olayı kapattı
- Şu anda ek bir yapılandırma değişikliği yok ve platform yakından izleniyor
- Olayın nedenine ilişkin olay sonrası inceleme (post-incident investigation) sürüyor ve sonuçların daha sonra paylaşılması planlanıyor
- Bu kesinti, küresel ağın genelini etkileyen bir olay olarak kayda geçti
1 yorum
Hacker News görüşleri
Cloudflare API token’ı olan biri, CF proxy’yi devre dışı bırakmaya yarayan komutu paylaştı
curlkomutuyla zone ID ve DNS kayıtları alınabiliyor; ardındanPATCHisteğiyle"proxied": falseolarak ayarlanabiliyorAncak SSL sertifikasının kaybolması, güvenlik/performans düşüşü ve backend IP’sinin açığa çıkması riski olduğuna dikkat etmek gerekiyor
X-Auth-EmailveX-Auth-Keyheader’larını kullanabilirsinizAyrıca sadece Cloudflare trafiğine izin verecek şekilde ayar yapanların bu kuralı geçici olarak kapatması gerekiyor
Neyse ki şimdi yeniden online duruma geldi
curliçinde GET isteği varsayılandır, dolayısıyla-X GETgerekmez-dseçeneği kullanılırsa otomatik olarak POST olur; PATCH için-X PATCHdoğrudurAma tünellemeden sonra bile bazı siteler hâlâ kısmen erişilemez durumda
Cloudflare CTO’sunun açıklamasına göre, bot engelleme sistemindeki potansiyel bir bug, yapılandırma değişikliğinden sonra kontrolden çıkarak ağ genelinde kesintiye yol açtı
Kaynakta, bunun bir saldırı değil iç sorun olduğu anlatılıyor
Kod da ayar da veridir; tüm dünyaya tek seferde dağıtım yapılıp büyük kesintiler yaşanması şeklindeki desen tekrar ediyor
Bir iş arkadaşım bir anda koşarak geldi; Cloudflare ayarını değiştirdikten hemen sonra sitenin çökmesi yüzünden soruna kendisinin neden olduğunu sanıp paniklemiş
Bu yazıyı görünce rahatlamış
“Cloudflare down” mesajını görünce içten içe gerçekten rahatladım
Hollanda’dan baktığımda neredeyse tüm servisler çökmüştü
Cloudflare dashboard’una girilemiyordu, Betterstack dashboard’u da aynı durumdaydı
İşin ironik yanı, status sayfası ayaktaydı ama müşterilere duyuru yapılamıyordu
“Gerek yoksa Cloudflare arkasına koymayın” diye bir blog yazısı yazdım
Yine de böyle büyük kesintiler olduğunda müşteriler beklenmedik şekilde anlayış gösterebiliyor
Birkaç dakika sürdü ama hcker.news’ü CF’den ayırdım
altta harici bir status sayfasına bağlı gerçek zamanlı uptime widget’ı bulunduruyorum
status SVG ve
harici status sayfasına bakabilirsiniz
Cloudflare ya da AWS durduğunda, self-hosted servislerimin gayet iyi çalıştığını görmenin ayrı bir hazzı var
Onların %99.999 erişilebilirliğinden daha istikrarlı olan şu anda benim
Artık bir uptime tracker mı eklesem diye düşünüyorum
Yeni SaaS şirketlerinin çıkaracağı ders bu olmalı
Küçük sitemin bu yüzden çökmesi hem komik hem de tuhaf biçimde tatmin edici
Son dönemde büyük altyapı kesintileri hızla artmış gibi geliyor. AWS ve Cloudflare’ın ikisi de SLA’in çok altında kalıyor
Bunlar gerçek uptime değil, şirketlerin keyfine göre tanımladığı ölçüler
Cloudflare ya da AWS durduğunda web’in yarısının durması, merkezileşme sorununu ciddi biçimde gösteriyor
Bu yapının değişmemesinin nedeni de bu
Küçük CDN’lerin rekabet etmesi zorlaşıyor; sonuçta doğal tekel benzeri bir yapı ortaya çıkıyor
Cloudflare’ın ücretsiz plan sunması da bu ağ etkisini hedefleyen bir stratejiydi
Ayrıca devlet sansürünün yoğunlaşacağı bir hedef hâline gelme riski de büyük
Web’in üçte ikisi ona bağımlı; sertifika ömürleri giderek kısalıyor ve hacklenme ya da kesinti yaşanırsa tüm web felç olabilir
Şu an iyi niyetli bir kurum olabilir ama geçmişte Google için de benzer şeyler düşünülüyordu
Yazılım seviyesinde çok yedek var ama altyapı seviyesinde multi-hosting sağduyusu kayboldu
İşin ironik tarafı, DownDetector da Cloudflare Turnstile kullandığı için o da çöktü
Cloudflare’ın “Your browser: Working / Host: Working / Cloudflare: Error” şeklindeki görsel özür mesajı etkileyiciydi
Cloudflare Challenge (“I’m not a robot”) kullanan siteler de HTTP 500 hatası vererek durdu
“challenges.cloudflare.com için engeli kaldırın” mesajı çıkıyordu
ya da sonsuz yükleme ekranı gösteriyor. Oysa backend aslında çok net bir hata döndürüyor ama frontend bunu gizliyor
Yakın zamanda, parolanın fazla uzun olduğunu söylemesi gerekirken “e-posta zaten kullanımda” hatası gösteren bir örnek bile gördüm
İşin ironik yanı, AI’ye insan olduğunuzu kanıtlamanız gereken bir durum oluşmasıydı
Cloudflare Captcha’nın çökmüş olamayacağına dair o /s tarzı inkâr komik duruyor