- 2025-12-05 08:47 UTC'de Cloudflare ağının bir kısmı ciddi bir arıza yaşadı ve yaklaşık 25 dakika sonra, saat 09:12'de tamamen düzeltildi
- Toplam HTTP trafiğinin yaklaşık %28'i etkilendi ve yalnızca belirli koşulları karşılayan müşteriler arıza yaşadı
- Neden, React Server Components açığı (CVE-2025-55182) için yapılan WAF(gövde ayrıştırma mantığı) değişikliğiydi; olayın bir siber saldırı veya kötü niyetli eylemle ilgisi yoktu
- FL1 proxy'deki bir kod hatası nedeniyle HTTP 500 hatası üretildi; yeni Rust tabanlı FL2 proxy'sinde aynı hata oluşmadı
- Cloudflare, Kasım 18 arızasından sonra da benzer bir sorunun tekrarlandığını kabul ederek, dağıtım güvenliği ve dayanıklılık artırma projesini en yüksek öncelik olarak yürütüyor
Arıza özeti
- 2025-12-05 saat 08:47 UTC'de Cloudflare ağının bir bölümünde arıza meydana geldi
- 09:12'de tüm servisler geri yüklendi; toplam etki süresi 25 dakika oldu
- Toplam HTTP trafiğinin yaklaşık %28'i etkilendi
- Arıza, siber saldırı veya kötü niyetli bir eylemle ilgisi olmaksızın iç bir ayar değişikliği sırasında meydana geldi
- React Server Components için yeni güvenlik açığına yanıt olarak yapılan WAF gövde ayrıştırma mantığı değişikliği tetikleyiciydi
Arıza nedeni ve teknik arka plan
- Cloudflare WAF, zararlı yükleri tespit etmek için HTTP istek gövdesini bellekte tamponlar
- Mevcut tampon boyutu 128 KB'den 1 MB'a çıkarılıyordu
- Yeni tampon boyutunu desteklemeyen iç test aracı nedeniyle test aracını devre dışı bırakmaya yönelik ikinci bir değişiklik yapıldı
- Bu değişiklik, küresel yapılandırma sistemi aracılığıyla anında tüm sunuculara yayıldı
- FL1 proxy'de bu değişiklik hata durumuna yol açarak HTTP 500 yanıtları üretti
- Hata iletisi:
attempt to index field 'execute' (a nil value)
- Sorun hemen tespit edilip 09:12'de değişiklik geri alındı
Etki alanı
- FL1 proxy kullanan ve Cloudflare Managed Ruleset'i etkinleştiren yalnızca müşteriler etkilendi
- Bu etkilenen alanlardaki tüm istekler HTTP 500 hatası döndürdü
/cdn-cgi/trace gibi bazı test uç noktaları istisna oldu
- Çin ağı ve farklı konfigürasyonlu müşteriler etkilenmedi
Çalışma zamanı hatası ayrıntıları
- Cloudflare'in kurallar kümeleri (rulesets) sistemi her istek için kuralları değerlendirir
- Kurallar filtre ve eylemlerden oluşur;
execute eylemi başka bir kurallar kümesini çağırır
- İç loglama sistemi, test kurallarını değerlendirmek için
execute kullanır
- killswitch sistemi, hatalı davranan kuralları devre dışı bırakacak şekilde tasarlanmıştır, ancak
execute eylemi içeren kurallarda killswitch uygulaması bu ilk olaya denk geldi
execute nesnesi mevcut değilken buna erişilmeye çalışılmasıyla Lua hatası oluştu
- Bu hata, yıllardır var olan basit bir kod hatasıydı
- Rust ile yazılmış FL2 proxy'de aynı hata ortaya çıkmadı
18 Kasım arızasından sonraki geliştirme durumu
- 18 Kasım'da da benzer bir küresel dağıtım kaynaklı geniş kapsamlı arıza yaşanmıştı
- O dönemde yüzlerce müşteriyle doğrudan iletişime geçilerek tek bir güncellemenin tüm ağda yayılmasının önlenmesi planı paylaşılmıştı
- Bu geliştirme çalışması henüz tamamlanmadığı için bu arıza etkilenmiş oldu
- Cloudflare bunu organizasyon çapında en yüksek öncelik olarak tanımladı
Devam eden dayanıklılık artırma projeleri
- Gelişmiş Dağıtım ve Sürümleme (Enhanced Rollouts & Versioning)
- Tehdit yanıtı için veri ve yapılandırma değişikliklerine aşamalı dağıtım, sağlık doğrulaması ve hızlı geri alma özellikleri uygulanacak
- Hızlı Müdahale (Streamlined Break Glass) Kabiliyetleri
- İç servisler ve kontrol düzlemi etkileşimlerinde de acil durumda müdahale edilebilirlik sağlanacak
- Fail-Open hata işleme
- Yapılandırma dosyası hatalarında istekleri engellemek yerine varsayılan güvenli duruma dönme veya trafiği geçirme davranışı uygulanacak
- Bazı hizmetlerde fail-open/fail-closed seçim seçeneği sunulacak
- Bir sonraki hafta içinde tüm dayanıklılık projelerinin ayrıntıları açıklanacak
- O zamana kadar ağ değişiklikleri tamamen durdurulmuş (lockdown) durumda tutulacak
Zaman Çizelgesi (UTC)
- 08:47 – yapılandırma değişikliği dağıtıldı ve ağ yayılımı başladı
- 08:48 – tüm etki oluştu
- 08:50 – otomatik uyarı ile olay ilan edildi
- 09:11 – değişiklik geri alınmaya başladı
- 09:12 – toparlanma tamamlandı, tüm trafik normalleşti
Sonuç
- Cloudflare, ardışık iki arızanın ciddiyetini kabul ederek müşterilerine ve internet ekosistemine özür diledi
- Gelecekte benzer olayları önlemek için dağıtım güvenliği, hata toleransı ve dayanıklılığı güçlendirme planlarını ilerletecek
Henüz yorum yok.