1 puan yazan GN⁺ 2025-12-06 | Henüz yorum yok. | WhatsApp'ta paylaş
  • 2025-12-05 08:47 UTC'de Cloudflare ağının bir kısmı ciddi bir arıza yaşadı ve yaklaşık 25 dakika sonra, saat 09:12'de tamamen düzeltildi
  • Toplam HTTP trafiğinin yaklaşık %28'i etkilendi ve yalnızca belirli koşulları karşılayan müşteriler arıza yaşadı
  • Neden, React Server Components açığı (CVE-2025-55182) için yapılan WAF(gövde ayrıştırma mantığı) değişikliğiydi; olayın bir siber saldırı veya kötü niyetli eylemle ilgisi yoktu
  • FL1 proxy'deki bir kod hatası nedeniyle HTTP 500 hatası üretildi; yeni Rust tabanlı FL2 proxy'sinde aynı hata oluşmadı
  • Cloudflare, Kasım 18 arızasından sonra da benzer bir sorunun tekrarlandığını kabul ederek, dağıtım güvenliği ve dayanıklılık artırma projesini en yüksek öncelik olarak yürütüyor

Arıza özeti

  • 2025-12-05 saat 08:47 UTC'de Cloudflare ağının bir bölümünde arıza meydana geldi
    • 09:12'de tüm servisler geri yüklendi; toplam etki süresi 25 dakika oldu
    • Toplam HTTP trafiğinin yaklaşık %28'i etkilendi
  • Arıza, siber saldırı veya kötü niyetli bir eylemle ilgisi olmaksızın iç bir ayar değişikliği sırasında meydana geldi
  • React Server Components için yeni güvenlik açığına yanıt olarak yapılan WAF gövde ayrıştırma mantığı değişikliği tetikleyiciydi

Arıza nedeni ve teknik arka plan

  • Cloudflare WAF, zararlı yükleri tespit etmek için HTTP istek gövdesini bellekte tamponlar
    • Mevcut tampon boyutu 128 KB'den 1 MB'a çıkarılıyordu
  • Yeni tampon boyutunu desteklemeyen iç test aracı nedeniyle test aracını devre dışı bırakmaya yönelik ikinci bir değişiklik yapıldı
    • Bu değişiklik, küresel yapılandırma sistemi aracılığıyla anında tüm sunuculara yayıldı
  • FL1 proxy'de bu değişiklik hata durumuna yol açarak HTTP 500 yanıtları üretti
    • Hata iletisi: attempt to index field 'execute' (a nil value)
  • Sorun hemen tespit edilip 09:12'de değişiklik geri alındı

Etki alanı

  • FL1 proxy kullanan ve Cloudflare Managed Ruleset'i etkinleştiren yalnızca müşteriler etkilendi
    • Bu etkilenen alanlardaki tüm istekler HTTP 500 hatası döndürdü
    • /cdn-cgi/trace gibi bazı test uç noktaları istisna oldu
  • Çin ağı ve farklı konfigürasyonlu müşteriler etkilenmedi

Çalışma zamanı hatası ayrıntıları

  • Cloudflare'in kurallar kümeleri (rulesets) sistemi her istek için kuralları değerlendirir
    • Kurallar filtre ve eylemlerden oluşur; execute eylemi başka bir kurallar kümesini çağırır
  • İç loglama sistemi, test kurallarını değerlendirmek için execute kullanır
  • killswitch sistemi, hatalı davranan kuralları devre dışı bırakacak şekilde tasarlanmıştır, ancak
    • execute eylemi içeren kurallarda killswitch uygulaması bu ilk olaya denk geldi
  • execute nesnesi mevcut değilken buna erişilmeye çalışılmasıyla Lua hatası oluştu
  • Bu hata, yıllardır var olan basit bir kod hatasıydı
    • Rust ile yazılmış FL2 proxy'de aynı hata ortaya çıkmadı

18 Kasım arızasından sonraki geliştirme durumu

  • 18 Kasım'da da benzer bir küresel dağıtım kaynaklı geniş kapsamlı arıza yaşanmıştı
  • O dönemde yüzlerce müşteriyle doğrudan iletişime geçilerek tek bir güncellemenin tüm ağda yayılmasının önlenmesi planı paylaşılmıştı
  • Bu geliştirme çalışması henüz tamamlanmadığı için bu arıza etkilenmiş oldu
  • Cloudflare bunu organizasyon çapında en yüksek öncelik olarak tanımladı

Devam eden dayanıklılık artırma projeleri

  • Gelişmiş Dağıtım ve Sürümleme (Enhanced Rollouts & Versioning)
    • Tehdit yanıtı için veri ve yapılandırma değişikliklerine aşamalı dağıtım, sağlık doğrulaması ve hızlı geri alma özellikleri uygulanacak
  • Hızlı Müdahale (Streamlined Break Glass) Kabiliyetleri
    • İç servisler ve kontrol düzlemi etkileşimlerinde de acil durumda müdahale edilebilirlik sağlanacak
  • Fail-Open hata işleme
    • Yapılandırma dosyası hatalarında istekleri engellemek yerine varsayılan güvenli duruma dönme veya trafiği geçirme davranışı uygulanacak
    • Bazı hizmetlerde fail-open/fail-closed seçim seçeneği sunulacak
  • Bir sonraki hafta içinde tüm dayanıklılık projelerinin ayrıntıları açıklanacak
  • O zamana kadar ağ değişiklikleri tamamen durdurulmuş (lockdown) durumda tutulacak

Zaman Çizelgesi (UTC)

  • 08:47 – yapılandırma değişikliği dağıtıldı ve ağ yayılımı başladı
  • 08:48 – tüm etki oluştu
  • 08:50 – otomatik uyarı ile olay ilan edildi
  • 09:11 – değişiklik geri alınmaya başladı
  • 09:12 – toparlanma tamamlandı, tüm trafik normalleşti

Sonuç

  • Cloudflare, ardışık iki arızanın ciddiyetini kabul ederek müşterilerine ve internet ekosistemine özür diledi
  • Gelecekte benzer olayları önlemek için dağıtım güvenliği, hata toleransı ve dayanıklılığı güçlendirme planlarını ilerletecek

Henüz yorum yok.

Henüz yorum yok.