Cloudflare 1.1.1.1 14 Temmuz 2025 Kesinti Olayı
(blog.cloudflare.com)- Cloudflare, 14 Temmuz 2025'te hizmet topolojisi değişikliği sırasında 1.1.1.1 genel DNS Resolver hizmetinde 62 dakikalık tam kesinti yaşadı
- Küresel kullanıcıların büyük çoğunluğu doğrudan etkilendi ve internete erişememe durumu yaşadı
- Kesintinin nedeni iç legacy sistemdeki hatalı yapılandırma olup, dış saldırı veya BGP hijacking ile ilgili değildi
- Kesinti, hatalı yapılandırma değişikliklerinin birikmesi ile ağ genelindeki yeniden yapılandırmanın çakışması sonucu tetiklendi
- Tekrarını önlemek için kademeli dağıtım sisteminin devreye alınması ve legacy yapılandırma sisteminin kullanımdan kaldırılması planlanıyor
Genel Bakış
14 Temmuz 2025'te Cloudflare, hizmet topolojisi değişikliği sırasında 1.1.1.1 genel DNS Resolver üzerinde küresel bir ağ kesintisine neden oldu. Bu kesinti nedeniyle 1.1.1.1 ve Gateway DNS hizmetlerini kullanan kullanıcılar 62 dakika boyunca internet hizmetine erişememe veya ciddi hizmet bozulması yaşadı. Olayın nedeni, iç legacy sistemdeki bir yapılandırma hatasıydı; dış saldırı ya da BGP hijacking kaynaklı değildi.
Kesintinin Kapsamı ve Etkisi
- 21:52 UTC ~ 22:54 UTC arasında 1.1.1.1 Resolver dünya genelinde fiilen çalışamaz durumdaydı
- Küresel müşterilerin büyük bölümü alan adı çözümlemesi yapamadığı için interneti fiilen kullanamadı
- Kesinti durumu Cloudflare Radar üzerinden doğrulanabiliyor
- Kesintinin nedeni, Cloudflare'in sahip olduğu IP adreslerini internete duyuran altyapıyı yöneten legacy sistemdeki yanlış yapılandırmaydı
- 1.1.1.1 kanalı üzerinden Cloudflare'e ulaşan tüm trafik kritik biçimde etkilendi
Kesintinin Nedeni ve Arka Planı
- Cloudflare, DNS Resolver gibi küresel hizmetler için Anycast routing kullanıyor
- Hizmetler farklı bölgelerde sunulsa da, veri yerelleştirme gerektiren bazı hizmetler belirli bölgelerle sınırlı
- 6 Haziran'da, ileride sunulacak DLS (data localization) hizmetine hazırlık amacıyla yapılan yapılandırma değişikliği sırasında 1.1.1.1 Resolver IP aralığı istemeden yeni DLS'e dahil edildi
- Bu hata hemen uygulanmadı ve fiilen etki yaratmadığı için alarm üretmedi
- 14 Temmuz'da, test amacıyla çevrimdışı bir konumu DLS topolojisine ekleyen değişiklik devreye alındı
- Bu değişiklik küresel ağ yapılandırmasının zorunlu olarak yenilenmesine yol açtı ve mevcut hata görünür hale geldi
- 1.1.1.1 Prefixes dünya genelindeki veri merkezlerinden geri çekildi ve hizmet kesildi
Kesinti Zaman Çizelgesi (Özet)
- 2025-06-06 17:38: DLS hizmeti için yapılandırma değişikliğine 1.1.1.1 Prefixes dahil edildi (etki yok, hata gizli kaldı)
- 2025-07-14 21:48: Yapılandırma değişikliğiyle ağ genelindeki yapılandırma yenilendi, 1.1.1.1 Prefixes küresel olarak geri çekilmeye başladı
- 2025-07-14 21:52: Küresel DNS trafiğinde keskin düşüş
- 2025-07-14 22:01: İç alarm tetiklendi, kesinti ilan edildi
- 2025-07-14 22:20: Önceki yapılandırmaya rollback yapıldı, hizmet kurtarma süreci başlatıldı
- 2025-07-14 22:54: Trafik normale döndü ve alarmlar kaldırıldı, kesinti sona erdi
Kesintiden Etkilenen IP ve Protokoller
- Etki alanı: 1.1.1.0/24, 1.0.0.0/24, 2606:4700:4700::/48 dahil olmak üzere geniş kapsamlı IPv4 ve IPv6 Prefixes
- UDP, TCP, DoT(DNS over TLS) kullanan sorgularda keskin trafik düşüşü gözlendi
- DoH(DNS over HTTPS), çoğunlukla
cloudflare-dns.comalan adına dayandığı için neredeyse hiç etkilenmedi
Teknik Kesinti Açıklaması
1.1.1.1 Resolver Hizmet Kesintisi
- 6 Haziran'daki DLS ön yapılandırma değişikliği sırasında Prefixes hatası eklendi
- 14 Temmuz'da test amacıyla çevrimdışı bir konum eklenince ağ genelindeki ayarlar yenilendi
- Bu süreçte 1.1.1.1 Resolver Prefixes dünya genelinde tek bir çevrimdışı konumla sınırlandı ve hizmet geri çekildi
Teknik Neden Analizi
-
Cloudflare şu anda legacy sistemler ile yeni stratejik sistemleri birlikte işletiyor ve adres alanı bazında routing duyurularını senkronize ediyor
-
Legacy sistem, manuel güncellemeler ve dağıtımda kademelilik olmaması nedeniyle hataya daha açık
- Peer review ve başka mühendislerin incelemesi yapılmış olsa da, canary dağıtım gibi kademeli uygulamayı garanti eden bir yapı yoktu
-
Yeni yaklaşım, hardcoded yapı yerine topoloji merkezli ve kademeli değişiklik uygulama ile izleme sistemi içeriyor
-
22:01'de DNS Resolver alarmı oluştu
-
İç BGP routing tablosunda Resolver rotalarının tamamının kaybolduğu doğrulandı
-
Prefixes geri çekildikten sonra 1.1.1.0/24 subnet için Tata Communications India(AS4755) tarafından BGP duyurusu yapılmaya çalışıldı
- Bu durum geçici bir Prefix Hijack'e benzer görünse de olayla doğrudan ilgili değildi
Kurtarma Süreci ve Sonraki Adımlar
- 22:20 UTC'de önceki yapılandırmaya rollback yapıldı ve Prefixes yeniden duyuruldu
- Trafiğin yaklaşık %77'si hemen geri geldi
- Bazı edge sunucular otomatik olarak sıfırlandığı için, değişikliklerin manuel yapılandırma yönetim sistemi üzerinden yeniden uygulanması gerekti
- Ağ güvenliği nedeniyle normalde kademeli rollout uygulanıyor, ancak bu olayda doğrulamanın ardından hızlı uygulama yapıldı
- 22:54'te tüm konumlar normale döndü
Gelecekteki İyileştirmeler
- Kademeli dağıtım yapısının (Stage Deployment) devreye alınması: legacy dağıtım yöntemi kaldırılacak, health tabanlı otomatik rollback yapısı eklenecek
- Legacy sistemlerin kullanım dışı bırakılmasının hızlandırılması: riskli manuel yapılandırma ve dağıtım yöntemi kaldırılacak, dokümantasyon ve test kapsamı güçlendirilecek
Sonuç
Cloudflare 1.1.1.1 DNS Resolver kesintisi iç yapılandırma hatasından kaynaklandı ve Cloudflare gelecekte kararlılığı artırma ve tekrarını önleme önlemlerini devreye almak için yoğun şekilde çalışıyor. Şirket, müşterilere verdiği rahatsızlık için özür dilerken, benzer olayları gelecekte en aza indirmek için önlemleri güçlendirmeyi sürdüreceğini belirtiyor.
1 yorum
Hacker News görüşleri
Birçok kullanıcı için 1.1.1.1 resolver’ının (DNS) çalışmaması, neredeyse hiçbir internet hizmetine erişememek anlamına geliyor. Ama normalde tüm cihazlarda iki DNS sunucusu yapılandırılmaz mı? İkincisi de mi çöktü, yoksa değilse neden ona geçilmediğini merak ediyorum
Yaklaşık 20 dakikalık bir kesintide 1.1.1.1 trafiğinin yaklaşık %20 düşmesi ilginç. Cloudflare’in bu kadar basit ve eski bir sorunla tekrar tekrar karşılaşması şaşırtıcı (bu ne ilk ne de muhtemelen son olacak). Google’ın 8.8.8.8 ve 8.8.4.4 sunucuları neredeyse 10 yıldır dünya genelinde (1) bir saniye bile kesinti yaşamadı. (1: Bazı bölgesel sorunlar oldu ama bunlar internet kaynaklıydı; Google’ın çeşitli hizmetleri ciddi kesintiler yaşarken bile DNS’in kendisi çalışmaya devam etti.)
Etkinin fark edilmesinin 5 dakikadan uzun sürmesi şaşırtıcı (ana protokol trafiği %10’a düşüp orada kalmasına rağmen). Böyle büyük ölçekli sistemler işletmedim ama bu seviyede anında alarm beklerdim. Uzmanların da bunun makul olup olmadığını merak ediyorum
Güzel bir özet yazısı. DoH’nin (HTTPS üzerinden DNS) çoğunlukla cloudflare-dns.com alan adı üzerinden erişilmesi (elle yapılandırma veya tarayıcı yoluyla), yani IP adresi olmaması nedeniyle kesintiden görece daha az etkilenmiş olması ilginç. Ben dün etkilendim; router’da DoH etkin olmasına rağmen hiçbir şey çözümlenmiyordu, 8.8.8.8’e geçince sorun düzeldi
dnsmasq kullanırsanız birden fazla DNS sunucusunu aynı anda yapılandırıp en hızlı yanıt vereni kullanabilirsiniz. Bir hizmet çöktüğünde bunu neredeyse hiç hissetmezsiniz
Kesinti yaklaşık 1 saat sürse bile aylık bazda %0,13, yıllık bazda %0,0114 eder. Cloudflare’in bu hizmet için uyguladığı SLO’nun ne olduğunu merak ediyorum. Bağlantıyı buldum ama yalnızca ücretli hizmetler için. Bu kesintiyle birlikte Temmuz ayı erişilebilirliği "< 99.9% but >= 99.0%" aralığına giriyor ve bu durumda ücretin %10’u iade ediliyor
Olaydan sonra trafiğin tamamen normale dönmemesi ilginç. Son zamanlarda OpenWrt’nin "luci-app-https-dns-proxy" uygulamasını kullanarak hem Cloudflare hem Google DNS’e aynı anda sorgu gönderiyorum; DoH neredeyse hiç etkilenmediği için kesintiyi hissetmedim (DoH de bozulmuş olsaydı otomatik olarak Google’a geçecekti)
Hem 1.1.1.1 hem de 1.0.0.1’in aynı değişiklikten etkilenmiş olması şaşırtıcı. Bundan sonra DNS yedeği için tamamen farklı bir sağlayıcı kullanmak gerekecek gibi görünüyor (ör. 8.8.8.8, 9.9.9.9)
Cloudflare’in iç topolojisi, "legacy" ve "strategic" sistemlerin senkronize olduğu bir yapıya doğru evriliyor. Hem teknik kişilerin hem de teknik olmayanların anlayabileceği şekilde mevcut durumu açık anlatan bir yazı. Geçiş sürecini hatta ilgi çekici hale getirmeyi başarmış gibi. Yaşanan aksaklık için özür dilenmesi ve gelecekte iyileştirme ile tekrarını önleme vurgusu yapılması etkileyici. Bu tür kurumsal tutumları takdir ediyorum
Birkaç mühendis rebranding’i gözden geçirmiş olmasına rağmen 1.1.1.0/24’ün yeniden yönlendirme listesine eklenmesi hatasını kimsenin fark etmemesi şaşırtıcı. Bunun ne tür bir insan hatasıyla, hatta kötü niyetle, gerçekleşmiş olabileceğini merak ediyorum. DLS (Domain List Service) içinde 1.1.1.1/32 ve 1.0.0.1/32 için tek bir konuma işaret etmeyi engelleyen hardcode istisnalar gerekebilir gibi görünüyor