Cloudflare’ın /crawl özelliği, tek bir API çağrısıyla tüm web sitesini taramayı destekliyor

(developers.cloudflare.com)

11 puan yazan GN⁺ 2026-03-11 | 5 yorum | WhatsApp'ta paylaş

Cloudflare, Browser Rendering’in yeni /crawl endpoint’ini açık beta olarak sundu; tek bir API çağrısıyla tüm web sitesi taranabiliyor
Başlangıç URL’si gönderildiğinde sayfaları otomatik olarak keşfedip headless tarayıcıyla render ediyor, sonuçları HTML, Markdown, JSON formatlarında döndürüyor
Workers AI tabanlı yapılandırılmış JSON çıktısı, tarama derinliği, sayfa sayısı sınırı, wildcard desenleri gibi kapsam kontrolü özellikleriyle birlikte artımlı tarama ve statik mod gibi çeşitli işlevler sunuyor
robots.txt kurallarına uyuyor ve anormal trafiği önlemeye yardımcı olan crawl-delay desteği de sağlıyor
Model eğitimi, RAG pipeline oluşturma, site genelinde içerik araştırması ve izleme için kullanılabiliyor

/crawl endpoint’ine genel bakış

Cloudflare’ın Browser Rendering hizmetine yeni eklenen /crawl endpoint’i, tek bir API çağrısıyla tüm web sitesini dolaşıp içerik toplama işlevi sunuyor
- Kullanıcı başlangıç URL’sini gönderdiğinde sistem bağlantıları otomatik olarak takip ediyor, sayfaları render ediyor ve sonuçları döndürüyor
- Dönüş formatı olarak HTML, Markdown veya yapılandırılmış JSON seçilebiliyor
Bu özellik açık beta (open beta) durumunda sunuluyor ve Workers Free ile Paid planlarının tamamında kullanılabiliyor
Tarama işi eşzamansız (asynchronous) şekilde yürütülüyor
- URL gönderildiğinde bir job ID alınıyor ve işlem tamamlandığında sonuçlar daha sonra sorgulanabiliyor
- Sayfalar sıralı şekilde işleniyor ve tamamlanan sonuçlar kademeli olarak görülebiliyor

Temel özellikler

Birden çok çıktı formatı desteği
- Sonuçlar HTML, Markdown, JSON gibi farklı formatlarda döndürülebiliyor
- JSON formatı, Workers AI üzerinden yapılandırılmış veri olarak sunuluyor
Tarama kapsamı kontrolleri (crawl scope controls)
- Tarama derinliği (depth), sayfa sayısı sınırı, URL deseni dahil etme/çıkarma ayarları yapılabiliyor
Otomatik sayfa keşfi (automatic page discovery)
- URL’ler site haritası (sitemap), sayfa bağlantıları veya her ikisi temel alınarak otomatik olarak keşfediliyor
Artımlı tarama (incremental crawling)
- modifiedSince ve maxAge parametreleri kullanılarak değişmemiş sayfalar atlanıyor, böylece zaman ve maliyet tasarrufu sağlanıyor
Statik mod (static mode)
- render: false ayarında tarayıcı çalıştırılmadan yalnızca statik HTML alınabiliyor; bu da statik sitelerin hızlı taranmasını sağlıyor
Düzgün davranan bot (well-behaved bot)
- robots.txt yönergelerine uyuyor ve crawl-delay ayarını da tanıyor

Kullanım alanları ve referans dokümanlar

Bu endpoint, model eğitimi için veri toplama, RAG pipeline kurma, site içeriği araştırma ve izleme için kullanışlı
Kullanıcılar ayar yapmak için crawl endpoint dokümantasyonuna başvurabilir
Kendi sitesini tarama hedefi olarak belirleyenlerin, robots.txt ve sitemap için en iyi uygulamaları incelemesi gerekiyor

Kullanılabildiği planlar

Workers Free ve Paid planlarında kullanılabiliyor

5 yorum

hmmhmmhm 2026-03-11

Biraz denedim ama bot engelini aşamıyor gibi görünüyor; ben şimdilik yine apify ya da zyte kullanmaya devam edecek gibiyim.. haha

xguru 2026-03-11

Bu, Cloudflare'ın bot engelleme özelliğini de aşıyor mu?
Hem mızrak satıp hem kalkan mı satıyorlar??
Bir tuhaf geliyor bana haha

eoeoe 2026-03-12

Herkesin Monopoly’si başlıyor galiba hahaha
Hani şu bir kartı savunan, bir yeteneği etkisizleştiren, bir özel yeteneği falan olan şeyler...

cnaa97 2026-03-11

Hahaha, bir şekilde komik.

GN⁺ 2026-03-11

Hacker News yorumları

Benim deneyimime göre Cloudflare tarafından korunan sayfalarda bu çalışmıyor
Ne yazık ki, sorunu kendileri yaratıp sonra çözümü tekrar satıyorlar gibi oluyor
- Yalnızca Azure’un bot protection sistemini geçebiliyorsa belki işe yarar
Cloudflare’ın proxy kullanan web sitelerinin önceden scrape edilmiş sürümlerini barındırmıyor olması şaşırtıcı
Örneğin https://www.example.com/cdn-cgi/cached-contents.json gibi bir formatta sunabilirlerdi; sonuçta içerik zaten cache’de bulunduğundan ayrıca bir scraping servisi veya API’den geçmeye gerek kalmaz diye düşünüyorum
Elbette bunu yapmamalarının nedenleri vardır, ama varsayılan bir seçenek olarak sunulmaması yine de şaşırtıcı
- Böyle bir cache dump’ını herkese açmak, kaynağın gizlilik ve telif hakkı varsayımlarını tamamen bozar
  Erişim kontrolü eklenebilir ama bu da kimsenin istemediği karmaşık bir CDN API yaratmak anlamına gelir ve hukuki sorunlar da doğurur
  “Kullanışlı JSON” ile “AI scraper’lara tüm siteyi vermek” arasında çok ince bir çizgi var
- JSON dönüşümü CPU kullanır ve sonuç saklanırsa cache alanı iki katına çıkar
  Yalnızca istek geldiğinde dönüştürmek, cache verimliliğini korurken origin isteğini de azaltabilir
  Ben CDN’de çalışırken cache hit oranını artırmak için 'second hit caching' kullanıyorduk — yani ancak ikinci istek geldiğinde cache’e alma yöntemi
- Tam olarak aynı şey değil ama Cloudflare zaten benzer bir özellik sunuyor
  Markdown for Agents özelliği açıldığında, AI sistemleri text/markdown istediğinde HTML’yi gerçek zamanlı olarak Markdown’a dönüştürüyor
- Aslında içeride zaten bu şekilde herkese açık içeriği cache tabanlı sunuyor olmaları da mümkün
- Yine de bu yaklaşım basit sitelerde işe yarar; ama SPA gibi karmaşık siteler için hâlâ tarayıcıda render gerektiren scraping servisleri gerekir
Cloudflare’ın hem scraping savunmaları satıp hem de aynı anda scraping hizmeti satması biraz mafya gibi
Bunu internet genelindeki etkisi sayesinde yapabiliyor
- Hayır, öyle değil. Resmi belgelerde açıklanmış
- Ücretsiz DNS işin sadece bir kısmı; asıl güç cache, routing ve DDoS savunma hizmetlerinde
  DNS daha çok veri toplama ve ‘iyi imaj’ için var
- Basitçe scraping savunması satmıyorlar; web tabanlı DDoS savunması satıyorlar
- Cloudflare sanki yayıncılarla AI şirketleri arasında aracı olmaya çalışıyor
  Yayıncı Cloudflare arkasında duruyor, AI şirketi veriyi istiyorsa Cloudflare üzerinden ücretli erişim sağlıyor
  Ana müşteri kitlesi sıradan kullanıcılar değil, AI şirketleri
- /crawl endpoint’i robots.txt kurallarına uyuyor
  Yani crawl edilmesi yasak URL’ler yanıtta "status": "disallowed" olarak işaretleniyor
Yapılandırılmış bir crawl endpoint sunmak, robots.txt ya da sitemapın doğal bir evrimi gibi geliyor
Daha fazla site böyle makine tarafından okunabilir giriş noktaları sunarsa indeksleme çok daha verimli olur
Şu anda crawler’lar aynı yapıları sürekli yeniden keşfederek büyük israf yaratıyor
- REST kullanılmaya devam edilseydi, indeksleme kaynaklı israf çok daha az olurdu gibi geliyor
  Ben API’lerin insan merkezli tasarlanmasını, LLM sağlayıcılarının da bunun üzerinde optimizasyon yapmasını tercih ederim
- Aslında semantic HTML zaten bu rolü oynuyor
  HTML ve DOM özünde makinelerin okuyacağı bir yapı
  Yeni bir şey icat etmeye gerek yok; mevcut teknolojileri doğru kullanmak yeterli
- Verimsiz crawl işlemlerinden kazanç sağlayanlar yalnızca anti-bot çözüm sağlayıcıları
- Ama böyle bir yapı tedarik zinciri saldırılarını daha da kötüleştirebilir
  İnsanlara normal sayfa, botlara ise farklı bir sayfa göstererek kötüye kullanılabilir
- Sonuçta crawler’lara ve insanlara farklı içerik göstermek temelde sorun yaratır
Web arşivleme için kullanılabilirdi ama WARC formatı desteğinin olmaması üzücü
Gazeteciler ve araştırmacılar için yararlı olurdu
Origin sunucu hâlâ Cloudflare’ın Browser Rendering isteklerini algılayıp engelleyebilir
CF-Worker başlığıyla ayırt edilebilir ve WAF kurallarında ya da middleware tarafında filtrelenebilir
Ancak bu istekler Cloudflare ASN 13335’ten gelir ve düşük bot score taşır; bu yüzden yalnızca puan tabanlı basit savunmalar işe yaramaz
Sonuçta uygulama seviyesinde rate limiting ve davranış analizi daha etkili olur
Yapısal bir çatışma var ama bu, arama motorlarının webmaster araçları sunmasına benzer bir durum
- robots.txt kurallarına uydukları için en basit yöntem bu
Bu crawler’ın bot engelleme mantığının önünde mi arkasında mı çalıştığını merak etmiştim
- Ön tarafta çalışıyor — resmi belgelere bakın
Sitemin iyi crawl edilmiş bir sürümünü sunabilmeyi isterdim
Site yöneticilerine böyle bir özellik verilse, crawler’lar sadece aktarım maliyetini ödeyerek erişebilirdi
Bunu doğrudan kendi sitem için bir crawl işi çalıştırıp static. alt alan adı üzerinden sunacak şekilde de kurmak mümkün olabilir
- Ama bunun ne işe yarayacağından pek emin değilim
  Site statikse zaten HTML olarak render edilip barındırılabilir; dinamikse bir anlık görüntünün ne kadar anlamlı olacağı şüpheli
  Cache eklemek daha iyi bir yaklaşım olabilir
Cloudflare son zamanlarda tüm havalı özellikleri toplayan taraf gibi görünüyor
AWS’nin ne yaptığını merak ediyorum
Bu özellik gerçekten etkileyici
Cloudflare geleceğin yönüne önceden hareket ediyor