- Cloudflare, yapay zeka veri kazıyıcılarını varsayılan olarak engelleyen yeni bir ayarı kullanıma sundu
- Web sitesi sahipleri izin vermediği sürece, AI botlarının taraması otomatik olarak engellenecek
- AI model eğitimi için gerekli yüksek kaliteli verilerin toplanması konusunda internet içeriğini koruma rolü güçleniyor
- İçerik üreticileri ve medya kuruluşları, izinsiz veri kullanımıyla ilgili endişelerini dile getirmeyi sürdürüyor
- AI şirketleri ile içerik sahipleri arasındaki hukuki anlaşmazlıklar giderek daha sık görülüyor
Cloudflare, AI veri kazıyıcıları için varsayılan engelleme özelliğini devreye aldı
- Cloudflare, çevrimiçi trafik yönetimi ve güvenlik hizmetleri sunan bir teknoloji şirketi
- Son dönemde AI şirketlerinin web sitesi verilerini izinsiz toplama eğilimi arttıkça, Cloudflare müşterilerin AI veri kazıyıcılarının erişimini otomatik olarak engelleyebilmesini sağlayan izin tabanlı yeni bir ayar sundu
Yeni varsayılan politika ve değişen durum
- Yeni eklenen bu özellikle birlikte web siteleri, AI botlarının otomatik taramasını (scraping) varsayılan olarak engelleyebiliyor
- Veri taraması gerekiyorsa, web sitesi sahibinin erişim iznini ayrıca manuel olarak vermesi gerekiyor
- Daha önce Cloudflare’ın bilgisayar korsanı ya da kötü niyetli aktör olarak değerlendirmediği botlar, web sitesi bilgilerini serbestçe toplayabiliyordu
Cloudflare’ın politika değişikliğinin nedeni
- Cloudflare CEO’su Matthew Prince, bu adımın "internetteki özgün içeriği korumak ve web yayıncılarının haklarını güçlendirmek" amacı taşıdığını vurguladı
- AI şirketleri internet verilerini izinsiz kullandığında, içerik üreticilerinin yeni içerik üretme teşviki azalıyor
- Cloudflare ağı, dünya genelindeki internet trafiğinin yaklaşık %20’sini işliyor
- Son dönemde web üzerindeki AI crawler faaliyetleri hızla arttığı için buna yanıt olarak bu politika hayata geçirildi
AI verisi ve sektörde derinleşen çatışma
- OpenAI, Anthropic, Google gibi şirketler arasında AI model geliştirmek için büyük ölçekli veri toplama yarışı kızışıyor
- Yüksek kaliteli web verisi, AI modellerinin yetkinliği ve çıktılarının kalitesi açısından kritik rol oynuyor
- Bunun sonucu olarak web sitesi işletmecileri, medya kuruluşları ve hak sahipleri, izinsiz veri toplama ve karşılıksız kullanım nedeniyle itiraz ediyor
Genişleyen hukuki anlaşmazlıklara örnekler
- Haziran 2025’te Reddit, Anthropic’e karşı; 2023’te ise The New York Times, OpenAI ve Microsoft’a karşı AI eğitim verilerinin izinsiz kullanımı ve telif hakkı ihlali gerekçesiyle dava açtı
- OpenAI ve Microsoft, bu telif hakkı ihlali iddialarını reddediyor
Sonuç
- Cloudflare’ın yeni AI veri toplamasını varsayılan olarak engelleme politikası, AI sektörü ile içerik sahipleri arasındaki veriye erişim ve kullanımın etik ve hukuki standartları üzerinde önemli etki yaratıyor
- Bu politika değişikliği, AI ekosisteminde içerik haklarının korunması ve önceden onay alınmasına yönelik standartların oluşmasında önemli bir dönüm noktası oluyor.
2 yorum
Cloudflare, AI botları için tarama başına ücretlendirme (pay-per-crawl) uygulamasını başlattı
Hacker News görüşleri
robots.txtdosyasının otomatik değiştiğini gördüm. Ek başka bir davranış olup olmadığı net değil.robots.txtdosyasına çeşitli yapay zeka botlarını ve crawler’ları engelleyen ayarlar ekleniyor.User-agent: CCBot disallow: /kısmını görünce CCBot(Common Crawl)’ın yapay zekaya özel olup olmadığı sorgulanıyor. CCBot zaten uzun süredir birçokrobots.txtdosyasında engelleniyordu. Common Crawl’ın içeriğin kullanım biçimini de kontrol edip edemeyeceği, CC fair use’a dayanıyorsa lisans ücreti talep etme ya da ikincil kullanıma izin verme konusunda gerçekten bir hakkı olup olmadığı merak ediliyor. Site şartlarının, site işletmecisinin başkalarına ait (kullanıcı) içeriği LLM amacıyla yeniden lisanslamasına ve geliri paylaşmasına izin verip vermediği de sorgulanıyor.robots.txtyönergesinde istisna olarak 'AI RAG(Retrieval Augmented Generation)' kullanımına izin veriliyor; oysa RAG, dil modeli eğitiminden çok daha doğrudan ve gerçek zamanlı biçimde yazar gelirini zedeleyebilir, bu yüzden bu durum garip bulunuyor.botgeçiyorsa verobots.txt,humans.txt,favicon.icodışındaki dosyalar istenirse 444 durumuyle yanıt veriyorum (anında bağlantıyı kapatma). Çoğu arama motoru için CIDR bloklarını blackhole yapıyorum. Sanırım bunu böyle yapan tek kişi benim.420 Enhance Your Calmtarzı tepkilere webde daha çok ihtiyaç olduğundan da söz ediliyor referans linki.robots.txt’ye uyan ve dürüst davranan yapay zeka botlarını ya da crawler’ları yakalayabilir; ancak Perplexity gibi bazı şirketler zaten trafiği gizlediği için, bu tür engellemenin aslında yalnızca dürüst botlara zarar verip vermediği ve gizlenmeyi teşvik edip etmediği sorgulanıyor. Bu olgu, yani arms race, 20 yıldır süren bir şey ve yeni değil. Cloudflare’in küresel sinyalleri, bot scoring’i ve trafik fingerprinting’i sayesinde gizlenmiş yapay zeka botlarının da iyi ayırt edilebildiği, buna ilişkin açıklama bağlantısının da paylaşıldığı belirtiliyor blog.cloudflare.com referansı.robots.txtya da user-agent bağımlılığı değil trafik desenlerini analiz eden bir yaklaşımdı. Bu sayede kendi aracımın çalışması için ayrıca bypass kuralı yazmam gerekti.robots.txtile botların kötü niyetli sınıfa düşmemesi sağlanırsa site bazında bir izin alanı kalabilir ama geri kalanında Cloudflare’in kendine özgü yöntemleri devreye girecektir.robots.txt’ye saygı gösteriyor mu? Belki yalnızca kamuya açık bazı crawler’lar buna uyuyordur; perde arkasında ise gizli yöntemlerle tarama yapıldığına dair şüphe var. Geçmişte kitapların, görsellerin ve kullanıcı verilerinin bile yasa dışı biçimde kazınıp kullanıldığı olmuştu.robots.txt’ye uymak en fazla bir teamüldür; bunun belirgin bir hukuki ya da teknik zorunluluğu yoktur. Kullanım şartlarınarobots.txtpolitikasına uyma maddesi eklenebilir ama bunun gerçek etkisi şüpheli.robots.txtkapsamına girdiği kafa karıştırıyor.