3 puan yazan GN⁺ 2025-07-03 | 2 yorum | WhatsApp'ta paylaş
  • Cloudflare, yapay zeka veri kazıyıcılarını varsayılan olarak engelleyen yeni bir ayarı kullanıma sundu
  • Web sitesi sahipleri izin vermediği sürece, AI botlarının taraması otomatik olarak engellenecek
  • AI model eğitimi için gerekli yüksek kaliteli verilerin toplanması konusunda internet içeriğini koruma rolü güçleniyor
  • İçerik üreticileri ve medya kuruluşları, izinsiz veri kullanımıyla ilgili endişelerini dile getirmeyi sürdürüyor
  • AI şirketleri ile içerik sahipleri arasındaki hukuki anlaşmazlıklar giderek daha sık görülüyor

Cloudflare, AI veri kazıyıcıları için varsayılan engelleme özelliğini devreye aldı

  • Cloudflare, çevrimiçi trafik yönetimi ve güvenlik hizmetleri sunan bir teknoloji şirketi
  • Son dönemde AI şirketlerinin web sitesi verilerini izinsiz toplama eğilimi arttıkça, Cloudflare müşterilerin AI veri kazıyıcılarının erişimini otomatik olarak engelleyebilmesini sağlayan izin tabanlı yeni bir ayar sundu

Yeni varsayılan politika ve değişen durum

  • Yeni eklenen bu özellikle birlikte web siteleri, AI botlarının otomatik taramasını (scraping) varsayılan olarak engelleyebiliyor
  • Veri taraması gerekiyorsa, web sitesi sahibinin erişim iznini ayrıca manuel olarak vermesi gerekiyor
  • Daha önce Cloudflare’ın bilgisayar korsanı ya da kötü niyetli aktör olarak değerlendirmediği botlar, web sitesi bilgilerini serbestçe toplayabiliyordu

Cloudflare’ın politika değişikliğinin nedeni

  • Cloudflare CEO’su Matthew Prince, bu adımın "internetteki özgün içeriği korumak ve web yayıncılarının haklarını güçlendirmek" amacı taşıdığını vurguladı
  • AI şirketleri internet verilerini izinsiz kullandığında, içerik üreticilerinin yeni içerik üretme teşviki azalıyor
  • Cloudflare ağı, dünya genelindeki internet trafiğinin yaklaşık %20’sini işliyor
  • Son dönemde web üzerindeki AI crawler faaliyetleri hızla arttığı için buna yanıt olarak bu politika hayata geçirildi

AI verisi ve sektörde derinleşen çatışma

  • OpenAI, Anthropic, Google gibi şirketler arasında AI model geliştirmek için büyük ölçekli veri toplama yarışı kızışıyor
  • Yüksek kaliteli web verisi, AI modellerinin yetkinliği ve çıktılarının kalitesi açısından kritik rol oynuyor
  • Bunun sonucu olarak web sitesi işletmecileri, medya kuruluşları ve hak sahipleri, izinsiz veri toplama ve karşılıksız kullanım nedeniyle itiraz ediyor

Genişleyen hukuki anlaşmazlıklara örnekler

  • Haziran 2025’te Reddit, Anthropic’e karşı; 2023’te ise The New York Times, OpenAI ve Microsoft’a karşı AI eğitim verilerinin izinsiz kullanımı ve telif hakkı ihlali gerekçesiyle dava açtı
  • OpenAI ve Microsoft, bu telif hakkı ihlali iddialarını reddediyor

Sonuç

  • Cloudflare’ın yeni AI veri toplamasını varsayılan olarak engelleme politikası, AI sektörü ile içerik sahipleri arasındaki veriye erişim ve kullanımın etik ve hukuki standartları üzerinde önemli etki yaratıyor
  • Bu politika değişikliği, AI ekosisteminde içerik haklarının korunması ve önceden onay alınmasına yönelik standartların oluşmasında önemli bir dönüm noktası oluyor.

2 yorum

 
GN⁺ 2025-07-03
Hacker News görüşleri
  • İnsanların pek fark etmediği noktalardan biri, internette yaptığımız neredeyse her şeyin bugüne kadar OpenAI, Anthropic gibi şirketlere bedava eğitim verisi sağlamaktan ibaret hale gelmiş olması; bu süreçte gerçek değeri üreten insanlar dışarıda kalıyor. Yönün %100 doğru olduğunu düşünüyorum ama bu çözümün yenilikçi olduğunu söylemek zor; yapay zekanın parazitik etkisine karşı çok daha fazla yeniliğe ihtiyaç olduğuna dair bir umut ifadesi.
    • Cloudflare ve benzeri şirketlerin aslında internetin özgürlüğünü bozduğu iddiası. Gerçekte doğrulama bahanesiyle siteler çok sık yavaşlıyor ya da engelleniyor; bu da 1998 düzeyinde yavaş yükleme deneyimi yaratıyor. Reklam şirketlerinin kullanıcıyı izlemesine ve paraya çevirmesine izin veren tarayıcıların ancak düzgün kullanılabildiği bir döneme giriyoruz ve Cloudflare’in sorunu çözmek yerine araya girip para kazandığı, genel internet deneyiminin kalitesini düşürdüğü eleştirisi yapılıyor.
    • Ben internete yazı yazıyorum çünkü düşüncelerimi paylaşmak istiyorum; bunun yapay zeka eğitim verisi olarak kullanılmasından ya da bir insan tarafından okunmasından bağımsız olarak bundan memnunum.
    • Açık internetteki verilerin yapay zeka eğitimi için serbestçe kullanılmasının %100 kabul edilebilir olduğunu düşünüyorum. Ancak aşırı hızlı tarama nedeniyle küçük web sitelerini işletmeyi zorlaştıracak kadar yük bindirilmesi kesinlikle kabul edilemez; bunu gerçek bir kamu malı trajedisi olarak görüyorum.
    • Cloudflare’in gerçekten tüm yapay zeka veri scraping’ini kusursuz biçimde engelleyebileceği konusunda şüpheliyim. Böyle önlemler pratikte taramayı daha zor ve pahalı hale getirir; her gün tüm sayfaları kazıyıp yayıncıya maliyet çıkarılmasını engelleyebilir, ama sonunda veri bir yerlerde çeşitli veri kümelerine yine girecektir.
  • Bu özelliği açmayı denedim ve yalnızca robots.txt dosyasının otomatik değiştiğini gördüm. Ek başka bir davranış olup olmadığı net değil. robots.txt dosyasına çeşitli yapay zeka botlarını ve crawler’ları engelleyen ayarlar ekleniyor.
    • User-agent: CCBot disallow: / kısmını görünce CCBot(Common Crawl)’ın yapay zekaya özel olup olmadığı sorgulanıyor. CCBot zaten uzun süredir birçok robots.txt dosyasında engelleniyordu. Common Crawl’ın içeriğin kullanım biçimini de kontrol edip edemeyeceği, CC fair use’a dayanıyorsa lisans ücreti talep etme ya da ikincil kullanıma izin verme konusunda gerçekten bir hakkı olup olmadığı merak ediliyor. Site şartlarının, site işletmecisinin başkalarına ait (kullanıcı) içeriği LLM amacıyla yeniden lisanslamasına ve geliri paylaşmasına izin verip vermediği de sorgulanıyor.
    • Cloudflare orijinal içeriği korumak için varsayılan ayarı değiştirdiğini söylüyor ama gerçek robots.txt yönergesinde istisna olarak 'AI RAG(Retrieval Augmented Generation)' kullanımına izin veriliyor; oysa RAG, dil modeli eğitiminden çok daha doğrudan ve gerçek zamanlı biçimde yazar gelirini zedeleyebilir, bu yüzden bu durum garip bulunuyor.
    • Google’ın da sonuçta hem web indeksleme hem yapay zeka eğitimi için veri kazıyacağı ve sonunda bir seçim dayatabileceği düşünülüyor. Eğer bir site sahibi yapay zeka eğitimine katkı vermek istemezse Google arama görünürlüğünden de vazgeçmek zorunda kalırsa bu çok hassas bir ikilem yaratır.
    • Kişisel hobi sitelerimde user-agent içinde bot geçiyorsa ve robots.txt, humans.txt, favicon.ico dışındaki dosyalar istenirse 444 durumuyle yanıt veriyorum (anında bağlantıyı kapatma). Çoğu arama motoru için CIDR bloklarını blackhole yapıyorum. Sanırım bunu böyle yapan tek kişi benim.
    • Bazı gazeteler yalnızca LLM crawler’larını değil, ChatGPT arama özelliğini de aynı anda engelledi; Cloudflare’in ayarı buna kıyasla çok daha makul bir varsayılan.
  • Bu başlık biraz yanıltıcı olabilir. Şu anda Cloudflare kullanan siteler, tüm yapay zeka botlarını engellemeyi hızlıca açabilecek bir 'opt-in' seçeneğine sahip, ama bu varsayılan değil ve otomatik uygulanmıyor. Cloudflare isterse böyle toplu bir önlemi kendi başına uygulayabilecek güçte; bu da ne kadar büyük bir yetkiye sahip olduklarını gösteriyor.
    • Bunun gerçekten varsayılan olup olmadığı soruluyor. Cloudflare’in resmi blog yazısında varsayılan ayar değişikliğinden söz ediliyor.
    • Artık yapay zeka botları ile web siteleri arasında düşmanca bir ilişki oluştu. Cloudflare sadece bu duruma yanıt veriyor; DDoS savunması da benzer bir bağlamda değil mi diye soruluyor.
    • Cloudflare düzgün savunma araçları sunmaktan çok interneti yavaşlatıyor gibi görünüyor. Sunduğu challenge’ları yarım gün içinde aşamadığım hiç olmadı. Bu önlemler sonuçta AI SEO için aracı bir pazar kurmaya giden ilk adım gibi duruyor. Cloudflare’in özü, siteler için çalışmaktan ziyade scraper ile yayıncı arasında komisyon almaya dönük bir girişim olarak yorumlanıyor. Cloudflare’den nefret ediyorum.
  • Cloudflare üzerinden sunulan veri kullanımım iki yıl önceki 20gb düzeyinden 100gb’a çıktı. Gerçek ziyaretçi sayısı yarıdan da aza düşmüşken trafiğin artmış olması nedeniyle, Cloudflare’in bu tür önlemleri kaynak maliyetini düşürmek için aldığı tahmin ediliyor.
    • Büyük ölçekli trafikte bant genişliği maliyetinin pahalı olduğu kabul ediliyor.
  • HN’de bot trafiği nedeniyle sitelerin yavaşladığına dair şikayetler sık çıkıyor ama bir site yöneticisi olarak bunu pek anlamıyorum. Varsayılan olarak Cloudflare cache kullanılırsa trafiğin çoğu cache üzerinden karşılanır ve sunucuya neredeyse yük binmez; ayrıca CPU ve bant genişliği maliyetleri de bugünlerde oldukça ucuz değil mi? Herkes neden bu kadar hassas, merak ediyorum.
    • Ben de büyük bir site işletiyorum; on dilde sunulan yüz binlerce sayfa, toplamda milyonlarca sayfa var ve neredeyse 1000 RPS görüyoruz. Yapay zeka crawler’ları aynı anda 100~200 RPS’yi birden fazla IP’ye dağıtarak gönderince pahalı endpoint’lere yoğun şekilde yükleniyor ve mevcut robot engelleme önlemleriyle de baş edilemiyor; bu da DDoS benzeri bir etki yaratıyor.
    • Ben de yapay zeka trafiği yüzünden çökme yaşadım. Çok katmanlı cache kullansanız bile, herkese açık API içinde kimlik doğrulaması olmadan açık duran bazı endpoint’ler cache’lenemiyor ve bu noktalara tekrar tekrar yüklenilince site sonunda düşüyor. Milyonlarca sayfa kısa süre içinde cache miss ile eşzamanlı yeniden üretilirse istekler birikiyor ve hatalar oluşuyor; hatalar da cache’in tamamlanamamasına yol açarak kısır döngü yaratıyor. Yapay zeka trafiği bu endpoint’lere vurmaya devam ederse sorun sürüyor.
    • Esas sorun, baştan Cloudflare kullanıldığının varsayılması. Basit bir site işletmek için bile bunun zorunlu hale geldiği bir dönemde miyiz diye soruluyor.
    • İnsanların özellikle işaret ettiği yapay zeka trafiği sorunu, daha çok 'date range ile tüm postları çek' türü API’lere durmaksızın vuran crawler’larda yoğunlaşıyor.
    • Ben de bu kadar sert tepkiyi biraz şaşırtıcı buluyorum ama optimize edilmemiş sitelerin yapay zeka crawler’larından kaçmak istemesini anlayabiliyorum. İlgili araçlar içinde en hızlı ve en yaygın yayılanın Anubis checker olduğu görülüyor github linki. Yapay zeka trafiğinin dağıtık crawler’lardan oluştuğu düşünülürse, işbirlikçi biçimde kısıtlama yapabilen açık kaynak yazılımların daha fazla yaygınlaşması gerektiği hissediliyor. HTTP durum kodu 420 Enhance Your Calm tarzı tepkilere webde daha çok ihtiyaç olduğundan da söz ediliyor referans linki.
  • Yapay zeka şirketleri izin almadan çeşitli web sitelerinin verilerini kullanırsa dijital içerik üretme motivasyonu ortadan kalkar; sonuçta yapay zekanın büyüme yapısı başka dijital faaliyetleri zedeler ve sonunda web’i bile yok edebilir endişesi dile getiriliyor (ilginç biçimde web’in kendisi yapay zeka için bir 'av').
    • Dünya genelinde reklam engelleyici kullanım oranının %30 olduğu, bu yüzden dijital içeriği zedeleme mantığının daha karmaşık olduğu görüşü var.
    • Yapay zekanın nihayetinde yapmak istediği şeyler (insanlarla çeşitli etkileşimler ve ekonomik faaliyetler) gerçekleşmezse, yapay zekanın veri kaynakları da eninde sonunda tükenecek.
    • Bugün kapitalizmin insanı başlıca sömürü nesnesi haline getirmiş olması gibi, yapay zekanın da yapısal olarak benzer bir yola girdiği görüşü dile getiriliyor.
  • Cloudflare, önceden yapılandırılmış kurallarla robots.txt’ye uyan ve dürüst davranan yapay zeka botlarını ya da crawler’ları yakalayabilir; ancak Perplexity gibi bazı şirketler zaten trafiği gizlediği için, bu tür engellemenin aslında yalnızca dürüst botlara zarar verip vermediği ve gizlenmeyi teşvik edip etmediği sorgulanıyor. Bu olgu, yani arms race, 20 yıldır süren bir şey ve yeni değil. Cloudflare’in küresel sinyalleri, bot scoring’i ve trafik fingerprinting’i sayesinde gizlenmiş yapay zeka botlarının da iyi ayırt edilebildiği, buna ilişkin açıklama bağlantısının da paylaşıldığı belirtiliyor blog.cloudflare.com referansı.
    • Yalnızca dürüst ve şeffaf botları düzenlersen gizlenmiş crawler’ların daha da artmayacağı sorusuna karşılık, böyle bir mücadelenin zaten 20 yılı aşkın süredir sürdüğü ve bunun ne tamamen yeni ne de tek başına bir cevap olduğu söyleniyor.
    • Super Bot Fight Mode içindeki Block AI Bots seçeneği gerçekten bot trafiğinin çoğunu iyi temizledi ve bu, robots.txt ya da user-agent bağımlılığı değil trafik desenlerini analiz eden bir yaklaşımdı. Bu sayede kendi aracımın çalışması için ayrıca bypass kuralı yazmam gerekti.
    • Cloudflare, sevmediği kullanıcılar için internet kullanımını çok zorlaştırmanın yollarını gayet iyi biliyor. robots.txt ile botların kötü niyetli sınıfa düşmemesi sağlanırsa site bazında bir izin alanı kalabilir ama geri kalanında Cloudflare’in kendine özgü yöntemleri devreye girecektir.
    • Büyük ölçekli scraping yapan yapay zeka botlarını Cloudflare açısından gizlemek aslında zordur; fingerprinting ve ağ seviyesinde çeşitli sinyallerle ayırt etmek mümkündür. Büyük şirketlerin zaten Cloudflare ile doğrudan iletişim içinde olduğu düşünülürse, sonuçta uyarı ya da başka tepkiler dahil çeşitli araçların bulunduğu tahmin ediliyor.
  • Büyük yapay zeka şirketleri gerçekten robots.txt’ye saygı gösteriyor mu? Belki yalnızca kamuya açık bazı crawler’lar buna uyuyordur; perde arkasında ise gizli yöntemlerle tarama yapıldığına dair şüphe var. Geçmişte kitapların, görsellerin ve kullanıcı verilerinin bile yasa dışı biçimde kazınıp kullanıldığı olmuştu.
    • Küçük çaplı crawler’lar da engeli aşmak için kendilerini büyük şirket gibi gösterebiliyor; bu yüzden ayrım yapmak zor.
    • robots.txt’ye uymak en fazla bir teamüldür; bunun belirgin bir hukuki ya da teknik zorunluluğu yoktur. Kullanım şartlarına robots.txt politikasına uyma maddesi eklenebilir ama bunun gerçek etkisi şüpheli.
    • Bu trafiğin önemli bir kısmı, yapay zekanın doğrudan scraping yapmasından ziyade, bir insan yapay zekaya soru sorduğunda o anda internette araştırma yapması şeklinde de olabilir. Tarayıcı benzeri araştırma kullanımının mı yoksa yalnızca indeksleme kullanımının mı robots.txt kapsamına girdiği kafa karıştırıyor.
    • Cloudflare’in kapı bekçisi rolü başlı başına çok hoş karşılanmıyor ama yapay zeka şirketleri üzerinde gerçekten etkili olabilecek bir konumda olduğu da doğru.
  • Şu an engellenen yapay zeka botlarının listesi çok kısa referans linki.
    • Cloudflare açıklamasında Common Crawl(CCBot) da AI Bots olarak sınıflandırılıp engelleme seçeneğine dahil edilmiş. Ancak Common Crawl aslında yalnızca yapay zekaya özel bir bot değil, açık bir crawling altyapısıdır referans linki.
    • Cloudflare çok büyük miktarda web trafiğini gözlemlediği için, şu anda yakalanan bot listesi daha çok sık görülenlere odaklanıyor ve yeni botlar keşfedildikçe eklenmeye devam edecek gibi görünüyor. Gerçekte tüm crawler’ları engellemek imkansız olabilir ama internet genelinde bakıldığında Cloudflare kadar çok bot tespit edebilecek yer azdır.
    • Sadece bu engellemenin bile çoğu sitenin trafiğini yarıdan aza indirebileceği düşünülüyor.
  • Web’in büyük evrimleri (Web2’nin çitle çevrilmesi, Web3’ün boşluğu ve şimdi yaşananlar) giderek topluluk ve bilgi deposu olma işlevinden uzaklaşan bir yöne benziyor. Kalite ve teknoloji gelişmeye devam ederken, kaybedilen şeyler de o ölçüde arttı.