AI scraper’lara '18+ veri' yedirmek: eğitim filtrelerini tersine kullanan bir blog savunma tekniği

(github.com/vivienhenz24)

7 puan yazan baeba 2025-12-19 | 2 yorum | WhatsApp'ta paylaş

AI eğitim verisi toplamayı engellemeye yönelik 'Fuzzy Canary' aracının analizi

Temel noktalar:
Uygunsuz web sitelerine (yetişkin içerikleri vb.) giden görünmez bağlantılar ekleyerek AI scraper’larının içerik engelleme filtrelerini tersine kullanır.
Sunucu tarafı (önerilen) ve istemci tarafı enjeksiyon yöntemleri sunar; uygulama şekli kullanılan framework’e göre değişir.
Arama motoru optimizasyonunu (SEO) korumak için normal arama botlarını (Google, Bing vb.) tanıyıp bağlantı enjeksiyonunu hariç tutan bir özellik içerir.

Sorun durumu: AI şirketleri, eğitim verisi sağlamak için kişisel olarak barındırılan bloglar gibi web sitelerindeki verileri rastgele topluyor.
Önerilen çözüm: 'Fuzzy Canary', HTML içine görünmez bağlantılar (yetişkin web siteleri vb.) yerleştiren bir yöntem kullanır.
Çalışma mantığı: Bu bağlantıları içeren veri, AI scraper’larının içerik güvenlik mekanizmasını (Safeguard) tetikler ve sonuç olarak o sitenin verilerinin eğitim amacıyla toplanmasını engeller.

Sunucu tarafı ve istemci tarafı enjeksiyon yöntemlerinin ayrımı

Sunucu tarafı uygulama (önerilen):
Özellik: HTML oluşturulurken 'Canary (tuzak bağlantı)' eklendiği için JavaScript çalıştırmayan scraper’lara karşı da etkili şekilde çalışır.
React tabanlı framework’ler (Next.js, Remix): Kök layout’a <Canary /> bileşeni eklenerek uygulanır. Remix gibi bazı framework’lerde user agent bilgisinin loader üzerinden aktarılması gerekir.
React dışı framework’ler: getCanaryHtml() yardımcı aracı kullanılarak HTML doğrudan <body> etiketinin başlangıcına eklenir.
İstemci tarafı uygulama:
Özellik: Statik sitelerde veya istemci tarafı enjeksiyonun tercih edildiği durumlarda kullanılır.
Uygulama: Ana giriş dosyasına otomatik başlatma modülü (@fuzzycanary/core/auto) import edildiğinde, sayfa yüklendiğinde otomatik olarak enjeksiyon yapılır.

Normal arama botlarının tanınması ve statik sitelerin sınırları

Bot filtreleme mekanizması: Fuzzy Canary, Google, Bing, DuckDuckGo gibi bilinen arama motoru botlarını tanıyıp bu isteklere tuzak bağlantı eklemeyi atlayarak SEO zararını önler.
Sunucu tarafı render etmenin avantajı: Sunucu, istek yapan user agent’ı kontrol ederek arama motorlarına 'temiz HTML', AI scraper’larına ise 'Canary içeren HTML' seçici olarak sunabilir.
Statik sitelerin yapısal sorunu:
Build aşamasında HTML üreten statik sitelerde user agent kontrolü mümkün değildir.
Tüm HTML’e tuzak bağlantılar eklenirse, Google gibi arama motorları bu bağlantıları algılayabilir ve bu da SEO’yu olumsuz etkileyebilir.
Yanıt stratejisi: Statik site üreticisi kullanılıyorsa, çalışma anında navigator.userAgent kontrolü yapıp enjeksiyon uygulanıp uygulanmayacağına karar veren istemci tarafı başlatma yöntemi kullanılmalıdır (ancak bunun yalnızca JavaScript çalıştıran botlara karşı etkili olması gibi bir sınırı vardır).

Teknik verimlilik: Veri koruma açısından, JavaScript çalıştırılsın ya da çalıştırılmasın işleyen sunucu tarafı yöntem en etkili seçenektir.
SEO ile denge: Statik site işletilirken SEO düşüşü riskinden kaçınmak için istemci tarafı yöntemi benimsemek yapısal olarak kaçınılmazdır.
Nihai öneri: Kullanılan web framework’ünün render yöntemi (SSR vs Static) temel alınarak, scraping önleme verimliliği ile SEO’nun korunması arasındaki denge gözetilip uygun yöntem seçilmelidir.

2 yorum

baeba 2025-12-19

1. Yaratıcı fikir ve eğlence değeri

Etkinliğinden bağımsız olarak, büyük yapay zeka şirketlerinin izinsiz veri toplamasına 'yetişkin içerik linkleri' ile karşılık veren yaratıcı ve iç ferahlatan bir fikir olarak övülüyor.
Absürt scraping davranışını 'mizahi (hicivsel)' biçimde cezalandırması nedeniyle topluluktan destek görüyor.

2. Fiilî engelleme etkisi ve örnekler

Benzer araçlar (Anubis vb.) devreye alındıktan sonra günlük istek sayısının 600 binden 100'e düştüğünü gösteren gerçek başarı örnekleri paylaşıldı.
Tüm Git deposunu ayrım gözetmeden kazıyan basit/kaba scraper'lara karşı savunmada yüksek verim gösterdiği belirtiliyor.

3. Olası yan etkiler (risk) konusundaki kaygılar

SEO cezası: Google gibi normal arama motorları yetişkin içerik linklerini algılarsa arama sıralamasının düşebileceği dile getiriliyor.
Erişim kısıtı: Kurumsal ağların (Corporate Network) zararlı site filtrelerine takılarak teknik bloga erişimin engellenmesi riski bulunuyor.

4. Teknik alternatifler üzerine tartışma

Cloudflare: Ücretsiz WAF'ın da yeterli olduğu görüşü ile merkezi hizmetlere duyulan rahatsızlık aynı anda var.
Kendi savunmanızı kurmak: Basit JS/çerez doğrulamasıyla korunmanın mümkün olduğu iddiasına karşı, bunun modern headless browser botlarına karşı işe yaramadığı yönünde itirazlar var.

5. Yapay zeka şirketlerinin etik dışı davranışlarına tepki

Maliyetin başkasına yüklenmesi: Veriyi yapay zeka alırken sunucu yükü ve trafik maliyetinin bireylerin üzerinde kalması şeklindeki yapısal çelişki eleştiriliyor.
DDoS düzeyinde davranış: Trafik getirisi (ödül) olmadan sunucuları ayrım gözetmeden vuran mevcut scraping yöntemine karşı güçlü bir tepki ifade ediliyor.

aer0700 2025-12-20

En büyük sorun SEO galiba...