AI scraper’lara '18+ veri' yedirmek: eğitim filtrelerini tersine kullanan bir blog savunma tekniği
(github.com/vivienhenz24)AI eğitim verisi toplamayı engellemeye yönelik 'Fuzzy Canary' aracının analizi
- Temel noktalar:
- Uygunsuz web sitelerine (yetişkin içerikleri vb.) giden görünmez bağlantılar ekleyerek AI scraper’larının içerik engelleme filtrelerini tersine kullanır.
- Sunucu tarafı (önerilen) ve istemci tarafı enjeksiyon yöntemleri sunar; uygulama şekli kullanılan framework’e göre değişir.
- Arama motoru optimizasyonunu (SEO) korumak için normal arama botlarını (Google, Bing vb.) tanıyıp bağlantı enjeksiyonunu hariç tutan bir özellik içerir.
Giriş: AI scraping’e karşı teknik bir yaklaşım
- Sorun durumu: AI şirketleri, eğitim verisi sağlamak için kişisel olarak barındırılan bloglar gibi web sitelerindeki verileri rastgele topluyor.
- Önerilen çözüm: 'Fuzzy Canary', HTML içine görünmez bağlantılar (yetişkin web siteleri vb.) yerleştiren bir yöntem kullanır.
- Çalışma mantığı: Bu bağlantıları içeren veri, AI scraper’larının içerik güvenlik mekanizmasını (Safeguard) tetikler ve sonuç olarak o sitenin verilerinin eğitim amacıyla toplanmasını engeller.
Ana bölüm 1: Kurulum ve ortama göre uygulama yöntemleri
Sunucu tarafı ve istemci tarafı enjeksiyon yöntemlerinin ayrımı
-
Sunucu tarafı uygulama (önerilen):
-
Özellik: HTML oluşturulurken 'Canary (tuzak bağlantı)' eklendiği için JavaScript çalıştırmayan scraper’lara karşı da etkili şekilde çalışır.
-
React tabanlı framework’ler (Next.js, Remix): Kök layout’a
<Canary />bileşeni eklenerek uygulanır. Remix gibi bazı framework’lerde user agent bilgisinin loader üzerinden aktarılması gerekir. -
React dışı framework’ler:
getCanaryHtml()yardımcı aracı kullanılarak HTML doğrudan<body>etiketinin başlangıcına eklenir. -
İstemci tarafı uygulama:
-
Özellik: Statik sitelerde veya istemci tarafı enjeksiyonun tercih edildiği durumlarda kullanılır.
-
Uygulama: Ana giriş dosyasına otomatik başlatma modülü (
@fuzzycanary/core/auto) import edildiğinde, sayfa yüklendiğinde otomatik olarak enjeksiyon yapılır.
Ana bölüm 2: Arama motoru optimizasyonu (SEO) açısından dikkat edilmesi gerekenler
Normal arama botlarının tanınması ve statik sitelerin sınırları
-
Bot filtreleme mekanizması: Fuzzy Canary, Google, Bing, DuckDuckGo gibi bilinen arama motoru botlarını tanıyıp bu isteklere tuzak bağlantı eklemeyi atlayarak SEO zararını önler.
-
Sunucu tarafı render etmenin avantajı: Sunucu, istek yapan user agent’ı kontrol ederek arama motorlarına 'temiz HTML', AI scraper’larına ise 'Canary içeren HTML' seçici olarak sunabilir.
-
Statik sitelerin yapısal sorunu:
-
Build aşamasında HTML üreten statik sitelerde user agent kontrolü mümkün değildir.
-
Tüm HTML’e tuzak bağlantılar eklenirse, Google gibi arama motorları bu bağlantıları algılayabilir ve bu da SEO’yu olumsuz etkileyebilir.
-
Yanıt stratejisi: Statik site üreticisi kullanılıyorsa, çalışma anında
navigator.userAgentkontrolü yapıp enjeksiyon uygulanıp uygulanmayacağına karar veren istemci tarafı başlatma yöntemi kullanılmalıdır (ancak bunun yalnızca JavaScript çalıştıran botlara karşı etkili olması gibi bir sınırı vardır).
Sonuç: Uygulamada dikkat edilmesi gerekenler ve stratejik seçim
- Teknik verimlilik: Veri koruma açısından, JavaScript çalıştırılsın ya da çalıştırılmasın işleyen sunucu tarafı yöntem en etkili seçenektir.
- SEO ile denge: Statik site işletilirken SEO düşüşü riskinden kaçınmak için istemci tarafı yöntemi benimsemek yapısal olarak kaçınılmazdır.
- Nihai öneri: Kullanılan web framework’ünün render yöntemi (SSR vs Static) temel alınarak, scraping önleme verimliliği ile SEO’nun korunması arasındaki denge gözetilip uygun yöntem seçilmelidir.
2 yorum
HN yorum geri bildirim özeti
1. Yaratıcı fikir ve eğlence değeri
2. Fiilî engelleme etkisi ve örnekler
3. Olası yan etkiler (risk) konusundaki kaygılar
4. Teknik alternatifler üzerine tartışma
5. Yapay zeka şirketlerinin etik dışı davranışlarına tepki
En büyük sorun SEO galiba...