1 puan yazan GN⁺ 2024-06-16 | 1 yorum | WhatsApp'ta paylaş
  • Yazar dün sunucusunda yapay zeka botlarını engellemeyle ilgili bir yazı yazdı ve bugün MacStories için aynı işlemi yaptı
  • Ayarlar tamamlandıktan sonra Federico, Perplexity adlı sitede MacStories’teki belirli bir gönderinin alıntılanabildiğini gördü
  • Yazar kendi sitesinde şu değişiklikleri uyguladı:
    • 30 Mart: PerplexityBot gibi botları robots.txt üzerinden engellemeye başladı
    • 14 Haziran: nginx üzerinde sunucu taraflı engelleme ekledi. Eşleşen tüm girdiler 403 Forbidden yanıtı döndürüyor
  • Yazar, tüm yapay zeka şirketlerinin robots.txt’yi yok saydığını varsayıyor ve mart ayından beri istek gönderilmiş olsa da bunun etkisiz kaldığını düşünüyor
  • Yazar, yapay zeka botlarını engellemeye dair yazısını engelleme önlemleri uygulandıktan sonra yayımladığı için, User Agent gönderiliyorsa Perplexity’nin bu siteye erişememesi gerektiğini belirtiyor
  • Ancak Perplexity’ye söz konusu yazı sorulduğunda, sadece tahminle bilinmesi mümkün olmayan ayrıntıları içeren kusursuz bir özet aldı
  • Yazar, yalnızca Chrome’un User Agent sahtelemesini test ettiği için bir şeyi yanlış yapılandırmış olabileceğini düşündü
  • Ancak Perplexity’nin istekte kullandığını iddia ettiği User Agent olan PerplexityBot ile kodu test ettiğinde beklendiği gibi 403 yanıtı aldı; yani nginx yapılandırmasında bir sorun yoktu
  • Yazar, Perplexity AI’a robots.txt’ye rağmen siteye nasıl erişebildiğini sorduğunda, Perplexity AI robots.txt tarafından engellenen içeriği tarama veya erişme yeteneği olmadığını ve kısıtlı içeriğe erişmenin ya da onu özetlemenin etik olmadığını söyledi
  • Ancak Lewis, Perplexity’nin PerplexityBot içermeyen şu User Agent dizgesini kullandığını doğruladı:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • Yazar da erişim günlüklerini etkinleştirip Perplexity’ye soru sorduğunda, Lewis ile aynı şekilde User Agent içinde özel bir User Agent bulunmadığını doğruladı
  • Perplexity, içeriği kazımak için headless browser kullanıyor; robots.txt’yi yok sayıyor ve doğru User Agent dizgesini de göndermiyor
  • Bu headless browser’lar Perplexity’nin IP aralığında görünmediği için IP aralıklarını engellemek de mümkün görünmüyor
  • Yazar, yazılarının yapay zeka şirketleri tarafından ücretsiz şekilde toplanmasını istemiyor ancak artık yapabileceği başka bir şey kalmadığını söylüyor
  • Yazar, Perplexity’nin Discord sunucusuna katıldı, tanıtım kanalında kendini tanıttı ve hata kanalına bir hata bildirimi gönderdi
  • Bir sonraki adım olarak GDPR talebini düşünüyor, ancak emin değil

GN⁺'un görüşü

  • Yapay zeka botlarını engellemenin önemi: Yapay zeka botlarının bir sitenin içeriğini izinsiz kullanmasını önlemek için uygun engelleme yöntemleri gerekiyor
  • User Agent doğrulaması: Yapay zeka botları doğru User Agent kullanmıyorsa, bunu tespit edip engellemek önemli
  • robots.txt dosyasının sınırları: Birçok yapay zeka botu robots.txt dosyasını yok sayabildiği için, ek sunucu taraflı engelleme yöntemleri gerekiyor
  • Gizlilik: GDPR gibi düzenlemeler aracılığıyla yapay zeka botlarının izinsiz erişimini engelleme yolları değerlendirilmeli
  • Alternatif çözümler: Siteyi korumak için başka yapay zeka botu engelleme çözümleri veya güvenlik araçları kullanmak da iyi bir yöntem olabilir.

1 yorum

 
GN⁺ 2024-06-16
Hacker News görüşü
  • LLM'lerin verilerimi eğitememesi mümkün olmalı ve Perplexity bunu kolayca engellemeyi sağlamalı.
  • Perplexity'nin gerçek zamanlı web sorguları üzerinden web sitemdeki verileri kullanıcılara sunmasını yasaklamak, tehlikeli bir alana girmek anlamına geliyor.
  • Reklam engelleyiciler, okuma modu ve ekran okuyucular da Perplexity ile benzer şekilde çalışır; bunu yasaklamak birçok aracı etkileyebilir.
  • Web sitesi sahiplerinin DRM kullanarak sitelerin yalnızca belirli bir şekilde görüntülenmesini dayatmasını istemiyorum.
  • Perplexity kullanıcı aracısının hangi noktada devreye girdiği konusunda bir yanlış anlama var gibi görünüyor.
  • Web sitesi sahipleri kullanıcıların hangi tarayıcıyı kullanacağını belirleyemez ve Perplexity de bunun istisnası değil.
  • Perplexity'nin kullanıcı aracısı olmadan büyük ölçekte veri toplaması sorunlu ve bunun durdurulması gerekiyor.
  • Bir yapay zeka şirketinin modeli eğitmek için web sitelerini scrape etmesiyle, kullanıcının talep ettiği bir web sayfasını getirmesi birbirinden ayrılmalı.
  • Perplexity'nin başkalarının içeriğini alıp kullanmasıyla ilgili sorunları ele alan bir makale bağlantısı paylaşılıyor.
  • Perplexity'nin crawler'ı robots.txt'ye saygı duymalı; kullanıcı aracısı ise bir crawler olmadığından buna uyması gerekmez.
  • Yapay zeka şirketleri web sitemi scrape ederse umurumda olmaz; yanlış verileri almalarına izin veririm.
  • Web scraping yapmış olan herkes, kullanıcı aracısı hakkında neden yalan söylendiğini bilir.
  • Perplexity CEO'su Google ve OpenAI'ı eleştirdi, ancak kendilerinin de robots.txt'ye uymadığı ve kullanıcı aracısını gizlediği ortaya çıktı.
  • Yapay zeka şirketlerinin içeriğimi ücretsiz almasını engellemek için görünmez prompt injection kullanılabilir.
  • Perplexity'nin gönüllü web standartlarına uymaması, ille de yalan söylediği anlamına gelmez.