Perplexity AI, User Agent konusunda yalan söylüyor
(rknight.me)- Yazar dün sunucusunda yapay zeka botlarını engellemeyle ilgili bir yazı yazdı ve bugün MacStories için aynı işlemi yaptı
- Ayarlar tamamlandıktan sonra Federico, Perplexity adlı sitede MacStories’teki belirli bir gönderinin alıntılanabildiğini gördü
- Yazar kendi sitesinde şu değişiklikleri uyguladı:
- 30 Mart:
PerplexityBotgibi botları robots.txt üzerinden engellemeye başladı - 14 Haziran: nginx üzerinde sunucu taraflı engelleme ekledi. Eşleşen tüm girdiler 403 Forbidden yanıtı döndürüyor
- 30 Mart:
- Yazar, tüm yapay zeka şirketlerinin robots.txt’yi yok saydığını varsayıyor ve mart ayından beri istek gönderilmiş olsa da bunun etkisiz kaldığını düşünüyor
- Yazar, yapay zeka botlarını engellemeye dair yazısını engelleme önlemleri uygulandıktan sonra yayımladığı için, User Agent gönderiliyorsa Perplexity’nin bu siteye erişememesi gerektiğini belirtiyor
- Ancak Perplexity’ye söz konusu yazı sorulduğunda, sadece tahminle bilinmesi mümkün olmayan ayrıntıları içeren kusursuz bir özet aldı
- Yazar, yalnızca Chrome’un User Agent sahtelemesini test ettiği için bir şeyi yanlış yapılandırmış olabileceğini düşündü
- Ancak Perplexity’nin istekte kullandığını iddia ettiği User Agent olan
PerplexityBotile kodu test ettiğinde beklendiği gibi 403 yanıtı aldı; yani nginx yapılandırmasında bir sorun yoktu - Yazar, Perplexity AI’a robots.txt’ye rağmen siteye nasıl erişebildiğini sorduğunda, Perplexity AI robots.txt tarafından engellenen içeriği tarama veya erişme yeteneği olmadığını ve kısıtlı içeriğe erişmenin ya da onu özetlemenin etik olmadığını söyledi
- Ancak Lewis, Perplexity’nin
PerplexityBotiçermeyen şu User Agent dizgesini kullandığını doğruladı:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - Yazar da erişim günlüklerini etkinleştirip Perplexity’ye soru sorduğunda, Lewis ile aynı şekilde User Agent içinde özel bir User Agent bulunmadığını doğruladı
- Perplexity, içeriği kazımak için headless browser kullanıyor; robots.txt’yi yok sayıyor ve doğru User Agent dizgesini de göndermiyor
- Bu headless browser’lar Perplexity’nin IP aralığında görünmediği için IP aralıklarını engellemek de mümkün görünmüyor
- Yazar, yazılarının yapay zeka şirketleri tarafından ücretsiz şekilde toplanmasını istemiyor ancak artık yapabileceği başka bir şey kalmadığını söylüyor
- Yazar, Perplexity’nin Discord sunucusuna katıldı, tanıtım kanalında kendini tanıttı ve hata kanalına bir hata bildirimi gönderdi
- Bir sonraki adım olarak GDPR talebini düşünüyor, ancak emin değil
GN⁺'un görüşü
- Yapay zeka botlarını engellemenin önemi: Yapay zeka botlarının bir sitenin içeriğini izinsiz kullanmasını önlemek için uygun engelleme yöntemleri gerekiyor
- User Agent doğrulaması: Yapay zeka botları doğru User Agent kullanmıyorsa, bunu tespit edip engellemek önemli
- robots.txt dosyasının sınırları: Birçok yapay zeka botu robots.txt dosyasını yok sayabildiği için, ek sunucu taraflı engelleme yöntemleri gerekiyor
- Gizlilik: GDPR gibi düzenlemeler aracılığıyla yapay zeka botlarının izinsiz erişimini engelleme yolları değerlendirilmeli
- Alternatif çözümler: Siteyi korumak için başka yapay zeka botu engelleme çözümleri veya güvenlik araçları kullanmak da iyi bir yöntem olabilir.
1 yorum
Hacker News görüşü