Perplexity AI, User Agent konusunda yalan söylüyor

(rknight.me)

1 puan yazan GN⁺ 2024-06-16 | 1 yorum | WhatsApp'ta paylaş

Yazar dün sunucusunda yapay zeka botlarını engellemeyle ilgili bir yazı yazdı ve bugün MacStories için aynı işlemi yaptı
Ayarlar tamamlandıktan sonra Federico, Perplexity adlı sitede MacStories’teki belirli bir gönderinin alıntılanabildiğini gördü
Yazar kendi sitesinde şu değişiklikleri uyguladı:
- 30 Mart: PerplexityBot gibi botları robots.txt üzerinden engellemeye başladı
- 14 Haziran: nginx üzerinde sunucu taraflı engelleme ekledi. Eşleşen tüm girdiler 403 Forbidden yanıtı döndürüyor
Yazar, tüm yapay zeka şirketlerinin robots.txt’yi yok saydığını varsayıyor ve mart ayından beri istek gönderilmiş olsa da bunun etkisiz kaldığını düşünüyor
Yazar, yapay zeka botlarını engellemeye dair yazısını engelleme önlemleri uygulandıktan sonra yayımladığı için, User Agent gönderiliyorsa Perplexity’nin bu siteye erişememesi gerektiğini belirtiyor
Ancak Perplexity’ye söz konusu yazı sorulduğunda, sadece tahminle bilinmesi mümkün olmayan ayrıntıları içeren kusursuz bir özet aldı
Yazar, yalnızca Chrome’un User Agent sahtelemesini test ettiği için bir şeyi yanlış yapılandırmış olabileceğini düşündü
Ancak Perplexity’nin istekte kullandığını iddia ettiği User Agent olan PerplexityBot ile kodu test ettiğinde beklendiği gibi 403 yanıtı aldı; yani nginx yapılandırmasında bir sorun yoktu
Yazar, Perplexity AI’a robots.txt’ye rağmen siteye nasıl erişebildiğini sorduğunda, Perplexity AI robots.txt tarafından engellenen içeriği tarama veya erişme yeteneği olmadığını ve kısıtlı içeriğe erişmenin ya da onu özetlemenin etik olmadığını söyledi
Ancak Lewis, Perplexity’nin PerplexityBot içermeyen şu User Agent dizgesini kullandığını doğruladı:
```
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
```
Yazar da erişim günlüklerini etkinleştirip Perplexity’ye soru sorduğunda, Lewis ile aynı şekilde User Agent içinde özel bir User Agent bulunmadığını doğruladı
Perplexity, içeriği kazımak için headless browser kullanıyor; robots.txt’yi yok sayıyor ve doğru User Agent dizgesini de göndermiyor
Bu headless browser’lar Perplexity’nin IP aralığında görünmediği için IP aralıklarını engellemek de mümkün görünmüyor
Yazar, yazılarının yapay zeka şirketleri tarafından ücretsiz şekilde toplanmasını istemiyor ancak artık yapabileceği başka bir şey kalmadığını söylüyor
Yazar, Perplexity’nin Discord sunucusuna katıldı, tanıtım kanalında kendini tanıttı ve hata kanalına bir hata bildirimi gönderdi
Bir sonraki adım olarak GDPR talebini düşünüyor, ancak emin değil

GN⁺'un görüşü

Yapay zeka botlarını engellemenin önemi: Yapay zeka botlarının bir sitenin içeriğini izinsiz kullanmasını önlemek için uygun engelleme yöntemleri gerekiyor
User Agent doğrulaması: Yapay zeka botları doğru User Agent kullanmıyorsa, bunu tespit edip engellemek önemli
robots.txt dosyasının sınırları: Birçok yapay zeka botu robots.txt dosyasını yok sayabildiği için, ek sunucu taraflı engelleme yöntemleri gerekiyor
Gizlilik: GDPR gibi düzenlemeler aracılığıyla yapay zeka botlarının izinsiz erişimini engelleme yolları değerlendirilmeli
Alternatif çözümler: Siteyi korumak için başka yapay zeka botu engelleme çözümleri veya güvenlik araçları kullanmak da iyi bir yöntem olabilir.

1 yorum

GN⁺ 2024-06-16

Hacker News görüşü

LLM'lerin verilerimi eğitememesi mümkün olmalı ve Perplexity bunu kolayca engellemeyi sağlamalı.
Perplexity'nin gerçek zamanlı web sorguları üzerinden web sitemdeki verileri kullanıcılara sunmasını yasaklamak, tehlikeli bir alana girmek anlamına geliyor.
Reklam engelleyiciler, okuma modu ve ekran okuyucular da Perplexity ile benzer şekilde çalışır; bunu yasaklamak birçok aracı etkileyebilir.
Web sitesi sahiplerinin DRM kullanarak sitelerin yalnızca belirli bir şekilde görüntülenmesini dayatmasını istemiyorum.
Perplexity kullanıcı aracısının hangi noktada devreye girdiği konusunda bir yanlış anlama var gibi görünüyor.
Web sitesi sahipleri kullanıcıların hangi tarayıcıyı kullanacağını belirleyemez ve Perplexity de bunun istisnası değil.
Perplexity'nin kullanıcı aracısı olmadan büyük ölçekte veri toplaması sorunlu ve bunun durdurulması gerekiyor.
Bir yapay zeka şirketinin modeli eğitmek için web sitelerini scrape etmesiyle, kullanıcının talep ettiği bir web sayfasını getirmesi birbirinden ayrılmalı.
Perplexity'nin başkalarının içeriğini alıp kullanmasıyla ilgili sorunları ele alan bir makale bağlantısı paylaşılıyor.
Perplexity'nin crawler'ı robots.txt'ye saygı duymalı; kullanıcı aracısı ise bir crawler olmadığından buna uyması gerekmez.
Yapay zeka şirketleri web sitemi scrape ederse umurumda olmaz; yanlış verileri almalarına izin veririm.
Web scraping yapmış olan herkes, kullanıcı aracısı hakkında neden yalan söylendiğini bilir.
Perplexity CEO'su Google ve OpenAI'ı eleştirdi, ancak kendilerinin de robots.txt'ye uymadığı ve kullanıcı aracısını gizlediği ortaya çıktı.
Yapay zeka şirketlerinin içeriğimi ücretsiz almasını engellemek için görünmez prompt injection kullanılabilir.
Perplexity'nin gönüllü web standartlarına uymaması, ille de yalan söylediği anlamına gelmez.

Perplexity AI, User Agent konusunda yalan söylüyor

GN⁺'un görüşü

İlgili okumalar

1 yorum

Hacker News görüşü