Yapay zeka şirketleri web trafiğinin çoğunu oluşturuyor
(pod.geraspora.de)- diaspora projesinin web altyapısında (Discourse, Wiki, proje web sitesi vb.) yakın zamanda görülen yük sıçramaları ve yavaşlamalar analiz edildiğinde, "trafiğin büyük kısmının LLM tarama botları tarafından oluşturulduğu" ortaya çıktı
- Son 60 günde 11,3 milyon istek geldi (ortalama 2,19 req/s) ve bunların %70'inden fazlası LLM ile ilişkili tarama botlarından kaynaklandı
- GPTBot/1.2: %24,6 (2,78 milyon istek)
- Amazonbot/0.1: %14,9 (1,69 milyon istek)
- ClaudeBot/1.0: %4,3 (490 bin istek)
- meta-externalagent/1.1: %2,2 (220 bin istek)
- Anormal tarama kalıpları
- Tekrarlı tarama: aynı sayfalar 6 saat aralıklarla taranıyor
robots.txtyok sayılıyor: tarama kısıtlama kurallarına hiç uyulmuyor- Verimsiz tarama: anlamsız veriler (ör. Wiki'nin tüm düzenleme geçmişi) büyük ölçekte taranıyor
- Yük sıçramaları: belirli anlarda 10 req/s üzeri istek oluşturarak veritabanı ve MediaWiki sunucularında aşırı yük yaratıyor
- Savunmak da mümkün değil
- IP değiştirme: rate limit'i aşmak için IP'ler sürekli değiştiriliyor
- UA dizgesi değiştirme: botların User Agent'ı rastgele dizgelerle değiştirilerek engelleme aşılıyor
- Googlebot ve Bingbot gibi mevcut arama motoru tarayıcıları ise normal ve verimli tarama kalıpları gösteriyor.
- Googlebot: %0,14 (16.600 istek)
- Bingbot: %0,14 (15.900 istek)
- Yinelenen taramayı en aza indiriyor,
robots.txtkurallarına uyuyor
Sonuçlar ve etkiler
- Etkili hizmet sunumu mümkün değil: LLM tarama botları nedeniyle insan kullanıcı deneyimi ciddi biçimde kötüleşiyor
- Sunucu aşırı yükü: veritabanı sunucusu ve MediaWiki tekrar tekrar yük sıçramaları yaşıyor
- Fiilen tüm internete yönelik bir DDoS: bu tür tarama yöntemleri dünya çapında gereksiz kaynak israfına yol açıyor
Sonuç
- LLM tarama botlarının anormal trafik kalıpları nedeniyle altyapı sürekli baskı altında kalıyor ve buna karşı savunma girişimleri etkili olamıyor
- Bu sorun kişisel yorgunluğun ötesine geçerek internet ekosisteminin tamamı üzerinde ciddi etki yaratıyor
1 yorum
Hacker News görüşleri
Meta'nın AI botunun web sitelerini aşırı derecede crawl etmesi nedeniyle sunucunun çöktüğü bir deneyim paylaşılıyor. Bunu Cloudflare kullanarak engellemenin yolu anlatılıyor
Farklı platformlarda görülen bot trafiği verileri paylaşılıyor
robots.txtdosyasını görmezden geldiği veya gecikme yaşansa bile backoff yapmadığı anlatılıyorBotları engelleme yöntemleri tartışılıyor
CGTalk forumunun kaynak sorunları nedeniyle kapatıldığı örneğine değiniliyor
AI şirketlerinin scraping işlemini daha akıllıca yapması gerektiği savunuluyor
Poisoning saldırılarına dair merak dile getiriliyor
GCP üzerinde dağıtılan bir uygulamada bot trafiği yüzünden maliyetlerin arttığı deneyimi paylaşılıyor
Büyük bir forumu crawl etme deneyimi paylaşılıyor
robots.txtyi görmezden gelip hizmete zarar veren bot davranışlarının yasa dışı sayılabileceği savunuluyor