Yapay zeka şirketleri web trafiğinin çoğunu oluşturuyor

(pod.geraspora.de)

14 puan yazan GN⁺ 2024-12-31 | 1 yorum | WhatsApp'ta paylaş

diaspora projesinin web altyapısında (Discourse, Wiki, proje web sitesi vb.) yakın zamanda görülen yük sıçramaları ve yavaşlamalar analiz edildiğinde, "trafiğin büyük kısmının LLM tarama botları tarafından oluşturulduğu" ortaya çıktı
Son 60 günde 11,3 milyon istek geldi (ortalama 2,19 req/s) ve bunların %70'inden fazlası LLM ile ilişkili tarama botlarından kaynaklandı
- GPTBot/1.2: %24,6 (2,78 milyon istek)
- Amazonbot/0.1: %14,9 (1,69 milyon istek)
- ClaudeBot/1.0: %4,3 (490 bin istek)
- meta-externalagent/1.1: %2,2 (220 bin istek)
Anormal tarama kalıpları
- Tekrarlı tarama: aynı sayfalar 6 saat aralıklarla taranıyor
- robots.txt yok sayılıyor: tarama kısıtlama kurallarına hiç uyulmuyor
- Verimsiz tarama: anlamsız veriler (ör. Wiki'nin tüm düzenleme geçmişi) büyük ölçekte taranıyor
- Yük sıçramaları: belirli anlarda 10 req/s üzeri istek oluşturarak veritabanı ve MediaWiki sunucularında aşırı yük yaratıyor
Savunmak da mümkün değil
- IP değiştirme: rate limit'i aşmak için IP'ler sürekli değiştiriliyor
- UA dizgesi değiştirme: botların User Agent'ı rastgele dizgelerle değiştirilerek engelleme aşılıyor
Googlebot ve Bingbot gibi mevcut arama motoru tarayıcıları ise normal ve verimli tarama kalıpları gösteriyor.
- Googlebot: %0,14 (16.600 istek)
- Bingbot: %0,14 (15.900 istek)
Reklam
Yinelenen taramayı en aza indiriyor, robots.txt kurallarına uyuyor

Sonuçlar ve etkiler

Etkili hizmet sunumu mümkün değil: LLM tarama botları nedeniyle insan kullanıcı deneyimi ciddi biçimde kötüleşiyor
Sunucu aşırı yükü: veritabanı sunucusu ve MediaWiki tekrar tekrar yük sıçramaları yaşıyor
Fiilen tüm internete yönelik bir DDoS: bu tür tarama yöntemleri dünya çapında gereksiz kaynak israfına yol açıyor

Sonuç

LLM tarama botlarının anormal trafik kalıpları nedeniyle altyapı sürekli baskı altında kalıyor ve buna karşı savunma girişimleri etkili olamıyor
Bu sorun kişisel yorgunluğun ötesine geçerek internet ekosisteminin tamamı üzerinde ciddi etki yaratıyor

1 yorum

GN⁺ 2024-12-31

Hacker News görüşleri

Meta'nın AI botunun web sitelerini aşırı derecede crawl etmesi nedeniyle sunucunun çöktüğü bir deneyim paylaşılıyor. Bunu Cloudflare kullanarak engellemenin yolu anlatılıyor
- Cloudflare'in AI bot engelleme özelliğinin faydalı olduğu belirtiliyor
- AI botlarının içeriğe erişiminin bir değer üretmediği savunuluyor
Farklı platformlarda görülen bot trafiği verileri paylaşılıyor
- Claude, Amazon, Data For SEO, Chat GPT ve benzeri botların çok fazla trafik ürettiği belirtiliyor
- Bu botların robots.txt dosyasını görmezden geldiği veya gecikme yaşansa bile backoff yapmadığı anlatılıyor
Botları engelleme yöntemleri tartışılıyor
- IP değiştiren veya bot olmayan User Agent'a geçen bot davranışları açıklanıyor
- OpenAI'nin IP aralıklarını yayımlayan bir GitHub bağlantısından söz ediliyor
- WordPress eklentisi kullanarak AI botlarını engelleme yöntemi öneriliyor
CGTalk forumunun kaynak sorunları nedeniyle kapatıldığı örneğine değiniliyor
- Birçok forumun sunucu işletme yükünü azaltmak için Slack ve Discord'a taşındığı belirtiliyor
AI şirketlerinin scraping işlemini daha akıllıca yapması gerektiği savunuluyor
- AI şirketlerinin bu davranışının utanç verici olduğu söyleniyor
Poisoning saldırılarına dair merak dile getiriliyor
- İnsanlar tarafından yazılmış yanlış içeriklerle AI modellerini şaşırtma ihtimali araştırılıyor
GCP üzerinde dağıtılan bir uygulamada bot trafiği yüzünden maliyetlerin arttığı deneyimi paylaşılıyor
- Bunun nedeninin uygulamanın Reddit'te paylaşılması olabileceği tahmin ediliyor
Büyük bir forumu crawl etme deneyimi paylaşılıyor
- ChatGPT'nin forumun geçmişi hakkında çok şey bildiği belirtiliyor
- LLM'leri etkileyebilecek metinler ekleme fikri öneriliyor
robots.txtyi görmezden gelip hizmete zarar veren bot davranışlarının yasa dışı sayılabileceği savunuluyor
- Bölgesel siber suçlarla ilgili kolluk kuvvetlerine başvurulması tavsiye ediliyor

Yapay zeka şirketleri web trafiğinin çoğunu oluşturuyor

Sonuçlar ve etkiler

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri