14 puan yazan GN⁺ 2024-12-31 | 1 yorum | WhatsApp'ta paylaş
  • diaspora projesinin web altyapısında (Discourse, Wiki, proje web sitesi vb.) yakın zamanda görülen yük sıçramaları ve yavaşlamalar analiz edildiğinde, "trafiğin büyük kısmının LLM tarama botları tarafından oluşturulduğu" ortaya çıktı
  • Son 60 günde 11,3 milyon istek geldi (ortalama 2,19 req/s) ve bunların %70'inden fazlası LLM ile ilişkili tarama botlarından kaynaklandı
    • GPTBot/1.2: %24,6 (2,78 milyon istek)
    • Amazonbot/0.1: %14,9 (1,69 milyon istek)
    • ClaudeBot/1.0: %4,3 (490 bin istek)
    • meta-externalagent/1.1: %2,2 (220 bin istek)
  • Anormal tarama kalıpları
    • Tekrarlı tarama: aynı sayfalar 6 saat aralıklarla taranıyor
    • robots.txt yok sayılıyor: tarama kısıtlama kurallarına hiç uyulmuyor
    • Verimsiz tarama: anlamsız veriler (ör. Wiki'nin tüm düzenleme geçmişi) büyük ölçekte taranıyor
    • Yük sıçramaları: belirli anlarda 10 req/s üzeri istek oluşturarak veritabanı ve MediaWiki sunucularında aşırı yük yaratıyor
  • Savunmak da mümkün değil
    • IP değiştirme: rate limit'i aşmak için IP'ler sürekli değiştiriliyor
    • UA dizgesi değiştirme: botların User Agent'ı rastgele dizgelerle değiştirilerek engelleme aşılıyor
  • Googlebot ve Bingbot gibi mevcut arama motoru tarayıcıları ise normal ve verimli tarama kalıpları gösteriyor.
    • Googlebot: %0,14 (16.600 istek)
    • Bingbot: %0,14 (15.900 istek)
    Reklam
  • Yinelenen taramayı en aza indiriyor, robots.txt kurallarına uyuyor

Sonuçlar ve etkiler

  • Etkili hizmet sunumu mümkün değil: LLM tarama botları nedeniyle insan kullanıcı deneyimi ciddi biçimde kötüleşiyor
  • Sunucu aşırı yükü: veritabanı sunucusu ve MediaWiki tekrar tekrar yük sıçramaları yaşıyor
  • Fiilen tüm internete yönelik bir DDoS: bu tür tarama yöntemleri dünya çapında gereksiz kaynak israfına yol açıyor

Sonuç

  • LLM tarama botlarının anormal trafik kalıpları nedeniyle altyapı sürekli baskı altında kalıyor ve buna karşı savunma girişimleri etkili olamıyor
  • Bu sorun kişisel yorgunluğun ötesine geçerek internet ekosisteminin tamamı üzerinde ciddi etki yaratıyor

1 yorum

 
GN⁺ 2024-12-31
Hacker News görüşleri
  • Meta'nın AI botunun web sitelerini aşırı derecede crawl etmesi nedeniyle sunucunun çöktüğü bir deneyim paylaşılıyor. Bunu Cloudflare kullanarak engellemenin yolu anlatılıyor

    • Cloudflare'in AI bot engelleme özelliğinin faydalı olduğu belirtiliyor
    • AI botlarının içeriğe erişiminin bir değer üretmediği savunuluyor
  • Farklı platformlarda görülen bot trafiği verileri paylaşılıyor

    • Claude, Amazon, Data For SEO, Chat GPT ve benzeri botların çok fazla trafik ürettiği belirtiliyor
    • Bu botların robots.txt dosyasını görmezden geldiği veya gecikme yaşansa bile backoff yapmadığı anlatılıyor
  • Botları engelleme yöntemleri tartışılıyor

    • IP değiştiren veya bot olmayan User Agent'a geçen bot davranışları açıklanıyor
    • OpenAI'nin IP aralıklarını yayımlayan bir GitHub bağlantısından söz ediliyor
    • WordPress eklentisi kullanarak AI botlarını engelleme yöntemi öneriliyor
  • CGTalk forumunun kaynak sorunları nedeniyle kapatıldığı örneğine değiniliyor

    • Birçok forumun sunucu işletme yükünü azaltmak için Slack ve Discord'a taşındığı belirtiliyor
  • AI şirketlerinin scraping işlemini daha akıllıca yapması gerektiği savunuluyor

    • AI şirketlerinin bu davranışının utanç verici olduğu söyleniyor
  • Poisoning saldırılarına dair merak dile getiriliyor

    • İnsanlar tarafından yazılmış yanlış içeriklerle AI modellerini şaşırtma ihtimali araştırılıyor
  • GCP üzerinde dağıtılan bir uygulamada bot trafiği yüzünden maliyetlerin arttığı deneyimi paylaşılıyor

    • Bunun nedeninin uygulamanın Reddit'te paylaşılması olabileceği tahmin ediliyor
  • Büyük bir forumu crawl etme deneyimi paylaşılıyor

    • ChatGPT'nin forumun geçmişi hakkında çok şey bildiği belirtiliyor
    • LLM'leri etkileyebilecek metinler ekleme fikri öneriliyor
  • robots.txtyi görmezden gelip hizmete zarar veren bot davranışlarının yasa dışı sayılabileceği savunuluyor

    • Bölgesel siber suçlarla ilgili kolluk kuvvetlerine başvurulması tavsiye ediliyor