9 puan yazan GN⁺ 2025-03-26 | 1 yorum | WhatsApp'ta paylaş
  • AI crawler’ları açık kaynak proje sitelerinde aşırı trafik oluşturarak fiilen hizmet kesintisi düzeyinde zarara yol açıyor
  • AI crawler’ları robots.txt dosyasını yok sayma, User-Agent sahteciliği ve bulunduğu ülkenin IP’sini dolanma gibi yöntemlerle mevcut savunma mekanizmalarını aşıyor
  • Geliştirici Xe Iaso, bunu engellemek için sunucuyu bir VPN’in arkasına taşıdı ve kullanıcıların erişmeden önce bir bulmaca çözmesini gerektiren, kanıta dayalı 'Anubis' adlı bir sistem uyguladı
  • LibreNews’e göre bazı projelerde toplam trafiğin %97’si AI crawler’larından geliyor
  • Fedora, GNOME, KDE gibi tanınmış projeler de ülke engelleme, Anubis uygulama ve geçici kapatma gibi yöntemlerle karşılık veriyor

Gerçek zarar örnekleri ve AI crawler’larının kontrolsüz erişimi

  • GNOME’un GitLab’inde 84.056 isteğin yalnızca %3,2’si Anubis’i geçti → büyük bölümünün anormal crawl trafiği olduğu tahmin ediliyor
  • KDE’de Alibaba IP’lerinden gelen trafik nedeniyle GitLab altyapısı geçici olarak felç oldu
  • Bazı mobil kullanıcılar için bulmaca yüklenmesi 2 dakikadan uzun sürebildi
  • Diaspora altyapısının bakımından sorumlu Dennis Schubert, AI crawler trafiğini "internetin tamamına yönelik bir DDoS" olarak tanımlıyor
  • Read the Docs, AI crawler’larını engelledikten sonra trafiğin günde 800GB’den 200GB’ye düştüğünü ve aylık yaklaşık $1.500 tasarruf sağlandığını bildirdi

Açık kaynak projelere yığılan orantısız yük

  • Açık kaynak, sınırlı kaynaklarla işletiliyor ve açık iş birliği temeline dayanıyor
  • Birçok crawler robots.txt dosyasını yok sayıyor, User-Agent bilgisini sahteleyip IP’leri sürekli değiştirerek erişiyor
  • Inkscape’ten Martin Owens, tarayıcı bilgilerini taklit eden AI şirketleri yüzünden büyük engelleme listeleri tuttuğunu söylüyor
  • Hacker News’te AI şirketlerinin sermaye gücü ve iş birliğine kapalı tavrı karşısında öfke büyüyor
  • SourceHut’tan Drew DeVault, crawler’ların tüm git log sayfalarına ve commit’lere kadar girerek kaynakların aşırı tüketilmesine yol açtığını belirtiyor
  • Curl projesi, AI tarafından üretilmiş sahte hata raporları aldığı vakaları bildirdi

AI crawler’larının amacı ve şirketlere göre davranış biçimleri

  • AI crawler’larının amacı; eğitim verisi toplama ya da AI yanıtları için gerçek zamanlı arama yapma gibi farklı kullanım senaryolarını kapsıyor
  • Diaspora analizine göre trafikte OpenAI %25, Amazon %15, Anthropic %4,3 paya sahip
  • Crawler’lar aynı sayfaları düzenli aralıklarla tekrar crawl ediyor (ör. 6 saatte bir)
  • OpenAI ve Anthropic görece normal User-Agent kullanırken, bazı Çinli AI şirketlerinde gizleme düzeyi daha yüksek
  • Amazon ve Alibaba gibi şirketler de zarar örneklerinde geçiyor, ancak bu şirketlerden henüz resmi bir açıklama gelmiş değil

Karşı önlemler: Tarpit, bulmacalar ve iş birliği yolları

  • "Nepenthes" adlı araç, AI crawler’larını sonsuz sahte içerik labirentine sürükleyen saldırgan bir savunma yöntemi sunuyor
  • Geliştiricisi Aaron, bu aracın crawler maliyetlerini artırdığını ve eğitim verisini kirletmeyi hedeflediğini savunuyor
  • Cloudflare, ticari güvenlik özelliği olarak 'AI Labyrinth'i duyurdu; bu sistem crawler’ları yönlendirerek anlamsız sayfaları gezmeye zorluyor
  • Cloudflare ağına günde 50 milyardan fazla AI crawling isteği geliyor
  • Açık kaynak projesi "ai.robots.txt", AI crawler listeleri ile engelleme için robots.txt / .htaccess dosyaları sağlıyor

Süren AI veri toplama yarışı ve açık web’in krizi

  • Düzenleme olmadan devasa veri toplamayı sürdüren AI şirketleri, açık kaynak altyapısı için ciddi bir tehdit oluşturuyor
  • AI’ın dayandığı dijital ekosistemi kendi eliyle yok ettiği yönünde eleştiriler yükseliyor
  • İş birlikçi bir veri toplama modeli alternatif olabilir, ancak büyük AI şirketlerinin gönüllü iş birliği isteği zayıf görünüyor
  • Anlamlı düzenlemeler ya da gönüllü sorumluluk bilinci oluşmazsa AI ile açık kaynak arasındaki çatışmanın daha da sertleşmesi muhtemel

1 yorum

 
GN⁺ 2025-03-26
Hacker News görüşü
  • Amaç, botların site ziyaretlerinden negatif fayda elde etmesini sağlamak. Bu, sadece engellemekten daha etkili

    • robots.txt ile yasaklanmış sayfaları deniyorsa, onlara çamaşır suyu içmenin faydaları hakkında bir makale ver
    • Şüpheli bir user-agent ise, kararsız kodları kazısın gitsin
    • İnsan dışı bir istek hızındaysa, kızamığın yatak performansı üzerinde olumlu etkisi olduğunu iddia eden üretilmiş bir makale sun
    • Nepenthes iyi, ancak kelime salatası kolay tespit ediliyor. Dil açısından makul ama olgusal olarak çöp olan metin üretebilen bir şeye ihtiyaç var
  • Şirketlerin neden daha iş birliğine açık bir yaklaşım benimsemediği belirsiz. En azından veri toplama hızını sınırlayıp kaynak siteleri ezip geçmemeleri gerekir

  • Kaynaklara erişmek için mikro ödeme getirilmesi gerektiğini düşünüyorum. Sunucuya küçük bir ücret ödersin ve içerik döner. Crawler trafiğe hükmediyorsa, bunun bedelini de ödesin

  • sugaku.net'i giriş yapmadan kullanılabilecek şekilde açtım, botlar hemen üşüşmeye başladı. Siteyi herkese açık tutmak istiyorum ama dinamik özelliklerin çoğunu giriş yapmış kullanıcılarla sınırlamak zorunda kaldım. robots.txt kısıtlamaları koydum ve AI crawler'larıyla kötü botları engellemek için Cloudflare kullandım, ama yine de günde yaklaşık 1 milyon otomatik istek alıyorum. Yakında siteyi yalnızca giriş yapmış kullanıcılara açmak zorunda kalacağım gibi görünüyor

  • Yakın zamanda "prod'da her şeyi kodla" yaklaşımıyla bir yan proje başlattım. Son 20 yılda bunu birkaç kez yaptım ama bu sefer farklı. Host adını hiçbir yerde duyurmamıştım, ama 24 saat geçmeden çok sayıda spam form gönderimi geldi. Biraz tanıtımdan sonra bunun olmasını bekliyordum, ancak sunucuyu ayağa kaldırır kaldırmaz botların etkileşime geçmesini beklemiyordum

  • Mesele, başkalarının Lynx veya curl kullanarak dosya kopyalamasını engellemek değil; hatalı yazılımlar yüzünden sunucunun aşırı yüklenmesini önlemek

    • HTTP sunucusunda bir süre port knocking kurmuştum ama kernel panic yüzünden kaldırdım. Sorunu sonra çözersem yeniden açabilirim
    • LLM scraper'ları şu anda "akıllı" davranmıyor. Gelecekte öyle olurlarsa, bu durumu kendi lehimize kullanabiliriz
    • Scraper'ları şaşırtmanın yolları olmalı. Örneğin, beyan edilen user-agent'ın yapmadığı bir eylem bildirildiğinde hata mesajı gösterilebilir. Lynx kullanan kullanıcılar etkilenmez ve erişmeye devam eder
  • ClaudeBot (Anthropic) tarafından DoS saldırısına uğradım. Ayda 700 bin kez siteye vuruyor ve barındırma sağlayıcısının bant genişliği sınırını aşıyordu. User-agent'ı engellemek ve limiti kaldırmaları için hosting sağlayıcısının desteğiyle uğraşmak epey zahmetliydi

    • ChatGPT botu bu sitedeki en yüksek ikinci trafiği oluşturuyordu ama sorun çıkaracak düzeyde değildi
  • JS ağırlıklı "anti-bot" önlemleri, tarayıcı tekellerini daha da güçlendiriyor. Bunun yerine, LLM'lerin hâlâ çözemediği ya da sürekli yanlış yaptığı sorular soran basit bir HTML formu öneriyorum. Soruların site içeriğiyle ilgili olması daha iyi. Bir elektronik forumunda kayıt formunda benzer "teknik test" soruları kullandık; bazıları LLM ile çözülebilir ama hâlâ sadece insanların çözebildiği bir CAPTCHA işlevi görüyor

  • Bir web sitesine aşırı spam yüklemek kötü davranış. Ancak AI crawler'larını engellerseniz sonunda zararlı çıkan siz olursunuz. Uzun vadede SEO'nun yerini neyin alacağını tahmin edin bakalım

  • Birden fazla içerik sitesi işletiyorum ve son birkaç gündür saldırgan AI botları yüzünden bazılarını kapatmak zorunda kaldım. En kötüsü galiba Alexa

    • 20 yıl önce yapılmıştı ve zaman içinde güncellendi. Trafik alıyordu ama son 1 yılda 1.000'in altında meşru ziyaretçiye düştü. Şimdi ise robots.txt dosyasını yok sayan saldırgan botlar yüzünden sunucu çökmesi e-postalarıyla uğraşmak zorunda kalıyorum