- AI crawler’ları açık kaynak proje sitelerinde aşırı trafik oluşturarak fiilen hizmet kesintisi düzeyinde zarara yol açıyor
- AI crawler’ları
robots.txt dosyasını yok sayma, User-Agent sahteciliği ve bulunduğu ülkenin IP’sini dolanma gibi yöntemlerle mevcut savunma mekanizmalarını aşıyor
- Geliştirici Xe Iaso, bunu engellemek için sunucuyu bir VPN’in arkasına taşıdı ve kullanıcıların erişmeden önce bir bulmaca çözmesini gerektiren, kanıta dayalı 'Anubis' adlı bir sistem uyguladı
- LibreNews’e göre bazı projelerde toplam trafiğin %97’si AI crawler’larından geliyor
- Fedora, GNOME, KDE gibi tanınmış projeler de ülke engelleme, Anubis uygulama ve geçici kapatma gibi yöntemlerle karşılık veriyor
Gerçek zarar örnekleri ve AI crawler’larının kontrolsüz erişimi
- GNOME’un GitLab’inde 84.056 isteğin yalnızca %3,2’si Anubis’i geçti → büyük bölümünün anormal crawl trafiği olduğu tahmin ediliyor
- KDE’de Alibaba IP’lerinden gelen trafik nedeniyle GitLab altyapısı geçici olarak felç oldu
- Bazı mobil kullanıcılar için bulmaca yüklenmesi 2 dakikadan uzun sürebildi
- Diaspora altyapısının bakımından sorumlu Dennis Schubert, AI crawler trafiğini "internetin tamamına yönelik bir DDoS" olarak tanımlıyor
- Read the Docs, AI crawler’larını engelledikten sonra trafiğin günde 800GB’den 200GB’ye düştüğünü ve aylık yaklaşık $1.500 tasarruf sağlandığını bildirdi
Açık kaynak projelere yığılan orantısız yük
- Açık kaynak, sınırlı kaynaklarla işletiliyor ve açık iş birliği temeline dayanıyor
- Birçok crawler
robots.txt dosyasını yok sayıyor, User-Agent bilgisini sahteleyip IP’leri sürekli değiştirerek erişiyor
- Inkscape’ten Martin Owens, tarayıcı bilgilerini taklit eden AI şirketleri yüzünden büyük engelleme listeleri tuttuğunu söylüyor
- Hacker News’te AI şirketlerinin sermaye gücü ve iş birliğine kapalı tavrı karşısında öfke büyüyor
- SourceHut’tan Drew DeVault, crawler’ların tüm git log sayfalarına ve commit’lere kadar girerek kaynakların aşırı tüketilmesine yol açtığını belirtiyor
- Curl projesi, AI tarafından üretilmiş sahte hata raporları aldığı vakaları bildirdi
AI crawler’larının amacı ve şirketlere göre davranış biçimleri
- AI crawler’larının amacı; eğitim verisi toplama ya da AI yanıtları için gerçek zamanlı arama yapma gibi farklı kullanım senaryolarını kapsıyor
- Diaspora analizine göre trafikte OpenAI %25, Amazon %15, Anthropic %4,3 paya sahip
- Crawler’lar aynı sayfaları düzenli aralıklarla tekrar crawl ediyor (ör. 6 saatte bir)
- OpenAI ve Anthropic görece normal User-Agent kullanırken, bazı Çinli AI şirketlerinde gizleme düzeyi daha yüksek
- Amazon ve Alibaba gibi şirketler de zarar örneklerinde geçiyor, ancak bu şirketlerden henüz resmi bir açıklama gelmiş değil
Karşı önlemler: Tarpit, bulmacalar ve iş birliği yolları
- "Nepenthes" adlı araç, AI crawler’larını sonsuz sahte içerik labirentine sürükleyen saldırgan bir savunma yöntemi sunuyor
- Geliştiricisi Aaron, bu aracın crawler maliyetlerini artırdığını ve eğitim verisini kirletmeyi hedeflediğini savunuyor
- Cloudflare, ticari güvenlik özelliği olarak 'AI Labyrinth'i duyurdu; bu sistem crawler’ları yönlendirerek anlamsız sayfaları gezmeye zorluyor
- Cloudflare ağına günde 50 milyardan fazla AI crawling isteği geliyor
- Açık kaynak projesi "ai.robots.txt", AI crawler listeleri ile engelleme için robots.txt / .htaccess dosyaları sağlıyor
Süren AI veri toplama yarışı ve açık web’in krizi
- Düzenleme olmadan devasa veri toplamayı sürdüren AI şirketleri, açık kaynak altyapısı için ciddi bir tehdit oluşturuyor
- AI’ın dayandığı dijital ekosistemi kendi eliyle yok ettiği yönünde eleştiriler yükseliyor
- İş birlikçi bir veri toplama modeli alternatif olabilir, ancak büyük AI şirketlerinin gönüllü iş birliği isteği zayıf görünüyor
- Anlamlı düzenlemeler ya da gönüllü sorumluluk bilinci oluşmazsa AI ile açık kaynak arasındaki çatışmanın daha da sertleşmesi muhtemel
1 yorum
Hacker News görüşü
Amaç, botların site ziyaretlerinden negatif fayda elde etmesini sağlamak. Bu, sadece engellemekten daha etkili
robots.txtile yasaklanmış sayfaları deniyorsa, onlara çamaşır suyu içmenin faydaları hakkında bir makale verŞirketlerin neden daha iş birliğine açık bir yaklaşım benimsemediği belirsiz. En azından veri toplama hızını sınırlayıp kaynak siteleri ezip geçmemeleri gerekir
Kaynaklara erişmek için mikro ödeme getirilmesi gerektiğini düşünüyorum. Sunucuya küçük bir ücret ödersin ve içerik döner. Crawler trafiğe hükmediyorsa, bunun bedelini de ödesin
sugaku.net'i giriş yapmadan kullanılabilecek şekilde açtım, botlar hemen üşüşmeye başladı. Siteyi herkese açık tutmak istiyorum ama dinamik özelliklerin çoğunu giriş yapmış kullanıcılarla sınırlamak zorunda kaldım.
robots.txtkısıtlamaları koydum ve AI crawler'larıyla kötü botları engellemek için Cloudflare kullandım, ama yine de günde yaklaşık 1 milyon otomatik istek alıyorum. Yakında siteyi yalnızca giriş yapmış kullanıcılara açmak zorunda kalacağım gibi görünüyorYakın zamanda "prod'da her şeyi kodla" yaklaşımıyla bir yan proje başlattım. Son 20 yılda bunu birkaç kez yaptım ama bu sefer farklı. Host adını hiçbir yerde duyurmamıştım, ama 24 saat geçmeden çok sayıda spam form gönderimi geldi. Biraz tanıtımdan sonra bunun olmasını bekliyordum, ancak sunucuyu ayağa kaldırır kaldırmaz botların etkileşime geçmesini beklemiyordum
Mesele, başkalarının Lynx veya curl kullanarak dosya kopyalamasını engellemek değil; hatalı yazılımlar yüzünden sunucunun aşırı yüklenmesini önlemek
ClaudeBot (Anthropic) tarafından DoS saldırısına uğradım. Ayda 700 bin kez siteye vuruyor ve barındırma sağlayıcısının bant genişliği sınırını aşıyordu. User-agent'ı engellemek ve limiti kaldırmaları için hosting sağlayıcısının desteğiyle uğraşmak epey zahmetliydi
JS ağırlıklı "anti-bot" önlemleri, tarayıcı tekellerini daha da güçlendiriyor. Bunun yerine, LLM'lerin hâlâ çözemediği ya da sürekli yanlış yaptığı sorular soran basit bir HTML formu öneriyorum. Soruların site içeriğiyle ilgili olması daha iyi. Bir elektronik forumunda kayıt formunda benzer "teknik test" soruları kullandık; bazıları LLM ile çözülebilir ama hâlâ sadece insanların çözebildiği bir CAPTCHA işlevi görüyor
Bir web sitesine aşırı spam yüklemek kötü davranış. Ancak AI crawler'larını engellerseniz sonunda zararlı çıkan siz olursunuz. Uzun vadede SEO'nun yerini neyin alacağını tahmin edin bakalım
Birden fazla içerik sitesi işletiyorum ve son birkaç gündür saldırgan AI botları yüzünden bazılarını kapatmak zorunda kaldım. En kötüsü galiba Alexa
robots.txtdosyasını yok sayan saldırgan botlar yüzünden sunucu çökmesi e-postalarıyla uğraşmak zorunda kalıyorum