Açık kaynak geliştiricileri, AI crawler’ları trafiği patlatınca tüm ülkeleri engelliyor

(arstechnica.com)

9 puan yazan GN⁺ 2025-03-26 | 1 yorum | WhatsApp'ta paylaş

AI crawler’ları açık kaynak proje sitelerinde aşırı trafik oluşturarak fiilen hizmet kesintisi düzeyinde zarara yol açıyor
AI crawler’ları robots.txt dosyasını yok sayma, User-Agent sahteciliği ve bulunduğu ülkenin IP’sini dolanma gibi yöntemlerle mevcut savunma mekanizmalarını aşıyor
Geliştirici Xe Iaso, bunu engellemek için sunucuyu bir VPN’in arkasına taşıdı ve kullanıcıların erişmeden önce bir bulmaca çözmesini gerektiren, kanıta dayalı 'Anubis' adlı bir sistem uyguladı
LibreNews’e göre bazı projelerde toplam trafiğin %97’si AI crawler’larından geliyor
Fedora, GNOME, KDE gibi tanınmış projeler de ülke engelleme, Anubis uygulama ve geçici kapatma gibi yöntemlerle karşılık veriyor

Gerçek zarar örnekleri ve AI crawler’larının kontrolsüz erişimi

GNOME’un GitLab’inde 84.056 isteğin yalnızca %3,2’si Anubis’i geçti → büyük bölümünün anormal crawl trafiği olduğu tahmin ediliyor
KDE’de Alibaba IP’lerinden gelen trafik nedeniyle GitLab altyapısı geçici olarak felç oldu
Bazı mobil kullanıcılar için bulmaca yüklenmesi 2 dakikadan uzun sürebildi
Diaspora altyapısının bakımından sorumlu Dennis Schubert, AI crawler trafiğini "internetin tamamına yönelik bir DDoS" olarak tanımlıyor
Read the Docs, AI crawler’larını engelledikten sonra trafiğin günde 800GB’den 200GB’ye düştüğünü ve aylık yaklaşık $1.500 tasarruf sağlandığını bildirdi

Açık kaynak projelere yığılan orantısız yük

Açık kaynak, sınırlı kaynaklarla işletiliyor ve açık iş birliği temeline dayanıyor
Birçok crawler robots.txt dosyasını yok sayıyor, User-Agent bilgisini sahteleyip IP’leri sürekli değiştirerek erişiyor
Inkscape’ten Martin Owens, tarayıcı bilgilerini taklit eden AI şirketleri yüzünden büyük engelleme listeleri tuttuğunu söylüyor
Hacker News’te AI şirketlerinin sermaye gücü ve iş birliğine kapalı tavrı karşısında öfke büyüyor
SourceHut’tan Drew DeVault, crawler’ların tüm git log sayfalarına ve commit’lere kadar girerek kaynakların aşırı tüketilmesine yol açtığını belirtiyor
Curl projesi, AI tarafından üretilmiş sahte hata raporları aldığı vakaları bildirdi

AI crawler’larının amacı ve şirketlere göre davranış biçimleri

AI crawler’larının amacı; eğitim verisi toplama ya da AI yanıtları için gerçek zamanlı arama yapma gibi farklı kullanım senaryolarını kapsıyor
Diaspora analizine göre trafikte OpenAI %25, Amazon %15, Anthropic %4,3 paya sahip
Crawler’lar aynı sayfaları düzenli aralıklarla tekrar crawl ediyor (ör. 6 saatte bir)
OpenAI ve Anthropic görece normal User-Agent kullanırken, bazı Çinli AI şirketlerinde gizleme düzeyi daha yüksek
Amazon ve Alibaba gibi şirketler de zarar örneklerinde geçiyor, ancak bu şirketlerden henüz resmi bir açıklama gelmiş değil

Karşı önlemler: Tarpit, bulmacalar ve iş birliği yolları

"Nepenthes" adlı araç, AI crawler’larını sonsuz sahte içerik labirentine sürükleyen saldırgan bir savunma yöntemi sunuyor
Geliştiricisi Aaron, bu aracın crawler maliyetlerini artırdığını ve eğitim verisini kirletmeyi hedeflediğini savunuyor
Cloudflare, ticari güvenlik özelliği olarak 'AI Labyrinth'i duyurdu; bu sistem crawler’ları yönlendirerek anlamsız sayfaları gezmeye zorluyor
Cloudflare ağına günde 50 milyardan fazla AI crawling isteği geliyor
Açık kaynak projesi "ai.robots.txt", AI crawler listeleri ile engelleme için robots.txt / .htaccess dosyaları sağlıyor

Süren AI veri toplama yarışı ve açık web’in krizi

Düzenleme olmadan devasa veri toplamayı sürdüren AI şirketleri, açık kaynak altyapısı için ciddi bir tehdit oluşturuyor
AI’ın dayandığı dijital ekosistemi kendi eliyle yok ettiği yönünde eleştiriler yükseliyor
İş birlikçi bir veri toplama modeli alternatif olabilir, ancak büyük AI şirketlerinin gönüllü iş birliği isteği zayıf görünüyor
Anlamlı düzenlemeler ya da gönüllü sorumluluk bilinci oluşmazsa AI ile açık kaynak arasındaki çatışmanın daha da sertleşmesi muhtemel

1 yorum

GN⁺ 2025-03-26

Hacker News görüşü

Amaç, botların site ziyaretlerinden negatif fayda elde etmesini sağlamak. Bu, sadece engellemekten daha etkili
- robots.txt ile yasaklanmış sayfaları deniyorsa, onlara çamaşır suyu içmenin faydaları hakkında bir makale ver
- Şüpheli bir user-agent ise, kararsız kodları kazısın gitsin
- İnsan dışı bir istek hızındaysa, kızamığın yatak performansı üzerinde olumlu etkisi olduğunu iddia eden üretilmiş bir makale sun
- Nepenthes iyi, ancak kelime salatası kolay tespit ediliyor. Dil açısından makul ama olgusal olarak çöp olan metin üretebilen bir şeye ihtiyaç var
Şirketlerin neden daha iş birliğine açık bir yaklaşım benimsemediği belirsiz. En azından veri toplama hızını sınırlayıp kaynak siteleri ezip geçmemeleri gerekir
Kaynaklara erişmek için mikro ödeme getirilmesi gerektiğini düşünüyorum. Sunucuya küçük bir ücret ödersin ve içerik döner. Crawler trafiğe hükmediyorsa, bunun bedelini de ödesin
sugaku.net'i giriş yapmadan kullanılabilecek şekilde açtım, botlar hemen üşüşmeye başladı. Siteyi herkese açık tutmak istiyorum ama dinamik özelliklerin çoğunu giriş yapmış kullanıcılarla sınırlamak zorunda kaldım. robots.txt kısıtlamaları koydum ve AI crawler'larıyla kötü botları engellemek için Cloudflare kullandım, ama yine de günde yaklaşık 1 milyon otomatik istek alıyorum. Yakında siteyi yalnızca giriş yapmış kullanıcılara açmak zorunda kalacağım gibi görünüyor
Yakın zamanda "prod'da her şeyi kodla" yaklaşımıyla bir yan proje başlattım. Son 20 yılda bunu birkaç kez yaptım ama bu sefer farklı. Host adını hiçbir yerde duyurmamıştım, ama 24 saat geçmeden çok sayıda spam form gönderimi geldi. Biraz tanıtımdan sonra bunun olmasını bekliyordum, ancak sunucuyu ayağa kaldırır kaldırmaz botların etkileşime geçmesini beklemiyordum
Mesele, başkalarının Lynx veya curl kullanarak dosya kopyalamasını engellemek değil; hatalı yazılımlar yüzünden sunucunun aşırı yüklenmesini önlemek
- HTTP sunucusunda bir süre port knocking kurmuştum ama kernel panic yüzünden kaldırdım. Sorunu sonra çözersem yeniden açabilirim
- LLM scraper'ları şu anda "akıllı" davranmıyor. Gelecekte öyle olurlarsa, bu durumu kendi lehimize kullanabiliriz
- Scraper'ları şaşırtmanın yolları olmalı. Örneğin, beyan edilen user-agent'ın yapmadığı bir eylem bildirildiğinde hata mesajı gösterilebilir. Lynx kullanan kullanıcılar etkilenmez ve erişmeye devam eder
ClaudeBot (Anthropic) tarafından DoS saldırısına uğradım. Ayda 700 bin kez siteye vuruyor ve barındırma sağlayıcısının bant genişliği sınırını aşıyordu. User-agent'ı engellemek ve limiti kaldırmaları için hosting sağlayıcısının desteğiyle uğraşmak epey zahmetliydi
- ChatGPT botu bu sitedeki en yüksek ikinci trafiği oluşturuyordu ama sorun çıkaracak düzeyde değildi
JS ağırlıklı "anti-bot" önlemleri, tarayıcı tekellerini daha da güçlendiriyor. Bunun yerine, LLM'lerin hâlâ çözemediği ya da sürekli yanlış yaptığı sorular soran basit bir HTML formu öneriyorum. Soruların site içeriğiyle ilgili olması daha iyi. Bir elektronik forumunda kayıt formunda benzer "teknik test" soruları kullandık; bazıları LLM ile çözülebilir ama hâlâ sadece insanların çözebildiği bir CAPTCHA işlevi görüyor
Bir web sitesine aşırı spam yüklemek kötü davranış. Ancak AI crawler'larını engellerseniz sonunda zararlı çıkan siz olursunuz. Uzun vadede SEO'nun yerini neyin alacağını tahmin edin bakalım
Birden fazla içerik sitesi işletiyorum ve son birkaç gündür saldırgan AI botları yüzünden bazılarını kapatmak zorunda kaldım. En kötüsü galiba Alexa
- 20 yıl önce yapılmıştı ve zaman içinde güncellendi. Trafik alıyordu ama son 1 yılda 1.000'in altında meşru ziyaretçiye düştü. Şimdi ise robots.txt dosyasını yok sayan saldırgan botlar yüzünden sunucu çökmesi e-postalarıyla uğraşmak zorunda kalıyorum

Açık kaynak geliştiricileri, AI crawler’ları trafiği patlatınca tüm ülkeleri engelliyor

Gerçek zarar örnekleri ve AI crawler’larının kontrolsüz erişimi

Açık kaynak projelere yığılan orantısız yük

AI crawler’larının amacı ve şirketlere göre davranış biçimleri

Karşı önlemler: Tarpit, bulmacalar ve iş birliği yolları

Süren AI veri toplama yarışı ve açık web’in krizi

İlgili okumalar

1 yorum

Hacker News görüşü