- Drew DeVault (SourceHut kurucusu), AI crawler'larının robots.txt'yi yok sayarak SourceHut'ta ciddi kesintilere yol açtığı konusunda uyardı
- KDE'nin GitLab altyapısı da Alibaba'nın IP aralığından gelen AI crawler saldırısı nedeniyle erişilemez hale geldi
- AI crawler'larının sorunları
- AI crawler'ları robots.txt gereksinimlerini yok sayıyor
- git blame, git log içindeki tüm sayfaları ve commit'leri tarıyor
- Rastgele User-Agent'lar ve on binlerce IP üzerinden istek gönderiyor → normal kullanıcı trafiği gibi gizleniyor
- Crawler'ları engellemek zor → yüksek öncelikli işler haftalar ya da aylar gecikiyor
- Sistem yöneticilerinin şikayetleri
- AI crawler sorunu tekil bir vaka değil, yaygın bir sorun
- Birçok sistem yöneticisi aynı sorunu yaşıyor
- OpenAI ve Anthropic doğru User-Agent ayarlıyor, ancak Çinli yapay zeka şirketleri bunu yapmıyor
- KDE GitLab'in yanıtı
- MS Edge gibi davranan botlar engellendi → geçici çözüm
- GNOME, giriş yapmamış kullanıcılar için merge request ve commit görüntüleme hız sınırı uyguladı
- Anubis devreye alındı → tarayıcı bir bulmacayı çözdükten sonra erişime izin veriliyor
- Anubis'in sorunları
- Normal kullanıcıları da etkiliyor → bulmacayı çözmek için zaman gerekiyor
- Sohbet odasında bir bağlantı paylaşıldığında aşırı yük oluşuyor → 1-2 dakikalık bekleme süresi ortaya çıkıyor
- Trafiğin %97'si bot
- GNOME'da 2 buçuk saat içinde 81.000 istek oluştu → %97'si AI crawler
- Bazı projelerde AI crawler'ları engelledikten sonra trafik %75 azaldı
- Diğer FOSS projelerindeki sorunlar
- Fedora → crawler'ları engellemek için Brezilya'nın tamamındaki IP'ler engellendi
- Inkscape → crawler'lar tarayıcı bilgisini sahteledi → geniş çaplı IP engellemeleri yapıldı
- Frama Software → 460 bin IP'lik engelleme listesi oluşturdu
- AI crawler'larına karşı geliştirilen proje
- ai.robots.txt → AI crawler'larını engellemek için açık bir liste sunuyor
- robots.txt ve .htaccess dosyaları yapılandırılıyor → AI crawler isteği geldiğinde hata sayfası döndürülüyor
- Trafik analizi sonuçları
- Diaspora örneğinde trafiğin %70'i AI crawler'lardan geliyor
- OpenAI user agent'ı: %25
- Amazon: %15
- Anthropic: %4,3
- Google ve Bing crawler'larının trafik payı %1'in altında
- AI tarafından üretilen bug report sorunu
- Curl projesinde AI üretimi bug report'lar sorun yaratıyor
- Bildirilen bug'ların çoğu halüsinasyon (hallucination) kaynaklı
- CPython, pip, urllib3, Requests → AI üretimi güvenlik raporları yüzünden zaman harcıyor
- Güvenilirlik düşük → ama yine de doğrulamak gerekiyor → bakımcıların yükü artıyor
Sonuç
- AI crawler'ları ve AI üretimi bug report'lar açık kaynak topluluğuna büyük yük bindiriyor
- Açık kaynak projeleri ticari ürünlere göre daha az kaynağa sahip ve topluluk temelli oldukları için bu tür sorunlara daha açık
1 yorum
Hacker News görüşleri
Büyük ölçekli internet altyapısı işleten birçok kişi benzer deneyimler yaşıyor
Fastly, FOSS projelerine ücretsiz güvenlik hizmeti sağlıyor
Kendi projesinin önizleme görselinde yer alması şaşırtıcı bulunmuş
Yalnızca FOSS altyapısı değil, anonim internet erişiminin kendisi de tehdit altında
Yakın zamanda bir Forgejo instance’ı saldırıya uğradı
DISABLE_DOWNLOAD_SOURCE_ARCHIVESayarınıntrueolarak değiştirilmesi öneriliyorGeçmişte arama motoru sorunlarını çözmek için robots.txt oluşturulmuştu, ancak günümüzde yeni indexer’lar bunu görmezden geliyor
Google’ın ve reklamların web üzerindeki hakimiyeti zayıflayacak
LLaMa kullanılarak birbiriyle çelişen gönderiler üretilip bilgi kirliliği yaratılıyor
VideoLAN da AI şirketlerinin botları nedeniyle forumlarının ve GitLab’ının saldırıya uğradığını söylüyor
Arama motorları tarafından indexlenmeyen bir web ortaya çıkabilir