FOSS altyapısı yapay zeka şirketlerinin saldırısı altında

(thelibre.news)

1 puan yazan GN⁺ 2025-03-21 | 1 yorum | WhatsApp'ta paylaş

Drew DeVault (SourceHut kurucusu), AI crawler'larının robots.txt'yi yok sayarak SourceHut'ta ciddi kesintilere yol açtığı konusunda uyardı
KDE'nin GitLab altyapısı da Alibaba'nın IP aralığından gelen AI crawler saldırısı nedeniyle erişilemez hale geldi
AI crawler'larının sorunları
- AI crawler'ları robots.txt gereksinimlerini yok sayıyor
  - git blame, git log içindeki tüm sayfaları ve commit'leri tarıyor
  - Rastgele User-Agent'lar ve on binlerce IP üzerinden istek gönderiyor → normal kullanıcı trafiği gibi gizleniyor
- Crawler'ları engellemek zor → yüksek öncelikli işler haftalar ya da aylar gecikiyor
Sistem yöneticilerinin şikayetleri
- AI crawler sorunu tekil bir vaka değil, yaygın bir sorun
  - Birçok sistem yöneticisi aynı sorunu yaşıyor
  - OpenAI ve Anthropic doğru User-Agent ayarlıyor, ancak Çinli yapay zeka şirketleri bunu yapmıyor
KDE GitLab'in yanıtı
- MS Edge gibi davranan botlar engellendi → geçici çözüm
- GNOME, giriş yapmamış kullanıcılar için merge request ve commit görüntüleme hız sınırı uyguladı
- Anubis devreye alındı → tarayıcı bir bulmacayı çözdükten sonra erişime izin veriliyor
Anubis'in sorunları
- Normal kullanıcıları da etkiliyor → bulmacayı çözmek için zaman gerekiyor
  - Sohbet odasında bir bağlantı paylaşıldığında aşırı yük oluşuyor → 1-2 dakikalık bekleme süresi ortaya çıkıyor
Trafiğin %97'si bot
- GNOME'da 2 buçuk saat içinde 81.000 istek oluştu → %97'si AI crawler
- Bazı projelerde AI crawler'ları engelledikten sonra trafik %75 azaldı
Diğer FOSS projelerindeki sorunlar
- Fedora → crawler'ları engellemek için Brezilya'nın tamamındaki IP'ler engellendi
- Inkscape → crawler'lar tarayıcı bilgisini sahteledi → geniş çaplı IP engellemeleri yapıldı
- Frama Software → 460 bin IP'lik engelleme listesi oluşturdu
AI crawler'larına karşı geliştirilen proje
- ai.robots.txt → AI crawler'larını engellemek için açık bir liste sunuyor
  - robots.txt ve .htaccess dosyaları yapılandırılıyor → AI crawler isteği geldiğinde hata sayfası döndürülüyor
Trafik analizi sonuçları
- Diaspora örneğinde trafiğin %70'i AI crawler'lardan geliyor
  - OpenAI user agent'ı: %25
  - Amazon: %15
  - Anthropic: %4,3
- Google ve Bing crawler'larının trafik payı %1'in altında
AI tarafından üretilen bug report sorunu
- Curl projesinde AI üretimi bug report'lar sorun yaratıyor
  - Bildirilen bug'ların çoğu halüsinasyon (hallucination) kaynaklı
- CPython, pip, urllib3, Requests → AI üretimi güvenlik raporları yüzünden zaman harcıyor
  - Güvenilirlik düşük → ama yine de doğrulamak gerekiyor → bakımcıların yükü artıyor

Sonuç

AI crawler'ları ve AI üretimi bug report'lar açık kaynak topluluğuna büyük yük bindiriyor
Açık kaynak projeleri ticari ürünlere göre daha az kaynağa sahip ve topluluk temelli oldukları için bu tür sorunlara daha açık

1 yorum

GN⁺ 2025-03-21

Hacker News görüşleri

Büyük ölçekli internet altyapısı işleten birçok kişi benzer deneyimler yaşıyor
- AI crawler’larının kötüye kullanımıyla ilgili deneyimlerin paylaşıldığı ve bu sorunların tek yerde toplandığı bir yazı var
- Bazı startup’lar sorunu çözüp maliyeti iade etti, ancak Facebook e-postalara yanıt vermiyor
Fastly, FOSS projelerine ücretsiz güvenlik hizmeti sağlıyor
- Son dönemde AI scraping ile ilgili talepler artmış durumda
Kendi projesinin önizleme görselinde yer alması şaşırtıcı bulunmuş
- Proje, gerçek ortamda nasıl çalıştığını görmek için xeiaso.net üzerinde dağıtılıyor
Yalnızca FOSS altyapısı değil, anonim internet erişiminin kendisi de tehdit altında
- Yeni botlar CAPTCHA çözebiliyor ve gerçek kullanıcılar gibi davranabiliyor
- Siteler kredi kartı ya da Worldcoin benzeri doğrulamalar istemeye başlayabilir
Yakın zamanda bir Forgejo instance’ı saldırıya uğradı
- Disk, oluşturulan zip dosyalarıyla doldu ve Alibaba Cloud’un IP aralıkları engellenince saldırı azaldı
- DISABLE_DOWNLOAD_SOURCE_ARCHIVES ayarının true olarak değiştirilmesi öneriliyor
Geçmişte arama motoru sorunlarını çözmek için robots.txt oluşturulmuştu, ancak günümüzde yeni indexer’lar bunu görmezden geliyor
- Yasal yaptırımlar gerektiği savunuluyor
Google’ın ve reklamların web üzerindeki hakimiyeti zayıflayacak
- CAPTCHA’lar nedeniyle arama motorları siteleri indexleyemeyecek ve bu da arama motorlarının değerini düşürecek
LLaMa kullanılarak birbiriyle çelişen gönderiler üretilip bilgi kirliliği yaratılıyor
VideoLAN da AI şirketlerinin botları nedeniyle forumlarının ve GitLab’ının saldırıya uğradığını söylüyor
- Botların çoğu robots.txt’yi görmezden geliyor
Arama motorları tarafından indexlenmeyen bir web ortaya çıkabilir
- LLM scraping’e çözüm olarak proof-of-work zorunluluğu öneriliyor

FOSS altyapısı yapay zeka şirketlerinin saldırısı altında

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri