1 puan yazan GN⁺ 2025-03-21 | 1 yorum | WhatsApp'ta paylaş
  • Drew DeVault (SourceHut kurucusu), AI crawler'larının robots.txt'yi yok sayarak SourceHut'ta ciddi kesintilere yol açtığı konusunda uyardı
  • KDE'nin GitLab altyapısı da Alibaba'nın IP aralığından gelen AI crawler saldırısı nedeniyle erişilemez hale geldi
  • AI crawler'larının sorunları
    • AI crawler'ları robots.txt gereksinimlerini yok sayıyor
      • git blame, git log içindeki tüm sayfaları ve commit'leri tarıyor
      • Rastgele User-Agent'lar ve on binlerce IP üzerinden istek gönderiyor → normal kullanıcı trafiği gibi gizleniyor
    • Crawler'ları engellemek zor → yüksek öncelikli işler haftalar ya da aylar gecikiyor
  • Sistem yöneticilerinin şikayetleri
    • AI crawler sorunu tekil bir vaka değil, yaygın bir sorun
      • Birçok sistem yöneticisi aynı sorunu yaşıyor
      • OpenAI ve Anthropic doğru User-Agent ayarlıyor, ancak Çinli yapay zeka şirketleri bunu yapmıyor
  • KDE GitLab'in yanıtı
    • MS Edge gibi davranan botlar engellendi → geçici çözüm
    • GNOME, giriş yapmamış kullanıcılar için merge request ve commit görüntüleme hız sınırı uyguladı
    • Anubis devreye alındı → tarayıcı bir bulmacayı çözdükten sonra erişime izin veriliyor
  • Anubis'in sorunları
    • Normal kullanıcıları da etkiliyor → bulmacayı çözmek için zaman gerekiyor
      • Sohbet odasında bir bağlantı paylaşıldığında aşırı yük oluşuyor → 1-2 dakikalık bekleme süresi ortaya çıkıyor
  • Trafiğin %97'si bot
    • GNOME'da 2 buçuk saat içinde 81.000 istek oluştu → %97'si AI crawler
    • Bazı projelerde AI crawler'ları engelledikten sonra trafik %75 azaldı
  • Diğer FOSS projelerindeki sorunlar
    • Fedora → crawler'ları engellemek için Brezilya'nın tamamındaki IP'ler engellendi
    • Inkscape → crawler'lar tarayıcı bilgisini sahteledi → geniş çaplı IP engellemeleri yapıldı
    • Frama Software → 460 bin IP'lik engelleme listesi oluşturdu
  • AI crawler'larına karşı geliştirilen proje
    • ai.robots.txt → AI crawler'larını engellemek için açık bir liste sunuyor
      • robots.txt ve .htaccess dosyaları yapılandırılıyor → AI crawler isteği geldiğinde hata sayfası döndürülüyor
  • Trafik analizi sonuçları
    • Diaspora örneğinde trafiğin %70'i AI crawler'lardan geliyor
      • OpenAI user agent'ı: %25
      • Amazon: %15
      • Anthropic: %4,3
    • Google ve Bing crawler'larının trafik payı %1'in altında
  • AI tarafından üretilen bug report sorunu
    • Curl projesinde AI üretimi bug report'lar sorun yaratıyor
      • Bildirilen bug'ların çoğu halüsinasyon (hallucination) kaynaklı
    • CPython, pip, urllib3, Requests → AI üretimi güvenlik raporları yüzünden zaman harcıyor
      • Güvenilirlik düşük → ama yine de doğrulamak gerekiyor → bakımcıların yükü artıyor

Sonuç

  • AI crawler'ları ve AI üretimi bug report'lar açık kaynak topluluğuna büyük yük bindiriyor
  • Açık kaynak projeleri ticari ürünlere göre daha az kaynağa sahip ve topluluk temelli oldukları için bu tür sorunlara daha açık

1 yorum

 
GN⁺ 2025-03-21
Hacker News görüşleri
  • Büyük ölçekli internet altyapısı işleten birçok kişi benzer deneyimler yaşıyor

    • AI crawler’larının kötüye kullanımıyla ilgili deneyimlerin paylaşıldığı ve bu sorunların tek yerde toplandığı bir yazı var
    • Bazı startup’lar sorunu çözüp maliyeti iade etti, ancak Facebook e-postalara yanıt vermiyor
  • Fastly, FOSS projelerine ücretsiz güvenlik hizmeti sağlıyor

    • Son dönemde AI scraping ile ilgili talepler artmış durumda
  • Kendi projesinin önizleme görselinde yer alması şaşırtıcı bulunmuş

    • Proje, gerçek ortamda nasıl çalıştığını görmek için xeiaso.net üzerinde dağıtılıyor
  • Yalnızca FOSS altyapısı değil, anonim internet erişiminin kendisi de tehdit altında

    • Yeni botlar CAPTCHA çözebiliyor ve gerçek kullanıcılar gibi davranabiliyor
    • Siteler kredi kartı ya da Worldcoin benzeri doğrulamalar istemeye başlayabilir
  • Yakın zamanda bir Forgejo instance’ı saldırıya uğradı

    • Disk, oluşturulan zip dosyalarıyla doldu ve Alibaba Cloud’un IP aralıkları engellenince saldırı azaldı
    • DISABLE_DOWNLOAD_SOURCE_ARCHIVES ayarının true olarak değiştirilmesi öneriliyor
  • Geçmişte arama motoru sorunlarını çözmek için robots.txt oluşturulmuştu, ancak günümüzde yeni indexer’lar bunu görmezden geliyor

    • Yasal yaptırımlar gerektiği savunuluyor
  • Google’ın ve reklamların web üzerindeki hakimiyeti zayıflayacak

    • CAPTCHA’lar nedeniyle arama motorları siteleri indexleyemeyecek ve bu da arama motorlarının değerini düşürecek
  • LLaMa kullanılarak birbiriyle çelişen gönderiler üretilip bilgi kirliliği yaratılıyor

  • VideoLAN da AI şirketlerinin botları nedeniyle forumlarının ve GitLab’ının saldırıya uğradığını söylüyor

    • Botların çoğu robots.txt’yi görmezden geliyor
  • Arama motorları tarafından indexlenmeyen bir web ortaya çıkabilir

    • LLM scraping’e çözüm olarak proof-of-work zorunluluğu öneriliyor