6 puan yazan GN⁺ 2025-01-14 | 4 yorum | WhatsApp'ta paylaş
  • Triplegangers, 7 çalışanın işlettiği küçük bir şirket ve "insan dijital ikizi" veritabanı satıyor
    • 3D görsel dosyaları ve fotoğrafları 3D sanatçılara, video oyunu yapımcılarına ve benzerlerine sağlıyor
  • Sorun: OpenAI'nin botu 600'den fazla IP kullanarak web sitesini aşırı biçimde taradı ve sunucunun çökmesine neden oldu
    • 65.000'den fazla ürün sayfasını ve yüz binlerce fotoğrafı toplamaya çalıştı
    • "DDoS saldırısına benzer" bu istek selinin AWS maliyetlerini artırması bekleniyor
  • OpenAI'nin GPTBot'u, robots.txt dosyasında uygun ayarlar yoksa verileri serbestçe tarıyor
    • Site ayrıca engellemedikçe bot etkinliğine varsayılan olarak izin veriliyor
    • robots.txt: arama motorlarının hangi verileri taramaması gerektiğini tanımlayan dosya
    • Triplegangers, web sitesinin robots.txt dosyasını doğru yapılandırmadığı için OpenAI'nin botu verileri kazıyabildi
  • Ek sorunlar:
    • OpenAI'nin taramayı engelleme taleplerini tanıması 24 saate kadar sürebiliyor
    • Diğer yapay zeka şirketleri de verileri benzer şekilde tarıyor

Triplegangers'ın yanıtı

  • Alınan önlemler:
    • Doğru yapılandırılmış bir robots.txt dosyası oluşturdu
    • Cloudflare hesap ayarlarıyla GPTBot'u ve diğer yapay zeka tarayıcılarını engelledi
  • Sonuç:
    • Site yeniden istikrara kavuştu
    • Ancak OpenAI'nin hangi verileri aldığı bilinmiyor ve verilerin silinmesini istemenin de bir yolu yok
    • OpenAI'nin tamamlanmamış opt-out aracı, şirketlerin taramayı engellemesini daha da zorlaştırıyor

Tarama sorununun neden özellikle ciddi olduğu

  • Yapay zeka tarayıcıları web sitelerindeki verileri izinsiz alıyor ve bu, özellikle Triplegangers gibi şirketler için büyük sorun yaratıyor
  • Verinin hassasiyeti:
    • Triplegangers, gerçek insanların taranmasıyla oluşturulmuş bir veritabanına sahip
    • GDPR gibi veri gizliliği yasaları uyarınca verilerin izinsiz kullanımı yasak
  • Verinin çekiciliği:
    • Veriler etiketlenmiş olduğu için yapay zeka eğitimi açısından faydalı
    • Örneğin etnik köken, yaş, fiziksel özellikler gibi bilgiler ayrıntılı biçimde işaretlenmiş

Diğer küçük işletmeler için dersler

  • Yapay zeka botlarını tespit etme:
    • Yapay zeka botlarının tarama yapıp yapmadığını anlamak için logların izlenmesi şart
    • Çoğu web sitesi tarandığının farkında bile değil
  • Büyüyen tarama sorunu:
    • 2024'te genel olarak geçersiz trafik (Invalid Traffic) %86 arttı
    • Bunun başlıca nedeni yapay zeka tarayıcıları ve scraper'lar

Sonuç

  • Yapay zeka botlarının tarama sorunu küçük işletmeler üzerinde ciddi etki yaratıyor
  • Yapay zeka şirketleri, verileri almadan önce izin istemeli
  • Küçük şirketler robots.txt ve güvenlik duvarlarını aktif biçimde kullanmalı, ayrıca sürekli izleme yapmalı

4 yorum

 
crawler 2025-01-14

Bir siteye erişen 600 IP gerçekten gerçekse, deli gibi kazıyorlarmış diye düşünürüm ama robots.txt kullanılmamış olması biraz "hı?" dedirtiyor.
Verinin önemli olduğu bir şirket gibi görünüyor ve site de aktif gibi; en temel şey olan robots.txt ayarından başlamalıydılar...

 
unsure4000 2025-01-14

Bence Cloudflare gerçekten de gerekli bir kötülük gibi. Üstelik performansı çok yüksek olan tek bir saldırı noktası.

 
GN⁺ 2025-01-14
Hacker News görüşleri
  • Yapay zeka şirketlerinin forumlarda büyük miktarda trafik yarattığı belirtiliyor

    • Read the Docs'ta yapay zeka botlarının 10 TB'tan fazla trafik oluşturduğu bir örnek olduğu söyleniyor
    • OpenAI'nin verileri scrape etmek için 600 IP kullandığı iddia ediliyor
    • Yalnızca Cloudflare'ın reverse proxy IP'leri kaydedildiği için gerçek istemci IP'leri bilinmiyor
    • Loglarda zaman damgası olmadığı ve istek hızından bahsedilmediği için buna DDoS saldırısı denmesinin adil olmadığı görüşü var
  • Bir web geliştiricisi olarak yapay zeka şirketlerinin verimsiz scraper'larından rahatsızlık duyuluyor

    • Siteye aşırı yük bindirmeme yönündeki temel kurala uyulması tavsiye ediliyor
    • Yapay zeka şirketlerinin scraper'larının verimsiz ve sinir bozucu olduğu düşünülüyor
  • Haberde robots.txt ifadesinin yanlış yazıldığına dikkat çekiliyor

    • Zaman damgası olmayan log dosyalarının kanıt olarak kullanılmasının şüpheli olduğu belirtiliyor
    • OpenAI'nin tamamen masum olmadığı, ancak haberin kalitesinin de düşük olduğu değerlendiriliyor
  • Web tarihinin kendini tekrarladığı görüşü dile getiriliyor

    • Geçmişte API'ler üzerinden bilgi alınabildiği, ancak bugün bunların çoğunun engellendiği söyleniyor
    • Yapay zekanın bu tür otomatik etkileşimleri yeniden mümkün kılabileceği umuluyor
  • Kişisel web crawler'larına ilgi duyulmuş olsa da, bugün Google merkezli adaletsiz ekonomiden hayal kırıklığı yaşanıyor

    • LLM'lerin çok faydalı olabileceği, ancak yaratıcılığı çaldığı korkusunun kapıları kapatacağı endişesi dile getiriliyor
  • Yakın zamanda Amazon'da kitap yayımlayan kişilerin yapay zeka tarafından üretilen sahte kopyalarla rekabet ettiği belirtiliyor

    • BBC'de bununla ilgili deneyimlerin röportaj konusu olduğu bir örnek veriliyor
  • Sitenin robots.txt dosyasını düzgün kullanmaması halinde yapay zekanın serbestçe scrape edebileceği uyarısı yapılıyor

    • robots.txt dosyasının kontrol edilmesi tavsiye ediliyor
  • Site, botların hızını sınırlamak için HTTP 429 hata kodunu kullanabilir

    • Botlar bir alt ağdan geliyorsa, bunun tek tek IP'lere değil alt ağa uygulanması öneriliyor