- Triplegangers, 7 çalışanın işlettiği küçük bir şirket ve "insan dijital ikizi" veritabanı satıyor
- 3D görsel dosyaları ve fotoğrafları 3D sanatçılara, video oyunu yapımcılarına ve benzerlerine sağlıyor
- Sorun: OpenAI'nin botu 600'den fazla IP kullanarak web sitesini aşırı biçimde taradı ve sunucunun çökmesine neden oldu
- 65.000'den fazla ürün sayfasını ve yüz binlerce fotoğrafı toplamaya çalıştı
- "DDoS saldırısına benzer" bu istek selinin AWS maliyetlerini artırması bekleniyor
- OpenAI'nin GPTBot'u, robots.txt dosyasında uygun ayarlar yoksa verileri serbestçe tarıyor
- Site ayrıca engellemedikçe bot etkinliğine varsayılan olarak izin veriliyor
- robots.txt: arama motorlarının hangi verileri taramaması gerektiğini tanımlayan dosya
- Triplegangers, web sitesinin robots.txt dosyasını doğru yapılandırmadığı için OpenAI'nin botu verileri kazıyabildi
- Ek sorunlar:
- OpenAI'nin taramayı engelleme taleplerini tanıması 24 saate kadar sürebiliyor
- Diğer yapay zeka şirketleri de verileri benzer şekilde tarıyor
Triplegangers'ın yanıtı
- Alınan önlemler:
- Doğru yapılandırılmış bir robots.txt dosyası oluşturdu
- Cloudflare hesap ayarlarıyla GPTBot'u ve diğer yapay zeka tarayıcılarını engelledi
- Sonuç:
- Site yeniden istikrara kavuştu
- Ancak OpenAI'nin hangi verileri aldığı bilinmiyor ve verilerin silinmesini istemenin de bir yolu yok
- OpenAI'nin tamamlanmamış opt-out aracı, şirketlerin taramayı engellemesini daha da zorlaştırıyor
Tarama sorununun neden özellikle ciddi olduğu
- Yapay zeka tarayıcıları web sitelerindeki verileri izinsiz alıyor ve bu, özellikle Triplegangers gibi şirketler için büyük sorun yaratıyor
- Verinin hassasiyeti:
- Triplegangers, gerçek insanların taranmasıyla oluşturulmuş bir veritabanına sahip
- GDPR gibi veri gizliliği yasaları uyarınca verilerin izinsiz kullanımı yasak
- Verinin çekiciliği:
- Veriler etiketlenmiş olduğu için yapay zeka eğitimi açısından faydalı
- Örneğin etnik köken, yaş, fiziksel özellikler gibi bilgiler ayrıntılı biçimde işaretlenmiş
Diğer küçük işletmeler için dersler
- Yapay zeka botlarını tespit etme:
- Yapay zeka botlarının tarama yapıp yapmadığını anlamak için logların izlenmesi şart
- Çoğu web sitesi tarandığının farkında bile değil
- Büyüyen tarama sorunu:
- 2024'te genel olarak geçersiz trafik (Invalid Traffic) %86 arttı
- Bunun başlıca nedeni yapay zeka tarayıcıları ve scraper'lar
Sonuç
- Yapay zeka botlarının tarama sorunu küçük işletmeler üzerinde ciddi etki yaratıyor
- Yapay zeka şirketleri, verileri almadan önce izin istemeli
- Küçük şirketler robots.txt ve güvenlik duvarlarını aktif biçimde kullanmalı, ayrıca sürekli izleme yapmalı
4 yorum
Bir siteye erişen 600 IP gerçekten gerçekse, deli gibi kazıyorlarmış diye düşünürüm ama
robots.txtkullanılmamış olması biraz "hı?" dedirtiyor.Verinin önemli olduğu bir şirket gibi görünüyor ve site de aktif gibi; en temel şey olan
robots.txtayarından başlamalıydılar...Yapay zeka şirketleri web trafiğinin çoğunu oluşturuyor
Bence Cloudflare gerçekten de gerekli bir kötülük gibi. Üstelik performansı çok yüksek olan tek bir saldırı noktası.
Hacker News görüşleri
Yapay zeka şirketlerinin forumlarda büyük miktarda trafik yarattığı belirtiliyor
Bir web geliştiricisi olarak yapay zeka şirketlerinin verimsiz scraper'larından rahatsızlık duyuluyor
Haberde
robots.txtifadesinin yanlış yazıldığına dikkat çekiliyorWeb tarihinin kendini tekrarladığı görüşü dile getiriliyor
Kişisel web crawler'larına ilgi duyulmuş olsa da, bugün Google merkezli adaletsiz ekonomiden hayal kırıklığı yaşanıyor
Yakın zamanda Amazon'da kitap yayımlayan kişilerin yapay zeka tarafından üretilen sahte kopyalarla rekabet ettiği belirtiliyor
Sitenin
robots.txtdosyasını düzgün kullanmaması halinde yapay zekanın serbestçe scrape edebileceği uyarısı yapılıyorrobots.txtdosyasının kontrol edilmesi tavsiye ediliyorSite, botların hızını sınırlamak için HTTP 429 hata kodunu kullanabilir