OpenAI'nin botu küçük bir şirketin web sitesini 'DDoS saldırısı' gibi felç etti

(techcrunch.com)

6 puan yazan GN⁺ 2025-01-14 | 4 yorum | WhatsApp'ta paylaş

Triplegangers, 7 çalışanın işlettiği küçük bir şirket ve "insan dijital ikizi" veritabanı satıyor
- 3D görsel dosyaları ve fotoğrafları 3D sanatçılara, video oyunu yapımcılarına ve benzerlerine sağlıyor
Sorun: OpenAI'nin botu 600'den fazla IP kullanarak web sitesini aşırı biçimde taradı ve sunucunun çökmesine neden oldu
- 65.000'den fazla ürün sayfasını ve yüz binlerce fotoğrafı toplamaya çalıştı
- "DDoS saldırısına benzer" bu istek selinin AWS maliyetlerini artırması bekleniyor
OpenAI'nin GPTBot'u, robots.txt dosyasında uygun ayarlar yoksa verileri serbestçe tarıyor
- Site ayrıca engellemedikçe bot etkinliğine varsayılan olarak izin veriliyor
- robots.txt: arama motorlarının hangi verileri taramaması gerektiğini tanımlayan dosya
- Triplegangers, web sitesinin robots.txt dosyasını doğru yapılandırmadığı için OpenAI'nin botu verileri kazıyabildi
Ek sorunlar:
- OpenAI'nin taramayı engelleme taleplerini tanıması 24 saate kadar sürebiliyor
- Diğer yapay zeka şirketleri de verileri benzer şekilde tarıyor

Triplegangers'ın yanıtı

Alınan önlemler:
- Doğru yapılandırılmış bir robots.txt dosyası oluşturdu
- Cloudflare hesap ayarlarıyla GPTBot'u ve diğer yapay zeka tarayıcılarını engelledi
Sonuç:
- Site yeniden istikrara kavuştu
- Ancak OpenAI'nin hangi verileri aldığı bilinmiyor ve verilerin silinmesini istemenin de bir yolu yok
- OpenAI'nin tamamlanmamış opt-out aracı, şirketlerin taramayı engellemesini daha da zorlaştırıyor

Tarama sorununun neden özellikle ciddi olduğu

Yapay zeka tarayıcıları web sitelerindeki verileri izinsiz alıyor ve bu, özellikle Triplegangers gibi şirketler için büyük sorun yaratıyor
Verinin hassasiyeti:
- Triplegangers, gerçek insanların taranmasıyla oluşturulmuş bir veritabanına sahip
- GDPR gibi veri gizliliği yasaları uyarınca verilerin izinsiz kullanımı yasak
Verinin çekiciliği:
- Veriler etiketlenmiş olduğu için yapay zeka eğitimi açısından faydalı
- Örneğin etnik köken, yaş, fiziksel özellikler gibi bilgiler ayrıntılı biçimde işaretlenmiş

Diğer küçük işletmeler için dersler

Yapay zeka botlarını tespit etme:
- Yapay zeka botlarının tarama yapıp yapmadığını anlamak için logların izlenmesi şart
- Çoğu web sitesi tarandığının farkında bile değil
Büyüyen tarama sorunu:
- 2024'te genel olarak geçersiz trafik (Invalid Traffic) %86 arttı
- Bunun başlıca nedeni yapay zeka tarayıcıları ve scraper'lar

Sonuç

Yapay zeka botlarının tarama sorunu küçük işletmeler üzerinde ciddi etki yaratıyor
Yapay zeka şirketleri, verileri almadan önce izin istemeli
Küçük şirketler robots.txt ve güvenlik duvarlarını aktif biçimde kullanmalı, ayrıca sürekli izleme yapmalı

4 yorum

crawler 2025-01-14

Bir siteye erişen 600 IP gerçekten gerçekse, deli gibi kazıyorlarmış diye düşünürüm ama robots.txt kullanılmamış olması biraz "hı?" dedirtiyor.
Verinin önemli olduğu bir şirket gibi görünüyor ve site de aktif gibi; en temel şey olan robots.txt ayarından başlamalıydılar...

xguru 2025-01-14

Yapay zeka şirketleri web trafiğinin çoğunu oluşturuyor

unsure4000 2025-01-14

Bence Cloudflare gerçekten de gerekli bir kötülük gibi. Üstelik performansı çok yüksek olan tek bir saldırı noktası.

GN⁺ 2025-01-14

Hacker News görüşleri

Yapay zeka şirketlerinin forumlarda büyük miktarda trafik yarattığı belirtiliyor
- Read the Docs'ta yapay zeka botlarının 10 TB'tan fazla trafik oluşturduğu bir örnek olduğu söyleniyor
- OpenAI'nin verileri scrape etmek için 600 IP kullandığı iddia ediliyor
- Yalnızca Cloudflare'ın reverse proxy IP'leri kaydedildiği için gerçek istemci IP'leri bilinmiyor
- Loglarda zaman damgası olmadığı ve istek hızından bahsedilmediği için buna DDoS saldırısı denmesinin adil olmadığı görüşü var
Bir web geliştiricisi olarak yapay zeka şirketlerinin verimsiz scraper'larından rahatsızlık duyuluyor
- Siteye aşırı yük bindirmeme yönündeki temel kurala uyulması tavsiye ediliyor
- Yapay zeka şirketlerinin scraper'larının verimsiz ve sinir bozucu olduğu düşünülüyor
Haberde robots.txt ifadesinin yanlış yazıldığına dikkat çekiliyor
- Zaman damgası olmayan log dosyalarının kanıt olarak kullanılmasının şüpheli olduğu belirtiliyor
- OpenAI'nin tamamen masum olmadığı, ancak haberin kalitesinin de düşük olduğu değerlendiriliyor
Web tarihinin kendini tekrarladığı görüşü dile getiriliyor
- Geçmişte API'ler üzerinden bilgi alınabildiği, ancak bugün bunların çoğunun engellendiği söyleniyor
- Yapay zekanın bu tür otomatik etkileşimleri yeniden mümkün kılabileceği umuluyor
Kişisel web crawler'larına ilgi duyulmuş olsa da, bugün Google merkezli adaletsiz ekonomiden hayal kırıklığı yaşanıyor
- LLM'lerin çok faydalı olabileceği, ancak yaratıcılığı çaldığı korkusunun kapıları kapatacağı endişesi dile getiriliyor
Yakın zamanda Amazon'da kitap yayımlayan kişilerin yapay zeka tarafından üretilen sahte kopyalarla rekabet ettiği belirtiliyor
- BBC'de bununla ilgili deneyimlerin röportaj konusu olduğu bir örnek veriliyor
Sitenin robots.txt dosyasını düzgün kullanmaması halinde yapay zekanın serbestçe scrape edebileceği uyarısı yapılıyor
- robots.txt dosyasının kontrol edilmesi tavsiye ediliyor
Site, botların hızını sınırlamak için HTTP 429 hata kodunu kullanabilir
- Botlar bir alt ağdan geliyorsa, bunun tek tek IP'lere değil alt ağa uygulanması öneriliyor