2 puan yazan GN⁺ 2024-04-12 | 1 yorum | WhatsApp'ta paylaş

OpenAI GPTBot'un web sitesi tarama sorunu

  • Yazar, kendi web sitesi web.sp.am'de OpenAI'nin GPTBot'unun siteyi ziyaret ederek sayfaları aşırı şekilde taraması sorununu yaşadığını söylüyor

    • Günde yaklaşık 3 milyon sayfa isteği gönderildi ve bunun 1,8 milyonu robots.txt isteğiydi
    • Yazarın sitesi, 6 milyar 859 milyon web sitesinin her birinin tek bir sayfaya sahip olduğu bir Content Farm yapısına sahip
    • Tüm sayfalar neredeyse aynı görünüyor ve aynı IP ile aynı wildcard SSL sertifikasını kullanıyor; bu yüzden tarayıcının durumu anlamasının zor olmadığı belirtiliyor
  • 1-2 ay önce Amazon'un tarayıcısı da benzer bir soruna yol açmıştı ve iletişime geçilerek tarama durdurulabilmişti

  • Yazar, OpenAI tarafında da iletişime geçebileceği birinin olup olmadığını soruyor

  • Yazar, kendi web sitesi verilerinin GPT-5 eğitimi için kullanılıyor gibi göründüğü yönünde şaka yapıyor

GN⁺'un görüşü

  • Tarayıcının robots.txt dosyasını doğru yorumlayamayıp aşırı istek göndermesi, kötü niyetli olmasa bile karşı taraf açısından hizmete zarar verebilecek ciddi bir sorun. OpenAI'nin de kısa süre içinde tarayıcı mantığını iyileştirmesi gerekiyor gibi görünüyor
  • Özellikle Content Farm gibi çok sayıda alan adı işleten ortamlarda, her siteyi ayrı ayrı taramamak için IP tabanlı filtreleme gibi yöntemler değerlendirilmeli
  • Tarama botlarının davranışını izleyip anormallikleri tespit ederek hızla yanıt verebilecek süreç ve sistemlere ihtiyaç var gibi görünüyor
  • Tarama yapılan sitelerin yöneticileriyle yakın iletişim kurularak zararın en aza indirilmesi sağlanmalı. Yalnızca veri toplamaya odaklanmak yerine birlikte var olma perspektifi önemli

1 yorum

 
GN⁺ 2024-04-12
Hacker News görüşü
  • GPT-2/3/J, kullanıcıların sonsuza kadar artan sayılar paylaştığı r/counting adlı subreddit'i gördüğünde, SolidGoldMagikarp gibi kullanıcı adlarını internette yaygın dizeler olarak değerlendirip tokenization sırasında en üst düzey tokenlar olarak ele aldı.

  • GPT-3'ün söz varlığı 50.257 benzersiz token ile sınırlıydı. Bu subreddit kullanıcılarının niş hobisinin yol açtığı elektrik maliyeti artışı ile gerçek metinlerde sık görülen alt dizelere slot ayırarak ortalama girdi token sayısını azaltmak arasında doğrusal olmasa da ölçülebilir bir etki olduğu tahmin ediliyor.

  • Web sitesinin alt başlığı olan "IECC ChurnWare 0.3" GPT-5'in bir tokenı olursa eğlenceli olurdu.

  • Web sitesi sahibi robots.txt dosyasını doğru yazmadığı için, aslında taramaya izin veren kısmı yorum satırına almış.

  • İçerik çiftliklerinin amacına dair merak dile getiriliyor. Anlamsız görünüyor ama tuhaf ekonomik teşvikler olduğu düşünülüyor. Affiliate linkler var, ancak ne kadar gelir getireceği belirsiz.

  • Bazıları OpenAI sunucu çiftliğinde gerçek örümcekler olduğunu ve bunların başka rack'lere girmesini umduğunu söyledi.

  • Ağ güvenliğinde buna tarpit denir. Saldırıları, taramaları ve otomasyonu yavaşlatarak saldırganın zaman ve enerjisini boşa harcatabilir ve savunma için zaman kazandırabilir.

  • OpenAI de robots.txt kurallarına uyarsa bot engelleme ve veri toplama sorunu ortaya çıkar. En büyük 100 bin web sitesinin %11'i şimdiden crawler'ları engelliyor; bu oran rakiplerden daha yüksek.

  • Web sitesi sahibi milyonlarca sayfanın aranmasını pek umursamıyor gibi görünüyor; bu yüzden OpenAI'nin istediğini yapmasına izin vermek daha iyi olabilir.

  • Sonunda OpenAI ve benzerleri modellerini çoğunlukla yapay zeka tarafından üretilmiş, çoğu zaman da biraz hatalı içeriklerle eğitecek ve bu da yapay zeka yanıtlarının kalitesinde düşüşe yol açabilir. Şu anda içeriklerin çoğu insan yazımı, ancak 5 yıl sonra durum böyle olmayabilir. Bu, yapay zeka sektörünün hızla çözmesi gereken sorunlardan biri.

  • Bu tür web sitelerinin amacı zaten spider'ların zamanını ve kaynaklarını boşa harcatmak; öyleyse neden bunu OpenAI'ye karşı yapmak istemesinler?

  • Bu tür honeypot'lar, LLM eğitim verisini kirletmenin ilginç bir yolu gibi görünüyor.