OpenAI içinde iletişim bilgisi olan biri varsa, örümcek sorununu çözmek için yardım isteniyor
(mailman.nanog.org)OpenAI GPTBot'un web sitesi tarama sorunu
-
Yazar, kendi web sitesi web.sp.am'de OpenAI'nin GPTBot'unun siteyi ziyaret ederek sayfaları aşırı şekilde taraması sorununu yaşadığını söylüyor
- Günde yaklaşık 3 milyon sayfa isteği gönderildi ve bunun 1,8 milyonu
robots.txtisteğiydi - Yazarın sitesi, 6 milyar 859 milyon web sitesinin her birinin tek bir sayfaya sahip olduğu bir Content Farm yapısına sahip
- Tüm sayfalar neredeyse aynı görünüyor ve aynı IP ile aynı wildcard SSL sertifikasını kullanıyor; bu yüzden tarayıcının durumu anlamasının zor olmadığı belirtiliyor
- Günde yaklaşık 3 milyon sayfa isteği gönderildi ve bunun 1,8 milyonu
-
1-2 ay önce Amazon'un tarayıcısı da benzer bir soruna yol açmıştı ve iletişime geçilerek tarama durdurulabilmişti
-
Yazar, OpenAI tarafında da iletişime geçebileceği birinin olup olmadığını soruyor
-
Yazar, kendi web sitesi verilerinin GPT-5 eğitimi için kullanılıyor gibi göründüğü yönünde şaka yapıyor
GN⁺'un görüşü
- Tarayıcının
robots.txtdosyasını doğru yorumlayamayıp aşırı istek göndermesi, kötü niyetli olmasa bile karşı taraf açısından hizmete zarar verebilecek ciddi bir sorun. OpenAI'nin de kısa süre içinde tarayıcı mantığını iyileştirmesi gerekiyor gibi görünüyor - Özellikle Content Farm gibi çok sayıda alan adı işleten ortamlarda, her siteyi ayrı ayrı taramamak için IP tabanlı filtreleme gibi yöntemler değerlendirilmeli
- Tarama botlarının davranışını izleyip anormallikleri tespit ederek hızla yanıt verebilecek süreç ve sistemlere ihtiyaç var gibi görünüyor
- Tarama yapılan sitelerin yöneticileriyle yakın iletişim kurularak zararın en aza indirilmesi sağlanmalı. Yalnızca veri toplamaya odaklanmak yerine birlikte var olma perspektifi önemli
1 yorum
Hacker News görüşü
GPT-2/3/J, kullanıcıların sonsuza kadar artan sayılar paylaştığı
r/countingadlı subreddit'i gördüğünde, SolidGoldMagikarp gibi kullanıcı adlarını internette yaygın dizeler olarak değerlendirip tokenization sırasında en üst düzey tokenlar olarak ele aldı.GPT-3'ün söz varlığı 50.257 benzersiz token ile sınırlıydı. Bu subreddit kullanıcılarının niş hobisinin yol açtığı elektrik maliyeti artışı ile gerçek metinlerde sık görülen alt dizelere slot ayırarak ortalama girdi token sayısını azaltmak arasında doğrusal olmasa da ölçülebilir bir etki olduğu tahmin ediliyor.
Web sitesinin alt başlığı olan "IECC ChurnWare 0.3" GPT-5'in bir tokenı olursa eğlenceli olurdu.
Web sitesi sahibi
robots.txtdosyasını doğru yazmadığı için, aslında taramaya izin veren kısmı yorum satırına almış.İçerik çiftliklerinin amacına dair merak dile getiriliyor. Anlamsız görünüyor ama tuhaf ekonomik teşvikler olduğu düşünülüyor. Affiliate linkler var, ancak ne kadar gelir getireceği belirsiz.
Bazıları OpenAI sunucu çiftliğinde gerçek örümcekler olduğunu ve bunların başka rack'lere girmesini umduğunu söyledi.
Ağ güvenliğinde buna tarpit denir. Saldırıları, taramaları ve otomasyonu yavaşlatarak saldırganın zaman ve enerjisini boşa harcatabilir ve savunma için zaman kazandırabilir.
OpenAI de
robots.txtkurallarına uyarsa bot engelleme ve veri toplama sorunu ortaya çıkar. En büyük 100 bin web sitesinin %11'i şimdiden crawler'ları engelliyor; bu oran rakiplerden daha yüksek.Web sitesi sahibi milyonlarca sayfanın aranmasını pek umursamıyor gibi görünüyor; bu yüzden OpenAI'nin istediğini yapmasına izin vermek daha iyi olabilir.
Sonunda OpenAI ve benzerleri modellerini çoğunlukla yapay zeka tarafından üretilmiş, çoğu zaman da biraz hatalı içeriklerle eğitecek ve bu da yapay zeka yanıtlarının kalitesinde düşüşe yol açabilir. Şu anda içeriklerin çoğu insan yazımı, ancak 5 yıl sonra durum böyle olmayabilir. Bu, yapay zeka sektörünün hızla çözmesi gereken sorunlardan biri.
Bu tür web sitelerinin amacı zaten spider'ların zamanını ve kaynaklarını boşa harcatmak; öyleyse neden bunu OpenAI'ye karşı yapmak istemesinler?
Bu tür honeypot'lar, LLM eğitim verisini kirletmenin ilginç bir yolu gibi görünüyor.