OpenAI içinde iletişim bilgisi olan biri varsa, örümcek sorununu çözmek için yardım isteniyor

(mailman.nanog.org)

2 puan yazan GN⁺ 2024-04-12 | 1 yorum | WhatsApp'ta paylaş

OpenAI GPTBot'un web sitesi tarama sorunu

Yazar, kendi web sitesi web.sp.am'de OpenAI'nin GPTBot'unun siteyi ziyaret ederek sayfaları aşırı şekilde taraması sorununu yaşadığını söylüyor
- Günde yaklaşık 3 milyon sayfa isteği gönderildi ve bunun 1,8 milyonu robots.txt isteğiydi
- Yazarın sitesi, 6 milyar 859 milyon web sitesinin her birinin tek bir sayfaya sahip olduğu bir Content Farm yapısına sahip
- Tüm sayfalar neredeyse aynı görünüyor ve aynı IP ile aynı wildcard SSL sertifikasını kullanıyor; bu yüzden tarayıcının durumu anlamasının zor olmadığı belirtiliyor
1-2 ay önce Amazon'un tarayıcısı da benzer bir soruna yol açmıştı ve iletişime geçilerek tarama durdurulabilmişti
Yazar, OpenAI tarafında da iletişime geçebileceği birinin olup olmadığını soruyor
Yazar, kendi web sitesi verilerinin GPT-5 eğitimi için kullanılıyor gibi göründüğü yönünde şaka yapıyor

GN⁺'un görüşü

Tarayıcının robots.txt dosyasını doğru yorumlayamayıp aşırı istek göndermesi, kötü niyetli olmasa bile karşı taraf açısından hizmete zarar verebilecek ciddi bir sorun. OpenAI'nin de kısa süre içinde tarayıcı mantığını iyileştirmesi gerekiyor gibi görünüyor
Özellikle Content Farm gibi çok sayıda alan adı işleten ortamlarda, her siteyi ayrı ayrı taramamak için IP tabanlı filtreleme gibi yöntemler değerlendirilmeli
Tarama botlarının davranışını izleyip anormallikleri tespit ederek hızla yanıt verebilecek süreç ve sistemlere ihtiyaç var gibi görünüyor
Tarama yapılan sitelerin yöneticileriyle yakın iletişim kurularak zararın en aza indirilmesi sağlanmalı. Yalnızca veri toplamaya odaklanmak yerine birlikte var olma perspektifi önemli

1 yorum

GN⁺ 2024-04-12

Hacker News görüşleri

GPT-2/3/J’nin https://reddit.com/r/counting ile karşılaşmış olması aklıma geldi. Burası, Reddit kullanıcılarının sayıları teker teker göndererek sonsuza kadar saydığı bir yer; SolidGoldMagikarp gibi kullanıcı adları internette çok sık görülen dizeler gibi algılandığı için tokenizasyon sırasında bağımsız token olarak ele alınmıştı
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
Sözlük sonsuz değil ve GPT-3’ün sözlüğünün de yalnızca 50.257 token olduğu söyleniyordu. Reddit’teki bu niş hobi yüzünden oluşan ek elektrik maliyetiyle, o yeri gerçek metinlerde daha sık görülen bir alt dizeye ayırıp ortalama giriş token sayısını azaltmanın farkının ölçülebilir olup olmadığını da merak ediyorum
OP sitesinin alt başlığı olan IECC ChurnWare 0.3 GPT-5 token’ı olursa komik olur
- Halüsinasyonların nedeninin büyük dil modellerinin doğasından çok kaynak içerikte ne kadar bulunduğunu merak ediyorum. Sonuçta internet forumlarında cevabını bilmediğim bir soru sorulsa gidip özellikle “bilmiyorum” yazmıyorum
  Nitekim bire bir konuşma olmayan yerlerde “bilmiyorum” cevabı çoğu zaman pek işe yaramaz. Bir grupta bilmiyorsan sessizlik zaten bunu göstermiş olur
- Tokenizasyon sırasında kullanıcı adları token olmuştu ama gerçek model eğitilmeden önce bu tür metinler eğitim verisinden çıkarıldığı için model, bu token’ı içeren metinlerle eğitilmedi. Bu yüzden herhangi bir anlamla ilişkilendirilmemiş glitch token ortaya çıktı
- Computerphile’da da glitch token hakkında bir tartışma var
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Bugünlerde en yaygın sözlük boyutu 32k
Beni daha çok meraklandıran şey, o içerik çiftliğinin ne işe yaradığı. Anlamsız görünüyor ama tuhaf bir ekonomik teşvik olmalı gibi. Ortada bağlı kuruluş linkleri var ama ondan ne kadar kazanılabilir ki
- Bu bir honeypot. Yazarı https://en.wikipedia.org/wiki/John_R._Levine, yeni ve büyük ölçekli bir scraping faaliyeti başladığında bu küçük çiftliğe mutlaka uğrasın ve loglara düşsün diye bunu ayakta tutuyor
  Kendisi onlarca yıldır çeşitli işler yapan tanınmış bir anti-spam figürü. NANOG mesajlarına landing page linkini doğal biçimde serpiştirmesi de botların yemi yutmasını sağlama yöntemi
- iecc.com’daki John Levine adını web 1.0 döneminden Invincible Electric Calculator Company olarak hatırlıyorum. Usenet’teki comp.compilers haber grubunun yöneticisiydi ve IBM PC RT için ilk C derleyicisini yazmıştı
  https://compilers.iecc.com/
- Bu daha çok botlar için bir honeypot gibi görünüyor. Amaç epey benzer
- Linkers & Loaders onun yazdığı kitap, evet. Diğer kitapları kontrol etmedim
  https://www.iecc.com/linker/ sayfasında eskiden kitabın taslağını çeşitli formatlarda paylaşıyordu; https://news.ycombinator.com/item?id=18424233 gönderildiğinde ben de çevrimdışı okumak için dosyaları paketlemiştim, sonrasında ise “kronik korsanlık nedeniyle artık sunulmuyor” ifadesi eklendi
  E-postayla bunun uygun olup olmadığını sordum ama dosyaları korsanladığımı ima eden kaba bir yanıt alınca linki kaldırdım, onlar da metni değiştirdi. Ben kitabın yazarı değilim, yazar onlar, dolayısıyla böyle yapmaları kendi tercihleri. Yine de bunu yapmamamı sayfaya yazmalarını önermiştim ama onlar daha radikal bir yol seçti
- Sırf eğlence için yapılmış ve şu anda işini gayet iyi yapıyor. Her şeyin ekonomik bir amacı, 100 izleyicisi, reklamı ya da şirket sponsorluğu olmak zorunda değil
OpenAI sunucu çiftliğinde gerçekten örümcekler cirit attığını ve başkalarının rack’lerine tırmandığını anlatan bir şey olmasını uman tek kişi ben miydim diye merak ediyorum. Olmayacağını biliyordum ama yine de umdum
- Büyük bir anahtar kelime kümesinin örümcek görselleri üretmesiyle ilgili olmasını ummuştum
robots.txt düzgün ayarlanmamış. Gerçekten engelleyen kısmı yorum satırına almışlar
Amazonbot ve GPTBot için Disallow: / satırlarının ikisi de yorumda, şu anda fiilen geçerli olan tek şey User-agent: * için /archive engeli
- O zamanla şimdi arasında içerik değişmiş
robots.txtye uyulacaksa, OpenAI için bot engelleme ile veri toplama sorunu birlikte var: https://x.com/AznWeng/status/1777688628308681000
En büyük 100 bin web sitesinin %11’i şimdiden OpenAI crawler’ını engelliyor; bu da rakipleri Google, FB, Anthropic ve Perplexity’nin toplamından daha fazla
- Bu yalnızca eğitim için değil, son kullanıcı için de sorun. Uzun bir metin hakkında soru sorduğumda ya da özet istediğimde, onu kendi başına okuyamadığını söyleyip sonunda metni sohbete kopyala-yapıştır yapmamı gerektirdiği çok oldu
  robots.txtnin bağlayıcılığı zayıf bir şey olduğu ve başka bağlamlarda herkese açık verileri çekip almaya karşı pek çekingen görünmedikleri düşünülürse, bunun kullanıcı deneyimi önünde engel olarak kalmasına izin vermeleri şaşırtıcı
Bence bırakın yapsın. İnternet istiyorlarsa, bu gerçek internet. Milyonlarca sayfayı çekmesine pek aldırmıyor gibi görünüyor, o yüzden bırakın yapsın
- Bu, o web çiftliğindeki diğer normal kullanıcılar için performans etkisi yaratıyor
- Bazı scraper'lar robots.txt'ye saygı gösterir. OpenAI göstermiyor. SP sadece bunu dünyaya duyuruyor
- CTO bile verinin nereden geldiğini bilmediğini söylüyor
- Mesele tam da bu. Şikayet ettiği şey, OpenAI'nin robots.txt'ye saygı göstermemesi
Ağ güvenliği dünyasında buna tarpit denir. Veriyi çok yavaş göndererek ya da sonsuz özyineleme tetikleyerek saldırıları, taramaları ve diğer otomasyonları yavaşlatabilirsiniz
Sonuçta saldırganın zamanını ve enerjisini boşa harcatır ve bizim tarafın savunmayı güçlendirmesi için zaman kazandırabilir
- E-postanın içeriğine bakınca bu bana daha çok bir honeypot gibi geliyor. İçerik dönerken de bir gecikme görünmüyor
  Tarpit farklıdır; tarama ya da scraping'i yavaşlatmak ve karşı tarafın kaynaklarını bilerek boşa harcatmak için tasarlanır. Çeşitli teknikler vardır ama çoğu yanıtı ya da yanıt hızını üstel olarak kısıtlar
2011'de de picolisp projesi, anında sayfa üreten Markov zinciri benzeri bir “ticker” yayımladığında benzer bir şey olmuştu
https://picolisp.com/wiki/?ticker
Oldukça iyi bir honeypot örneği
Sonunda OpenAI gibi şirketlerin neredeyse tamamı modellerini AI tarafından üretilmiş içerik ile eğitiyor olacak ve Soru-Cevap açısından böyle içerikler oldukça sık küçük hatalar içerdiği için, bununla eğitilen AI yanıtlarının kalitesi de hızla düşecek
Şu anda internetteki içeriğin çoğunu insanlar yazıyor ama 5 yıl sonra böyle olmayabilir. Bence bu, AI alanının hızla çözmesi gereken büyük sorunlardan biri. Eski sözde dendiği gibi, içeri çöp girerse dışarı çöp çıkar
- Web metniyle eğitimin varacağı son nokta her zaman ouroboros olacaktı. Çünkü reklam teknolojisinin teşvikleri, küçücük gelirler uğruna düşük kaliteli içeriğin kitlesel olarak üretilmesine yol açıyor
  Bütün bu durumun ironisi acımasız
- Scrape edilecek bakir orman türü içerik artık kalmayacak, ama insanların istediği içerik yine en popüler, en çok öne çıkarılan, küratörlü ve edit edilmiş içerik olacak. Organik içerikle eğitim imkansız hale gelse bile iyi içerik elde etmek hâlâ mümkün
- Bu aslında zaten çözülmüş bir sorun. Microsoft'un Phi'ı nasıl eğittiğine bakın. Mevcut modellerle ders kitabı tabanlı sentetik veri ürettiler; böylece Common Crawl gibi kaynaklardan çok daha yüksek kalitede, “gerçeklere” dayalı yeni veri kümeleri oluşturabildiler
  Bu, ouroboros'tan çok bir bootstrapping problemine benziyor
- Gelecek multimodal olacak; eğitim ve çıkarım, dağıtık algılama ağlarının akışlarıyla yapılacak. Buna radyo, optik, akustik, ivmeölçer, titreşim, cep telefonunun içindeki ve dışındaki daha pek çok sensör dahil
  Sadece metinle çalışan transformer'ların dönemi bence zaten geçti
- OpenAI ve arkadaşlarının sonunda neredeyse tamamen AI üretimi içerikle eğitileceğini neden düşündüğünüzü anlamıyorum. İnternette AI üretimi içeriğin gerçek içerikten daha fazla olma ihtimali yüksek, hatta belki şimdiden öyledir; ama AI şirketlerinin bunu fark etmeyeceğini ve eğitim yöntemlerini buna göre ayarlamayacağını düşünmek için bir neden yok
Bence OpenAI robots.txt'yi okuyor ama yine de indeksliyor. Sadece, indekslenmemesi gereken bir içerik olduğuna dair bir işaret bırakıyor olabilir
- Ve muhtemelen böyle içeriklere eğitimde iki kat ağırlık veriyordur

OpenAI içinde iletişim bilgisi olan biri varsa, örümcek sorununu çözmek için yardım isteniyor

OpenAI GPTBot'un web sitesi tarama sorunu

GN⁺'un görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri