5 puan yazan GN⁺ 2025-01-17 | 1 yorum | WhatsApp'ta paylaş
  • Web tarayıcılarını yakalamak için kullanılan bir yazılım; özellikle büyük dil modelleri (LLM) için veri kazıyan tarayıcıları hedefler.
    • Sonsuz sayfa dizileri oluşturarak tarayıcının çıkamamasını sağlar.
    • Tarayıcıların sunucuyu aşırı yüklememesi için kasıtlı gecikmeler ekler ve Markov-babble kullanarak tarayıcıları veri toplamaya teşvik edebilir.
    • Bu yazılım kötü niyetli amaçlarla tasarlanmıştır ve kullanırken dikkatli olunmalıdır.
  • Uyarı
    • LLM tarayıcıları çok inatçıdır ve bu yazılım kullanıldığında tarayıcıya istediği veriler verilmeye devam edilir.
    • Arama motorları için çalışan tarayıcılarla yapay zeka modellerini eğiten tarayıcıları ayırt etmenin bir yolu yoktur; bu yazılım kullanılırsa sitenin arama sonuçlarından kaybolma olasılığı yüksektir.
  • Kullanım
    • Tarpit'i Nginx veya Apache arkasına gizlemek önerilir.
    • Tarpit, HTTP başlıkları kullanılarak yapılandırılır ve örnek olarak bir nginx yapılandırma parçası verilir.
  • Kurulum
    • Docker kullanılarak veya elle kurulabilir.
    • Lua, SQLite, OpenSSL ve çeşitli Lua modülleri gerekir.
    • Kurulumdan sonra config.yml dosyası ayarlanarak başlatılabilir.
  • Markov Babbler bootstrap
    • Markov özelliği eğitilmiş bir corpus gerektirir ve çeşitli metin kaynaklarıyla eğitilebilir.
    • Eğitim verileri bir POST endpoint'ine gönderilerek eklenebilir.
  • İstatistikler
    • JSON biçiminde çeşitli istatistik endpoint'leri sunar; IP adresleri ve user-agent dizeleri görülebilir.
  • Nepenthes'in savunmacı kullanımı
    • Siteden Nepenthes konumuna verilen bağlantılarla tarayıcıların gerçek içeriğe erişmesi engellenir.
    • Toplanan IP adresi listesi kullanılarak tarayıcılar engellenebilir.
  • Nepenthes'in saldırgan kullanımı
    • Tarayıcıları engellemeden mümkün olduğunca çok veri vererek yapay zeka modelleri bozulabilir.
  • Yapılandırma dosyası
    • config.yaml dosyasındaki tüm olası yönergeler açıklanır.
    • Çeşitli ayarlarla Nepenthes'in davranışı düzenlenebilir.

1 yorum

 
GN⁺ 2025-01-17
Hacker News yorumları
  • ChatGPT crawler’ının yansımaya dayalı DDOS zafiyetini nasıl test edeceğine dair bir görüş var. Bu zafiyet, tek bir HTTP isteğinin 5000 HTTP isteğini tetikleyebilmesine yol açabiliyor

    • OpenAI ve Microsoft bu zafiyeti görmezden geldi ve bildirim süreci çok zordu
    • Yasal nedenlerle bu zafiyetin kötüye kullanılmaması tavsiye ediliyor
  • Geçmişte bir bot motel işleten biri deneyimini paylaşıyor ve crawler’ların günlerce içeride mahsur kaldığı vakalardan bahsediyor

    • Güvenlik çoğu zaman sonradan düşünülen bir konu oluyor ve crawler’larla mücadele bitmeyen bir yarış
  • Kâr amacı gütmeyen bir web sitesinin Amazon botunun agresif crawling’i nedeniyle geçici olarak kapandığı bir deneyim paylaşılıyor

    • Siteground siteyi geri yükledi ve sonrasında Amazon botu robots.txt’ye eklendi
    • Mevcut durumdan duyulan memnuniyetsizlik ifade ediliyor ve tarpitting’in ya da yasaların çözüm olup olamayacağı sorgulanıyor
  • Tarpit’in crawling’i yavaşlatabileceği, ancak çok sayıda site bunu kullanmadıkça büyük bir etkisi olmayacağı yönünde bir görüş var

    • Kötü botları tespit etmek zor ve arama sonuçlarından dışlanma riski var
  • Rastgele Markov zinciri tabanlı metin üreticilerinin LLM eğitim crawler’ları için büyük bir sorun olmayacağı görüşü var

    • Rastgele kirletme yerine, tekrarlayan anlamsız metinler kullanmak daha etkili olabilir
  • Şu anda 502 Bad Gateway hatasının yaşandığı ve bunun AI web crawler olarak sınıflandırılmaktan mı yoksa aşırı yükten mi kaynaklandığının bilinmediğine dair bir görüş var

  • Bu kavram yaygınlaşmadığı sürece filtrelemenin kolay olduğu yönünde bir görüş var

    • Büyük şirketler bu tür yazılımları engellemek için ekipler kurabilir
  • İnternette zaten "sonsuz" web siteleri olduğu ve crawler’ların alan adı başına kaç sayfa tarayacaklarını belirlediği belirtiliyor

    • Popüler siteler çok fazla crawl alırken, bilinmeyen siteler daha az crawl alıyor
  • Basit bir yaklaşım olarak, her hatalı HTTP isteğine karşılık 100 hatalı HTTP isteği gönderme yöntemi düşünülüyor

  • Bu yazılımın uygulandığı sitelerin tüm arama sonuçlarından kaybolma ihtimalinin yüksek olduğu yönünde bir görüş var

    • Bu bir bug da olabilir, bir feature da olabilir