- Web tarayıcılarını yakalamak için kullanılan bir yazılım; özellikle büyük dil modelleri (LLM) için veri kazıyan tarayıcıları hedefler.
- Sonsuz sayfa dizileri oluşturarak tarayıcının çıkamamasını sağlar.
- Tarayıcıların sunucuyu aşırı yüklememesi için kasıtlı gecikmeler ekler ve Markov-babble kullanarak tarayıcıları veri toplamaya teşvik edebilir.
- Bu yazılım kötü niyetli amaçlarla tasarlanmıştır ve kullanırken dikkatli olunmalıdır.
- Uyarı
- LLM tarayıcıları çok inatçıdır ve bu yazılım kullanıldığında tarayıcıya istediği veriler verilmeye devam edilir.
- Arama motorları için çalışan tarayıcılarla yapay zeka modellerini eğiten tarayıcıları ayırt etmenin bir yolu yoktur; bu yazılım kullanılırsa sitenin arama sonuçlarından kaybolma olasılığı yüksektir.
- Kullanım
- Tarpit'i Nginx veya Apache arkasına gizlemek önerilir.
- Tarpit, HTTP başlıkları kullanılarak yapılandırılır ve örnek olarak bir nginx yapılandırma parçası verilir.
- Kurulum
- Docker kullanılarak veya elle kurulabilir.
- Lua, SQLite, OpenSSL ve çeşitli Lua modülleri gerekir.
- Kurulumdan sonra
config.yml dosyası ayarlanarak başlatılabilir.
- Markov Babbler bootstrap
- Markov özelliği eğitilmiş bir corpus gerektirir ve çeşitli metin kaynaklarıyla eğitilebilir.
- Eğitim verileri bir POST endpoint'ine gönderilerek eklenebilir.
- İstatistikler
- JSON biçiminde çeşitli istatistik endpoint'leri sunar; IP adresleri ve user-agent dizeleri görülebilir.
- Nepenthes'in savunmacı kullanımı
- Siteden Nepenthes konumuna verilen bağlantılarla tarayıcıların gerçek içeriğe erişmesi engellenir.
- Toplanan IP adresi listesi kullanılarak tarayıcılar engellenebilir.
- Nepenthes'in saldırgan kullanımı
- Tarayıcıları engellemeden mümkün olduğunca çok veri vererek yapay zeka modelleri bozulabilir.
- Yapılandırma dosyası
config.yaml dosyasındaki tüm olası yönergeler açıklanır.
- Çeşitli ayarlarla Nepenthes'in davranışı düzenlenebilir.
1 yorum
Hacker News yorumları
ChatGPT crawler’ının yansımaya dayalı DDOS zafiyetini nasıl test edeceğine dair bir görüş var. Bu zafiyet, tek bir HTTP isteğinin 5000 HTTP isteğini tetikleyebilmesine yol açabiliyor
Geçmişte bir bot motel işleten biri deneyimini paylaşıyor ve crawler’ların günlerce içeride mahsur kaldığı vakalardan bahsediyor
Kâr amacı gütmeyen bir web sitesinin Amazon botunun agresif crawling’i nedeniyle geçici olarak kapandığı bir deneyim paylaşılıyor
Tarpit’in crawling’i yavaşlatabileceği, ancak çok sayıda site bunu kullanmadıkça büyük bir etkisi olmayacağı yönünde bir görüş var
Rastgele Markov zinciri tabanlı metin üreticilerinin LLM eğitim crawler’ları için büyük bir sorun olmayacağı görüşü var
Şu anda 502 Bad Gateway hatasının yaşandığı ve bunun AI web crawler olarak sınıflandırılmaktan mı yoksa aşırı yükten mi kaynaklandığının bilinmediğine dair bir görüş var
Bu kavram yaygınlaşmadığı sürece filtrelemenin kolay olduğu yönünde bir görüş var
İnternette zaten "sonsuz" web siteleri olduğu ve crawler’ların alan adı başına kaç sayfa tarayacaklarını belirlediği belirtiliyor
Basit bir yaklaşım olarak, her hatalı HTTP isteğine karşılık 100 hatalı HTTP isteği gönderme yöntemi düşünülüyor
Bu yazılımın uygulandığı sitelerin tüm arama sonuçlarından kaybolma ihtimalinin yüksek olduğu yönünde bir görüş var