Nepenthes - Yapay zeka web tarayıcılarını yakalayan tuzak

(zadzmo.org)

5 puan yazan GN⁺ 2025-01-17 | 1 yorum | WhatsApp'ta paylaş

Web tarayıcılarını yakalamak için kullanılan bir yazılım; özellikle büyük dil modelleri (LLM) için veri kazıyan tarayıcıları hedefler.
- Sonsuz sayfa dizileri oluşturarak tarayıcının çıkamamasını sağlar.
- Tarayıcıların sunucuyu aşırı yüklememesi için kasıtlı gecikmeler ekler ve Markov-babble kullanarak tarayıcıları veri toplamaya teşvik edebilir.
- Bu yazılım kötü niyetli amaçlarla tasarlanmıştır ve kullanırken dikkatli olunmalıdır.
Uyarı
- LLM tarayıcıları çok inatçıdır ve bu yazılım kullanıldığında tarayıcıya istediği veriler verilmeye devam edilir.
- Arama motorları için çalışan tarayıcılarla yapay zeka modellerini eğiten tarayıcıları ayırt etmenin bir yolu yoktur; bu yazılım kullanılırsa sitenin arama sonuçlarından kaybolma olasılığı yüksektir.
Kullanım
- Tarpit'i Nginx veya Apache arkasına gizlemek önerilir.
- Tarpit, HTTP başlıkları kullanılarak yapılandırılır ve örnek olarak bir nginx yapılandırma parçası verilir.
Kurulum
- Docker kullanılarak veya elle kurulabilir.
- Lua, SQLite, OpenSSL ve çeşitli Lua modülleri gerekir.
- Kurulumdan sonra config.yml dosyası ayarlanarak başlatılabilir.
Markov Babbler bootstrap
- Markov özelliği eğitilmiş bir corpus gerektirir ve çeşitli metin kaynaklarıyla eğitilebilir.
- Eğitim verileri bir POST endpoint'ine gönderilerek eklenebilir.
İstatistikler
- JSON biçiminde çeşitli istatistik endpoint'leri sunar; IP adresleri ve user-agent dizeleri görülebilir.
Nepenthes'in savunmacı kullanımı
- Siteden Nepenthes konumuna verilen bağlantılarla tarayıcıların gerçek içeriğe erişmesi engellenir.
- Toplanan IP adresi listesi kullanılarak tarayıcılar engellenebilir.
Nepenthes'in saldırgan kullanımı
- Tarayıcıları engellemeden mümkün olduğunca çok veri vererek yapay zeka modelleri bozulabilir.
Yapılandırma dosyası
- config.yaml dosyasındaki tüm olası yönergeler açıklanır.
- Çeşitli ayarlarla Nepenthes'in davranışı düzenlenebilir.

1 yorum

GN⁺ 2025-01-17

Hacker News yorumları

ChatGPT crawler’ının yansımaya dayalı DDOS zafiyetini nasıl test edeceğine dair bir görüş var. Bu zafiyet, tek bir HTTP isteğinin 5000 HTTP isteğini tetikleyebilmesine yol açabiliyor
- OpenAI ve Microsoft bu zafiyeti görmezden geldi ve bildirim süreci çok zordu
- Yasal nedenlerle bu zafiyetin kötüye kullanılmaması tavsiye ediliyor
Geçmişte bir bot motel işleten biri deneyimini paylaşıyor ve crawler’ların günlerce içeride mahsur kaldığı vakalardan bahsediyor
- Güvenlik çoğu zaman sonradan düşünülen bir konu oluyor ve crawler’larla mücadele bitmeyen bir yarış
Kâr amacı gütmeyen bir web sitesinin Amazon botunun agresif crawling’i nedeniyle geçici olarak kapandığı bir deneyim paylaşılıyor
- Siteground siteyi geri yükledi ve sonrasında Amazon botu robots.txt’ye eklendi
- Mevcut durumdan duyulan memnuniyetsizlik ifade ediliyor ve tarpitting’in ya da yasaların çözüm olup olamayacağı sorgulanıyor
Tarpit’in crawling’i yavaşlatabileceği, ancak çok sayıda site bunu kullanmadıkça büyük bir etkisi olmayacağı yönünde bir görüş var
- Kötü botları tespit etmek zor ve arama sonuçlarından dışlanma riski var
Rastgele Markov zinciri tabanlı metin üreticilerinin LLM eğitim crawler’ları için büyük bir sorun olmayacağı görüşü var
- Rastgele kirletme yerine, tekrarlayan anlamsız metinler kullanmak daha etkili olabilir
Şu anda 502 Bad Gateway hatasının yaşandığı ve bunun AI web crawler olarak sınıflandırılmaktan mı yoksa aşırı yükten mi kaynaklandığının bilinmediğine dair bir görüş var
Bu kavram yaygınlaşmadığı sürece filtrelemenin kolay olduğu yönünde bir görüş var
- Büyük şirketler bu tür yazılımları engellemek için ekipler kurabilir
İnternette zaten "sonsuz" web siteleri olduğu ve crawler’ların alan adı başına kaç sayfa tarayacaklarını belirlediği belirtiliyor
- Popüler siteler çok fazla crawl alırken, bilinmeyen siteler daha az crawl alıyor
Basit bir yaklaşım olarak, her hatalı HTTP isteğine karşılık 100 hatalı HTTP isteği gönderme yöntemi düşünülüyor
Bu yazılımın uygulandığı sitelerin tüm arama sonuçlarından kaybolma ihtimalinin yüksek olduğu yönünde bir görüş var
- Bu bir bug da olabilir, bir feature da olabilir

Nepenthes - Yapay zeka web tarayıcılarını yakalayan tuzak

İlgili okumalar

1 yorum

Hacker News yorumları