Miasma: Yapay zeka web scraper'larını sonsuz bir kirlilik döngüsüne hapseden araç
(github.com/austin-weeks)- Miasma, AI web scraper'larını sonsuz döngüye sokarak eğitim verisi toplamayı engelleyen Rust tabanlı bir sunucu aracıdır
- Web sitesi içeriğini büyük ölçekte toplayan yapay zeka şirketlerinin trafiğini yönlendirerek, 'poison fountain'dan alınan kirlenmiş veriler ve kendine referans veren bağlantılar döndürür
- Yüksek işlem hızı ve düşük bellek kullanımı sayesinde sunucu kaynaklarını boşa harcamadan savunma sağlar
- Nginx reverse proxy ve gizli bağlantı ekleme ile scraper'ları
/botsyoluna yönlendirip sonsuz dolaşım yapısı oluşturur - Normal arama motorları robots.txt istisna kurallarıyla korunur ve proje açık kaynak olarak topluluk katkılarına izin verir
Kurulum ve çalıştırma
- Cargo ile kurulabilir
cargo install miasmakomutuyla kurulum
- GitHub Releases sayfasından önceden derlenmiş binary dosyaları indirilebilir
- Varsayılan ayarlarla çalıştırmak için yalnızca
miasmakomutunu girmeniz yeterlidir - Tüm yapılandırma seçenekleri
miasma --helpile görülebilir
Scraper tuzağı nasıl kurulur
/botsyolunu scraper giriş noktası olarak ayarlayın- Nginx'i reverse proxy olarak kullanıp
/botsyolundaki istekleri Miasma sunucusuna iletinlocation ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; }/bots,/bots/,/bots/12345gibi tüm varyasyon yollarıyla eşleşir
-
Gizli bağlantı ekleme
- Web sayfasına, insan ziyaretçilere görünmeyen ancak scraper'ların tespit edebileceği gizli bağlantılar ekleyin
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1"> Amazing high quality data here! </a> display: none,aria-hidden="true",tabindex="1"nitelikleri sayesinde erişilebilirlik araçlarına ve kullanıcılara gösterilmez
- Web sayfasına, insan ziyaretçilere görünmeyen ancak scraper'ların tespit edebileceği gizli bağlantılar ekleyin
-
Miasma'yı çalıştırma
/bots'u bağlantı öneki olarak belirleyip port ve eşzamanlı bağlantı sınırını ayarlayınmiasma --link-prefix '/bots' -p 9855 -c 50- En fazla 50 eşzamanlı bağlantıya izin verir; bunu aşan isteklerde HTTP 429 yanıtı döner
- 50 bağlantıda yaklaşık 50~60MB bellek kullanımı beklenir
-
Dağıtımdan sonra çalışma şekli
- Kurulum tamamlanıp dağıtıldığında scraper'lar
/botsyolunu izleyerek sonsuz biçimde kirlenmiş veri sayfaları arasında dolaşır - Loglar üzerinden scraper'ların tekrarlayan istekleri gerçek zamanlı olarak görülebilir
- Kurulum tamamlanıp dağıtıldığında scraper'lar
robots.txt yapılandırması
- Normal arama motoru crawler'larının Miasma'ya erişmemesi için robots.txt dosyasına istisna kuralları eklemek gerekir
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
Yapılandırma seçenekleri
- Ayrıntılı ayarlar CLI seçenekleriyle yapılabilir
| Seçenek | Varsayılan | Açıklama |
|---|---|---|
port |
9999 |
Sunucunun bind edeceği port |
host |
localhost |
Sunucunun bind edeceği host adresi |
max-in-flight |
500 |
Aynı anda işlenebilecek en yüksek istek sayısı. Aşılırsa 429 yanıtı döner. Bellek kullanımı bu değerle orantılıdır |
link-prefix |
/ |
Kendine referans veren bağlantıların öneki. Örn: /bots |
link-count |
5 |
Her yanıt sayfasında bulunacak kendine referans veren bağlantı sayısı |
force-gzip |
false |
İstemcinin Accept-Encoding header'ından bağımsız olarak her zaman gzip sıkıştırması uygular. Aktarım maliyetini düşürmede kullanışlıdır |
poison-source |
https://rnsaffn.com/poison2/ |
Kirlenmiş eğitim verisinin alınacağı proxy kaynağı |
Geliştirme ve katkı
- Hata raporları veya özellik önerileri GitHub Issues üzerinden gönderilebilir
- Yapay zeka tarafından üretilmiş kod katkıları otomatik olarak reddedilir
- Topluluk katkıları memnuniyetle karşılanır ve proje açık kaynak olarak sürdürülür
1 yorum
Hacker News görüşleri
Birinin telefon spamcisini 45 dakika boyunca oyalamasına benzer şekilde, bu tür bot şaşırtma tekniklerinin gerçekten işe yarayıp yaramadığından emin değilim
Google Search politikalarına göre gizli bağlantı yerleştirmek açık bir ihlal sayılıyor; bu da sitenin sıralamasının düşmesine ya da arama sonuçlarından çıkarılmasına yol açabilir
Sonuçta bu yaklaşım, botlardan çok kendi siteme zarar verebilir
YouTuber Kitboga'nın yapay zeka çağrı merkeziyle spam aramaları meşgul ettiği videodaki gibi, bunu karşı tarafın kaynaklarını tüketen bir gerilla taktiği olarak görebiliriz
Sanırım onların ayrı bir “aranmayacaklar listesi” ve “kârsızlar listesi” var. Önemli olan ikincisine girmek
İnsanlar o kadar sinirlenmişti ki Golden Telecom otomatik misilleme aramaları yaptı ve şirket ortadan kayboldu
Böyle bir yöntem işe yarayabilir ama modem havuzu kiralamak gerekir
Kazımaya karşı, Google tarayıcılarına karşı ve insan odaklı bir arama indeksi olan araçlar ortaya çıkarsa burada bir potansiyel olabilir
Herkese açık web sitemdeki içerik scraper'lar tarafından çalınıyor
Sonuçta ben de bu yazıyı çaldım, sen de benim yorumumu çalıyor sayılırsın. Dünya hırsızlarla dolu
İçerik herkese açık ama kimsenin erişemeyeceği hale gelmesini istemiyorum
Bu böyle devam ederse artık paylaşmak istemem
Sonuçta insanlarla şirket araçlarını aynı düzleme koymak yanlış bir karşılaştırma
Eskiden ücretli yazılım geliştirirken kopya koruma kodu ekliyordum ama her seferinde yeni bir crack çıkıyordu
Sonunda bu kavganın anlamsız olduğunu fark edip koruma kodunu kaldırdım
AI botlarının taramasını engelleme çabaları da aynı türden bir köstebek vurma oyunu gibi geliyor
Ama topluluğun motivasyonu eğlence ve itibar olduğu için bunun pratikte zor olduğunu düşünüyorum
Ama sosyal medya ve telif takıntısı insanların kontrol arzusunu iyice büyüttü
Bu tekniğin gerçekten işe yarayıp yaramadığını merak ediyorum
Çoğu scraper'ın zaten bu tür savunmaları aşacak teknolojiye sahip olduğunu sanıyorum
Benim deneyimime göre bu tür yöntemler bir ölçüde işe yarıyor
Ürettiğim çöp veriyi gerçekten eğittiler mi bilmiyorum ama en azından hayalini kuruyorum
Veri zehirleme (data poisoning) yaklaşımı ilginç
Model web verisini öğrenirken içindeki önyargı ve manipülasyonu da aynen devralıyor
Kötü niyetli aktörler veriyi büyük ölçekte zehirlerse eğitimin kendisi hasmane bir yapıya dönüşür
Sonuçta çözüm güvenilir veri kaynağı yönetimi (provenance)
Bu tür girişimler aslında AI'nın daha akıllı hale gelmesi için eğitim verisi sağlıyor
Reklam tabanlı içerik pazarının çökme ihtimali yüksek ve bunun sonucunda pazarın içerik kalitesini merkeze alan bir yapıya dönüşeceğini düşünüyorum
Bunun yerine doğrudan lisans anlaşmaları yapılıp veri sağlanan modeller yerleşecek
Sadece
style="display:none"ya daaria-hidden="true"özniteliklerini kaldırarak bu tür hilelerden kaçınılamaz mı diye düşünüyorumDürüst bir scraper'ın bu kurallara uyması gerekir
İnsanlar görmez ama botlar takip eder
Bu tür fikirler hoş ama sonunda en büyük zararı KOBİ'lere (SME) verecek
Büyük şirketler daha da güçlenecek, küçük siteler AI arama sonuçlarından kaybolacak
Sonuçta akıma kapılmaktan başka çare yok; gerçekçi olan, arada küçük dirençler göstermek
Nightshade 2.0 gibi araçlar bana özensizce dikkat çekmek için yapılmış projeler gibi geliyor
Gerçek çözüm, veriyi LLM dostu formatlarda sunmak
Basit
display:nonehileleri akıllı tarayıcılarda işe yaramazAyrıntı için ilgili başlığa bakılabilir
Asıl ilginç olan, bu projenin kullandığı Poison Fountain veri kümesi
rnsaffn.com/poison3 adresinde “makine zekâsı sistemlerine zarar vermek istiyorum” ifadesi yer alıyor
Bu tür hacker ideolojisi bana bir rol yapma oyunu gibi geliyor ve empati kurmak zor