Miasma: Yapay zeka web scraper'larını sonsuz bir kirlilik döngüsüne hapseden araç

(github.com/austin-weeks)

5 puan yazan GN⁺ 2026-03-30 | 1 yorum | WhatsApp'ta paylaş

Miasma, AI web scraper'larını sonsuz döngüye sokarak eğitim verisi toplamayı engelleyen Rust tabanlı bir sunucu aracıdır
Web sitesi içeriğini büyük ölçekte toplayan yapay zeka şirketlerinin trafiğini yönlendirerek, 'poison fountain'dan alınan kirlenmiş veriler ve kendine referans veren bağlantılar döndürür
Yüksek işlem hızı ve düşük bellek kullanımı sayesinde sunucu kaynaklarını boşa harcamadan savunma sağlar
Nginx reverse proxy ve gizli bağlantı ekleme ile scraper'ları /bots yoluna yönlendirip sonsuz dolaşım yapısı oluşturur
Normal arama motorları robots.txt istisna kurallarıyla korunur ve proje açık kaynak olarak topluluk katkılarına izin verir

Kurulum ve çalıştırma

Cargo ile kurulabilir
- cargo install miasma komutuyla kurulum
GitHub Releases sayfasından önceden derlenmiş binary dosyaları indirilebilir
Varsayılan ayarlarla çalıştırmak için yalnızca miasma komutunu girmeniz yeterlidir
Tüm yapılandırma seçenekleri miasma --help ile görülebilir

Scraper tuzağı nasıl kurulur

/bots yolunu scraper giriş noktası olarak ayarlayın
Nginx'i reverse proxy olarak kullanıp /bots yolundaki istekleri Miasma sunucusuna iletin
```
location ~ ^/bots($|/.*)$ {
  proxy_pass http://localhost:9855;
}
```
- /bots, /bots/, /bots/12345 gibi tüm varyasyon yollarıyla eşleşir
Gizli bağlantı ekleme
- Web sayfasına, insan ziyaretçilere görünmeyen ancak scraper'ların tespit edebileceği gizli bağlantılar ekleyin
```
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
  Amazing high quality data here!
</a>
```
- display: none, aria-hidden="true", tabindex="1" nitelikleri sayesinde erişilebilirlik araçlarına ve kullanıcılara gösterilmez
Miasma'yı çalıştırma
- /bots'u bağlantı öneki olarak belirleyip port ve eşzamanlı bağlantı sınırını ayarlayın
```
miasma --link-prefix '/bots' -p 9855 -c 50
```
- En fazla 50 eşzamanlı bağlantıya izin verir; bunu aşan isteklerde HTTP 429 yanıtı döner
- 50 bağlantıda yaklaşık 50~60MB bellek kullanımı beklenir
Dağıtımdan sonra çalışma şekli
- Kurulum tamamlanıp dağıtıldığında scraper'lar /bots yolunu izleyerek sonsuz biçimde kirlenmiş veri sayfaları arasında dolaşır
- Loglar üzerinden scraper'ların tekrarlayan istekleri gerçek zamanlı olarak görülebilir

robots.txt yapılandırması

Normal arama motoru crawler'larının Miasma'ya erişmemesi için robots.txt dosyasına istisna kuralları eklemek gerekir

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Yapılandırma seçenekleri

Ayrıntılı ayarlar CLI seçenekleriyle yapılabilir

Seçenek	Varsayılan	Açıklama
`port`	`9999`	Sunucunun bind edeceği port
`host`	`localhost`	Sunucunun bind edeceği host adresi
`max-in-flight`	`500`	Aynı anda işlenebilecek en yüksek istek sayısı. Aşılırsa 429 yanıtı döner. Bellek kullanımı bu değerle orantılıdır
`link-prefix`	`/`	Kendine referans veren bağlantıların öneki. Örn: `/bots`
`link-count`	`5`	Her yanıt sayfasında bulunacak kendine referans veren bağlantı sayısı
`force-gzip`	`false`	İstemcinin Accept-Encoding header'ından bağımsız olarak her zaman gzip sıkıştırması uygular. Aktarım maliyetini düşürmede kullanışlıdır
`poison-source`	`https://rnsaffn.com/poison2/`	Kirlenmiş eğitim verisinin alınacağı proxy kaynağı

Geliştirme ve katkı

Hata raporları veya özellik önerileri GitHub Issues üzerinden gönderilebilir
Yapay zeka tarafından üretilmiş kod katkıları otomatik olarak reddedilir
Topluluk katkıları memnuniyetle karşılanır ve proje açık kaynak olarak sürdürülür

1 yorum

GN⁺ 2026-03-30

Hacker News görüşleri

Birinin telefon spamcisini 45 dakika boyunca oyalamasına benzer şekilde, bu tür bot şaşırtma tekniklerinin gerçekten işe yarayıp yaramadığından emin değilim
Google Search politikalarına göre gizli bağlantı yerleştirmek açık bir ihlal sayılıyor; bu da sitenin sıralamasının düşmesine ya da arama sonuçlarından çıkarılmasına yol açabilir
Sonuçta bu yaklaşım, botlardan çok kendi siteme zarar verebilir
- Otomatikleştirilirse işe yarayabileceğini düşünüyorum
  YouTuber Kitboga'nın yapay zeka çağrı merkeziyle spam aramaları meşgul ettiği videodaki gibi, bunu karşı tarafın kaynaklarını tüketen bir gerilla taktiği olarak görebiliriz
- Ben gerçekten telefon spamcilerini uzun süre oyaladım ve sonrasında artık arama almadım
  Sanırım onların ayrı bir “aranmayacaklar listesi” ve “kârsızlar listesi” var. Önemli olan ikincisine girmek
- Bu bana 2000'lerdeki Rusya merkezli İngilizce kursu spam'ini hatırlattı
  İnsanlar o kadar sinirlenmişti ki Golden Telecom otomatik misilleme aramaları yaptı ve şirket ortadan kayboldu
  Böyle bir yöntem işe yarayabilir ama modem havuzu kiralamak gerekir
- Gizli bağlantı yerleştirmenin yasak olduğu doğru, ama ben bunu daha çok “small web”'in yeniden doğuşu için bir fırsat olarak görmek isterim
  Kazımaya karşı, Google tarayıcılarına karşı ve insan odaklı bir arama indeksi olan araçlar ortaya çıkarsa burada bir potansiyel olabilir
- Bu tür veri zehirleme tekniklerinin gerçekten etkili olduğunu gösteren bir araştırma var
Herkese açık web sitemdeki içerik scraper'lar tarafından çalınıyor
Sonuçta ben de bu yazıyı çaldım, sen de benim yorumumu çalıyor sayılırsın. Dünya hırsızlarla dolu
- Sorun, çok fazla istek göndermeleri ve sitemi çökertmeleri
  İçerik herkese açık ama kimsenin erişemeyeceği hale gelmesini istemiyorum
- “Hırsızlık” demek biraz ağır olabilir ama yazılarımın para kazanma aracı olarak kötüye kullanılması rahatsız edici
  Bu böyle devam ederse artık paylaşmak istemem
- İnsanların yasal olarak hakları ve özgürlükleri vardır, ama LLM'lerin yoktur
  Sonuçta insanlarla şirket araçlarını aynı düzleme koymak yanlış bir karşılaştırma
- “Welcome to the internet…” tarzı alaycı ifadelerde olduğu gibi, zaten veri ve mahremiyetten vazgeçilmiş bir dünyada yaşıyoruz
Eskiden ücretli yazılım geliştirirken kopya koruma kodu ekliyordum ama her seferinde yeni bir crack çıkıyordu
Sonunda bu kavganın anlamsız olduğunu fark edip koruma kodunu kaldırdım
AI botlarının taramasını engelleme çabaları da aynı türden bir köstebek vurma oyunu gibi geliyor
- Belki de cracking'i sıkıcı hale getiren bir strateji izleseydin kazanabilirdin
  Ama topluluğun motivasyonu eğlence ve itibar olduğu için bunun pratikte zor olduğunu düşünüyorum
- Aslında birçok sorun takıntıyı bırakınca çözülüyor
  Ama sosyal medya ve telif takıntısı insanların kontrol arzusunu iyice büyüttü
Bu tekniğin gerçekten işe yarayıp yaramadığını merak ediyorum
Çoğu scraper'ın zaten bu tür savunmaları aşacak teknolojiye sahip olduğunu sanıyorum
- Diyelim ki işe yarıyor, dürüst olmak gerekirse artık bununla uğraşacak enerjim yok. Geriye sadece yorgunluk kaldı
- Sahte bir Python kütüphanesi yapıp GitHub'a yükledim, birkaç ay sonra ChatGPT bunu öğrenmişti
  Benim deneyimime göre bu tür yöntemler bir ölçüde işe yarıyor
- Yüzlerce bot ücretli proxy kullanıyor; onlara maliyet çıkarmak yeterli olabilir
- Meta veya Anthropic tarayıcıları sanıldığı kadar sofistike değil
  Ürettiğim çöp veriyi gerçekten eğittiler mi bilmiyorum ama en azından hayalini kuruyorum
Veri zehirleme (data poisoning) yaklaşımı ilginç
Model web verisini öğrenirken içindeki önyargı ve manipülasyonu da aynen devralıyor
Kötü niyetli aktörler veriyi büyük ölçekte zehirlerse eğitimin kendisi hasmane bir yapıya dönüşür
Sonuçta çözüm güvenilir veri kaynağı yönetimi (provenance)
Bu tür girişimler aslında AI'nın daha akıllı hale gelmesi için eğitim verisi sağlıyor
Reklam tabanlı içerik pazarının çökme ihtimali yüksek ve bunun sonucunda pazarın içerik kalitesini merkeze alan bir yapıya dönüşeceğini düşünüyorum
- “O zaman hiçbir şey yapmayalım mı?” diye karşı çıkılabilir ama pratikte karşılık vermek kolay değil
- AI, reklam tabanlı içeriğin sonunu hızlandıracak
  Bunun yerine doğrudan lisans anlaşmaları yapılıp veri sağlanan modeller yerleşecek
- Eğer tarayıcı tüm bağlantılara tıklamak yerine sadece yerelde parse ediyorsa, bence bu başlı başına bir kazanım
- Sonuçta teknoloji bitmeyen bir silahlanma yarışıdır
Sadece style="display:none" ya da aria-hidden="true" özniteliklerini kaldırarak bu tür hilelerden kaçınılamaz mı diye düşünüyorum
- Ama bunu yaparsa robots.txt'yi yok saymış olur
  Dürüst bir scraper'ın bu kurallara uyması gerekir
- Bağlantıları tamamen gizlemek yerine, ekranın dışında küçük şekilde konumlandırmak yeterli olabilir
  İnsanlar görmez ama botlar takip eder
Bu tür fikirler hoş ama sonunda en büyük zararı KOBİ'lere (SME) verecek
Büyük şirketler daha da güçlenecek, küçük siteler AI arama sonuçlarından kaybolacak
Sonuçta akıma kapılmaktan başka çare yok; gerçekçi olan, arada küçük dirençler göstermek
Nightshade 2.0 gibi araçlar bana özensizce dikkat çekmek için yapılmış projeler gibi geliyor
Gerçek çözüm, veriyi LLM dostu formatlarda sunmak
Basit display:none hileleri akıllı tarayıcılarda işe yaramaz
Ayrıntı için ilgili başlığa bakılabilir
Asıl ilginç olan, bu projenin kullandığı Poison Fountain veri kümesi
rnsaffn.com/poison3 adresinde “makine zekâsı sistemlerine zarar vermek istiyorum” ifadesi yer alıyor
Bu tür hacker ideolojisi bana bir rol yapma oyunu gibi geliyor ve empati kurmak zor
- Ama işin ilginç yanı, “zehirlenmiş verinin” tam olarak ne olduğu ve “az miktarın bile büyük etki yarattığı” iddiasının dayanağı kimse tarafından açıklanmıyor

Miasma: Yapay zeka web scraper'larını sonsuz bir kirlilik döngüsüne hapseden araç

Kurulum ve çalıştırma

Scraper tuzağı nasıl kurulur

Gizli bağlantı ekleme

Miasma'yı çalıştırma

Dağıtımdan sonra çalışma şekli

robots.txt yapılandırması

Yapılandırma seçenekleri

Geliştirme ve katkı

İlgili okumalar

1 yorum

Hacker News görüşleri