5 puan yazan GN⁺ 2026-03-30 | 1 yorum | WhatsApp'ta paylaş
  • Miasma, AI web scraper'larını sonsuz döngüye sokarak eğitim verisi toplamayı engelleyen Rust tabanlı bir sunucu aracıdır
  • Web sitesi içeriğini büyük ölçekte toplayan yapay zeka şirketlerinin trafiğini yönlendirerek, 'poison fountain'dan alınan kirlenmiş veriler ve kendine referans veren bağlantılar döndürür
  • Yüksek işlem hızı ve düşük bellek kullanımı sayesinde sunucu kaynaklarını boşa harcamadan savunma sağlar
  • Nginx reverse proxy ve gizli bağlantı ekleme ile scraper'ları /bots yoluna yönlendirip sonsuz dolaşım yapısı oluşturur
  • Normal arama motorları robots.txt istisna kurallarıyla korunur ve proje açık kaynak olarak topluluk katkılarına izin verir

Kurulum ve çalıştırma

  • Cargo ile kurulabilir
    • cargo install miasma komutuyla kurulum
  • GitHub Releases sayfasından önceden derlenmiş binary dosyaları indirilebilir
  • Varsayılan ayarlarla çalıştırmak için yalnızca miasma komutunu girmeniz yeterlidir
  • Tüm yapılandırma seçenekleri miasma --help ile görülebilir

Scraper tuzağı nasıl kurulur

  • /bots yolunu scraper giriş noktası olarak ayarlayın
  • Nginx'i reverse proxy olarak kullanıp /bots yolundaki istekleri Miasma sunucusuna iletin
    location ~ ^/bots($|/.*)$ {
      proxy_pass http://localhost:9855;
    }
    
    • /bots, /bots/, /bots/12345 gibi tüm varyasyon yollarıyla eşleşir
  • Gizli bağlantı ekleme

    • Web sayfasına, insan ziyaretçilere görünmeyen ancak scraper'ların tespit edebileceği gizli bağlantılar ekleyin
      <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
        Amazing high quality data here!
      </a>
      
    • display: none, aria-hidden="true", tabindex="1" nitelikleri sayesinde erişilebilirlik araçlarına ve kullanıcılara gösterilmez
  • Miasma'yı çalıştırma

    • /bots'u bağlantı öneki olarak belirleyip port ve eşzamanlı bağlantı sınırını ayarlayın
      miasma --link-prefix '/bots' -p 9855 -c 50
      
    • En fazla 50 eşzamanlı bağlantıya izin verir; bunu aşan isteklerde HTTP 429 yanıtı döner
    • 50 bağlantıda yaklaşık 50~60MB bellek kullanımı beklenir
  • Dağıtımdan sonra çalışma şekli

    • Kurulum tamamlanıp dağıtıldığında scraper'lar /bots yolunu izleyerek sonsuz biçimde kirlenmiş veri sayfaları arasında dolaşır
    • Loglar üzerinden scraper'ların tekrarlayan istekleri gerçek zamanlı olarak görülebilir

robots.txt yapılandırması

  • Normal arama motoru crawler'larının Miasma'ya erişmemesi için robots.txt dosyasına istisna kuralları eklemek gerekir
    User-agent: Googlebot
    User-agent: Bingbot
    User-agent: DuckDuckBot
    User-agent: Slurp
    User-agent: SomeOtherNiceBot
    Disallow: /bots
    Allow: /
    

Yapılandırma seçenekleri

  • Ayrıntılı ayarlar CLI seçenekleriyle yapılabilir
Seçenek Varsayılan Açıklama
port 9999 Sunucunun bind edeceği port
host localhost Sunucunun bind edeceği host adresi
max-in-flight 500 Aynı anda işlenebilecek en yüksek istek sayısı. Aşılırsa 429 yanıtı döner. Bellek kullanımı bu değerle orantılıdır
link-prefix / Kendine referans veren bağlantıların öneki. Örn: /bots
link-count 5 Her yanıt sayfasında bulunacak kendine referans veren bağlantı sayısı
force-gzip false İstemcinin Accept-Encoding header'ından bağımsız olarak her zaman gzip sıkıştırması uygular. Aktarım maliyetini düşürmede kullanışlıdır
poison-source https://rnsaffn.com/poison2/ Kirlenmiş eğitim verisinin alınacağı proxy kaynağı

Geliştirme ve katkı

  • Hata raporları veya özellik önerileri GitHub Issues üzerinden gönderilebilir
  • Yapay zeka tarafından üretilmiş kod katkıları otomatik olarak reddedilir
  • Topluluk katkıları memnuniyetle karşılanır ve proje açık kaynak olarak sürdürülür

1 yorum

 
GN⁺ 2026-03-30
Hacker News görüşleri
  • Birinin telefon spamcisini 45 dakika boyunca oyalamasına benzer şekilde, bu tür bot şaşırtma tekniklerinin gerçekten işe yarayıp yaramadığından emin değilim
    Google Search politikalarına göre gizli bağlantı yerleştirmek açık bir ihlal sayılıyor; bu da sitenin sıralamasının düşmesine ya da arama sonuçlarından çıkarılmasına yol açabilir
    Sonuçta bu yaklaşım, botlardan çok kendi siteme zarar verebilir

    • Otomatikleştirilirse işe yarayabileceğini düşünüyorum
      YouTuber Kitboga'nın yapay zeka çağrı merkeziyle spam aramaları meşgul ettiği videodaki gibi, bunu karşı tarafın kaynaklarını tüketen bir gerilla taktiği olarak görebiliriz
    • Ben gerçekten telefon spamcilerini uzun süre oyaladım ve sonrasında artık arama almadım
      Sanırım onların ayrı bir “aranmayacaklar listesi” ve “kârsızlar listesi” var. Önemli olan ikincisine girmek
    • Bu bana 2000'lerdeki Rusya merkezli İngilizce kursu spam'ini hatırlattı
      İnsanlar o kadar sinirlenmişti ki Golden Telecom otomatik misilleme aramaları yaptı ve şirket ortadan kayboldu
      Böyle bir yöntem işe yarayabilir ama modem havuzu kiralamak gerekir
    • Gizli bağlantı yerleştirmenin yasak olduğu doğru, ama ben bunu daha çok “small web”'in yeniden doğuşu için bir fırsat olarak görmek isterim
      Kazımaya karşı, Google tarayıcılarına karşı ve insan odaklı bir arama indeksi olan araçlar ortaya çıkarsa burada bir potansiyel olabilir
    • Bu tür veri zehirleme tekniklerinin gerçekten etkili olduğunu gösteren bir araştırma var
  • Herkese açık web sitemdeki içerik scraper'lar tarafından çalınıyor
    Sonuçta ben de bu yazıyı çaldım, sen de benim yorumumu çalıyor sayılırsın. Dünya hırsızlarla dolu

    • Sorun, çok fazla istek göndermeleri ve sitemi çökertmeleri
      İçerik herkese açık ama kimsenin erişemeyeceği hale gelmesini istemiyorum
    • “Hırsızlık” demek biraz ağır olabilir ama yazılarımın para kazanma aracı olarak kötüye kullanılması rahatsız edici
      Bu böyle devam ederse artık paylaşmak istemem
    • İnsanların yasal olarak hakları ve özgürlükleri vardır, ama LLM'lerin yoktur
      Sonuçta insanlarla şirket araçlarını aynı düzleme koymak yanlış bir karşılaştırma
    • “Welcome to the internet…” tarzı alaycı ifadelerde olduğu gibi, zaten veri ve mahremiyetten vazgeçilmiş bir dünyada yaşıyoruz
  • Eskiden ücretli yazılım geliştirirken kopya koruma kodu ekliyordum ama her seferinde yeni bir crack çıkıyordu
    Sonunda bu kavganın anlamsız olduğunu fark edip koruma kodunu kaldırdım
    AI botlarının taramasını engelleme çabaları da aynı türden bir köstebek vurma oyunu gibi geliyor

    • Belki de cracking'i sıkıcı hale getiren bir strateji izleseydin kazanabilirdin
      Ama topluluğun motivasyonu eğlence ve itibar olduğu için bunun pratikte zor olduğunu düşünüyorum
    • Aslında birçok sorun takıntıyı bırakınca çözülüyor
      Ama sosyal medya ve telif takıntısı insanların kontrol arzusunu iyice büyüttü
  • Bu tekniğin gerçekten işe yarayıp yaramadığını merak ediyorum
    Çoğu scraper'ın zaten bu tür savunmaları aşacak teknolojiye sahip olduğunu sanıyorum

    • Diyelim ki işe yarıyor, dürüst olmak gerekirse artık bununla uğraşacak enerjim yok. Geriye sadece yorgunluk kaldı
    • Sahte bir Python kütüphanesi yapıp GitHub'a yükledim, birkaç ay sonra ChatGPT bunu öğrenmişti
      Benim deneyimime göre bu tür yöntemler bir ölçüde işe yarıyor
    • Yüzlerce bot ücretli proxy kullanıyor; onlara maliyet çıkarmak yeterli olabilir
    • Meta veya Anthropic tarayıcıları sanıldığı kadar sofistike değil
      Ürettiğim çöp veriyi gerçekten eğittiler mi bilmiyorum ama en azından hayalini kuruyorum
  • Veri zehirleme (data poisoning) yaklaşımı ilginç
    Model web verisini öğrenirken içindeki önyargı ve manipülasyonu da aynen devralıyor
    Kötü niyetli aktörler veriyi büyük ölçekte zehirlerse eğitimin kendisi hasmane bir yapıya dönüşür
    Sonuçta çözüm güvenilir veri kaynağı yönetimi (provenance)

  • Bu tür girişimler aslında AI'nın daha akıllı hale gelmesi için eğitim verisi sağlıyor
    Reklam tabanlı içerik pazarının çökme ihtimali yüksek ve bunun sonucunda pazarın içerik kalitesini merkeze alan bir yapıya dönüşeceğini düşünüyorum

    • “O zaman hiçbir şey yapmayalım mı?” diye karşı çıkılabilir ama pratikte karşılık vermek kolay değil
    • AI, reklam tabanlı içeriğin sonunu hızlandıracak
      Bunun yerine doğrudan lisans anlaşmaları yapılıp veri sağlanan modeller yerleşecek
    • Eğer tarayıcı tüm bağlantılara tıklamak yerine sadece yerelde parse ediyorsa, bence bu başlı başına bir kazanım
    • Sonuçta teknoloji bitmeyen bir silahlanma yarışıdır
  • Sadece style="display:none" ya da aria-hidden="true" özniteliklerini kaldırarak bu tür hilelerden kaçınılamaz mı diye düşünüyorum

    • Ama bunu yaparsa robots.txt'yi yok saymış olur
      Dürüst bir scraper'ın bu kurallara uyması gerekir
    • Bağlantıları tamamen gizlemek yerine, ekranın dışında küçük şekilde konumlandırmak yeterli olabilir
      İnsanlar görmez ama botlar takip eder
  • Bu tür fikirler hoş ama sonunda en büyük zararı KOBİ'lere (SME) verecek
    Büyük şirketler daha da güçlenecek, küçük siteler AI arama sonuçlarından kaybolacak
    Sonuçta akıma kapılmaktan başka çare yok; gerçekçi olan, arada küçük dirençler göstermek

  • Nightshade 2.0 gibi araçlar bana özensizce dikkat çekmek için yapılmış projeler gibi geliyor
    Gerçek çözüm, veriyi LLM dostu formatlarda sunmak
    Basit display:none hileleri akıllı tarayıcılarda işe yaramaz
    Ayrıntı için ilgili başlığa bakılabilir

  • Asıl ilginç olan, bu projenin kullandığı Poison Fountain veri kümesi
    rnsaffn.com/poison3 adresinde “makine zekâsı sistemlerine zarar vermek istiyorum” ifadesi yer alıyor
    Bu tür hacker ideolojisi bana bir rol yapma oyunu gibi geliyor ve empati kurmak zor

    • Ama işin ilginç yanı, “zehirlenmiş verinin” tam olarak ne olduğu ve “az miktarın bile büyük etki yarattığı” iddiasının dayanağı kimse tarafından açıklanmıyor