- Yapay zeka kazıyıcı trafiği, herkese açık wikilerin maliyetini ve istikrarını sarsıyor; hafifletilmezse tüm insan etkinliğinin toplamından yaklaşık 10 kat fazla hesaplama kaynağı tüketebiliyor
- Botlar, GPTBot gibi tanınabilir User Agent’ların ötesine geçip başlıklarını güncel Chrome gibi gösteriyor ve günde 1 milyon IP döndüren konut proxy’leriyle engelleri aşıyor
- Wikiler, makalelerden çok daha fazla sayıda eski sürüm, düzenleme ekranı ve özel sayfa URL’si açığa çıkardığı için, naif tarama önbelleği atlayabiliyor ve normal isteklere göre 50–100 kat daha pahalıya mal olabiliyor
- Cloudflare Challenge, Anubis, manuel güvenlik duvarı kuralları ve insan davranışı isteği tabanlı tespit etkili olsa da yanlış pozitifler, bakım yükü ve okur sürtünmesi yaratıyor
- Giriş zorunluluğu ya da herkese challenge uygulamak gibi aşırı engellemeler yeni katkıları azaltabileceğinden, yöneticiler arasında açık tartışma ve bot toplama teşviklerini değiştiren API yaklaşımları gerekiyor
Yapay zeka kazıyıcılarının wiki işletimine getirdiği yük
- LLM eğitim verisi için bot kazıması benzeri görülmemiş ölçekte artarken herkese açık web sitelerinin maliyetini ve istikrarını sarsıyor: ilgili sorunlar FOSS infrastructure is under attack by AI companies, Are AI bots knocking cultural heritage offline?, Smart TV web crawler AI yazılarında da ele alınıyor
- Weird Gloop, Minecraft Wiki, OSRS Wiki, League Wiki gibi büyük oyun wikilerini barındırıyor ve son 3 yıldır bot trafiğiyle mücadeleye giderek daha fazla zaman ayırıyor
- Sürekli hafifletme yapılmazsa botlar, on milyonlarca insan sayfa görüntülemesi ve günde on binlerce düzenleme dahil geri kalan her şeyin toplamından yaklaşık 10 kat fazla hesaplama kaynağı kullanabiliyor
- Wikimedia Foundation da tarayıcıların operasyonlar üzerindeki etkisini ele alan bir yazı yayımladı; büyük wiki çiftlikleri farklı düzeylerde kesinti yaşadı ve bazı küçük bağımsız wikiler tamamen çevrimdışı kaldı
- Bu yıl wiki ekosistemindeki sunucu sorunlarının yaklaşık %95’inin kötü niyetli kazıyıcılardan kaynaklandığı tahmin ediliyor
İnsan gibi görünmeye çalışan kazıyıcılar
- GPTBot, ClaudeBot, PerplexityBot gibi büyük yapay zeka şirketlerinin “resmî” botları zaman zaman robots.txt kurallarına uymasa da genelde User Agent dizgesinden ayırt edilebiliyor; bu yüzden Cloudflare’in AI bot engellemesi ya da nginx ile engellenmeleri kolay
- Web yöneticileri User Agent tabanlı engelleme yapmaya başlayınca botlar için insan trafiği gibi görünmek güçlü bir teşvik haline geldi
- Son dönemde wikilere ulaşan yapay zeka kazıyıcı trafiğinin çoğu, başlıklarını güncel Google Chrome gibi gösterecek şekilde gönderiyor ve istekleri daha sofistike biçimde kurguluyor
- Eskiden kullanılan açık “bot mu gerçek insan mı” sinyalleri ortadan kalktığı için engelleme zorlaştı
On milyonlarca IP ve proxy ile aşma
- 2023 öncesinde sorunlu kazımanın %95’i tek bir IP adresinden ya da küçük veri merkezi alt ağlarından geliyordu; bu nedenle IP veya ISP özelliklerine dayalı engelleme çoğunlukla işe yarıyordu
- Konut proxy’leri kullanıldığında yalnızca bir kredi kartıyla milyonlarca IP adresinden oluşan bir ağ üzerinden kazıma istekleri aklanabiliyor
- Wikiler bazen günde 1 milyon IP döndüren kazıyıcı çalıştırmalarıyla karşılaşıyor; bunlar Comcast, AT&T, Charter gibi konut tipi ISP’lerden gelen meşru istekler gibi görünüyor
- Bu müşteriler kendi IP’lerinin konut proxy çıkış düğümü olarak kullanıldığını büyük olasılıkla bilmiyor
- Bazı kötü niyetli aktörler, facebookexternalhit bağlantı önizlemesi ya da Google Translate kullanarak isteğin Google/Facebook sunucularından geliyormuş gibi görünmesini sağlıyor ve gerçek kaynağı gizliyor
- Google Translate URL aracı üzerinden gelen isteklerin %99,99’unun kötüye kullanım niteliğinde olduğu durumlar bile görüldü; bu yüzden bir dönem tüm wikilerde bu araç bozulmak zorunda kaldı
Wikiler için özellikle pahalı olan “aptal URL” taraması
- Birçok yapay zeka kazıyıcısı wiki ana sayfasını ziyaret ettikten sonra o sayfadaki tüm bağlantılara, ardından o sayfalardaki tüm bağlantılara giderek URL seçiyor
- robots.txt ve site haritası kazımaya değer URL’leri gösterse de bunları fark etmiyormuş gibi davranıyorlar
- OSRS Wiki’de yaklaşık 40 bin makale var ve sitenin faydalı bilgilerinin büyük kısmını bu URL’ler oluşturuyor
- Ancak eski sürümler, düzenleme ekranları, özel sayfalar dahil edildiğinde gezilebilir URL sayısı en az 1 milyara ulaşıyor
- Bu tür naif tarama hiç bitmiyor ve LLM eğitim verisi için yararlı olmayan URL’lerde çok fazla kaynak harcandığı görülüyor
- Garip istekler, gerçek kullanıcı isteklerinin kullandığı MediaWiki parser cache gibi önbellek katmanlarını atlayarak hizmet maliyetini artırıyor
- Önbellek isabetli istekler genelde 20 milisaniyeden kısa sürede işlenirken, eski diff gibi istekler sık sık 1–2 saniye sürüyor
- “Günde 8 milyon bot isteği”, “botlar bant genişliğinin %65’ini kullanıyor” gibi üst düzey metrikler sorunu olduğundan küçük gösteriyor
- Gerçek darboğaz çoğu zaman CPU kapasitesi; tuhaf sorgu parametreleri taşıyan bot isteklerinin işleme maliyeti normal isteklere göre sık sık 50–100 kat daha yüksek oluyor
Ortalama metriklerde görünmeyen trafik sıçramaları
- Aylık bot isteği yaklaşık 250 milyon, saniye başına ortalama yaklaşık 100 düzeyinde; ancak bu yalnızca uzun dönem ortalaması
- Kazıyıcılar kısa sürelerde saniyede 1.000’den fazla istek göndermeyi sık yapıyor ve bunu geleneksel DDoS saldırılarından ayırmak neredeyse imkânsız
- Uzun vadede botlar toplam CPU kullanımının yalnızca yaklaşık %50’sini oluşturuyor olsa bile, kötü niyetli trafik sıçramaları wiki yavaşlamalarının ve kesintilerinin yaklaşık %95’ine neden oluyor
Kimin yaptığını anlamanın zor olduğu yapı
- Trafiğe “yapay zeka kazıyıcısı” deniyor ama hepsi Google Chrome gibi göründüğü için gerçekte kimin sorumlu olduğunu ya da wiki verisini ne için kullandığını anlamak zor
- Olası aktörler arasında veri broker’ları, frontier lab’lerin yinelenen veri toplaması ya da konut proxy’lerine erişebilen bağımsız projeler bulunabilir
- Giriş eşiğinin gerçekte ne kadar düştüğü de belirsiz
- Daha iyi bir yöntem varsa, gerçek veri toplayıcılarla doğrudan iletişim kurup daha az verimsiz yollar bulmak istiyorlar
Şimdiye kadar işe yarayan önlemler
-
Cloudflare Challenge ve Anubis
- Web sitesini Cloudflare challenge ya da Anubis gibi araçların arkasına koymak, son 1 yılda internette yaygın biçimde kullanılan bir yöntem haline geldi
- Bir ölçüde etkili olsa da bazı botlar belirli dönemlerde challenge’ı düzenli olarak geçebiliyor
- Cloudflare ile bot geliştiricileri arasında görünmez bir silahlanma yarışı var gibi görünüyor; Cloudflare yaklaşık %90 oranında kazanıyor ama kalan %10 operasyon açısından zorlayıcı bir alan yaratıyor
- Gerçek okurlar wikiye ulaşmadan önce challenge görmeyi sevmiyor
- Çoğu insanı etkilememek için challenge’ın hangi trafiğe uygulanacağına karar veren iyi sezgisel kurallar gerekiyor; ancak otomatik trafiği güvenilir biçimde tespit etmek zaten başlı başına zor
-
Manuel güvenlik duvarı kuralları
- Çoğu işletmecinin kendi altyapısına ve geçmiş saldırılarına göre uyarlanmış manuel güvenlik duvarı kuralları var
- Bu filtreler genelde belirli User Agent dizgelerine, IP gruplarına veya ASN’lere dayanıyor
- Weird Gloop bunların çoğunu Cloudflare/CDN katmanında ele alıyor, başka wikiler ise bunu nginx ya da web sunucusu tarafında yapıyor
- Bugün User Agent/IP tek başına çoğu durumda yeterli olmuyor; HTTP sürümü, başlıklar, TLS cipher, ja4 ile ilişkili hash’ler gibi daha karmaşık istek özelliklerine bakmak gerekiyor
-
“İnsanların yaptığı ama botların yapmadığı şeyleri” bulmak
- Yararlı bir yaklaşım, insanların topluca yaptığı davranışlardan botların yapmadıklarını bulmak
- MediaWiki tabanlı wikilerde gerçek tarayıcı kullanıcıları wikiyi kullanırken sık sık birkaç farklı türde HTTP isteği üretiyor, botlar ise genelde bunu yapmıyor
- Başlıklar, ja4 hash’leri vb. ile ayrılabilen bir trafik kümesi çok sayıda makaleyi ziyaret ederken tipik “insan” isteklerini üretmiyorsa, bu o trafiğe challenge uygulamak için güçlü bir sinyal oluyor
- Bot trafiğinde bulunmayan insan davranışı isteklerine bakmak güçlü bir yöntem
- “Eksik” trafiği analiz ederek hangi trafiğe challenge uygulanacağına dair karar ağacı tabanlı sezgisel kuralları otomatik öneren bir sistem oluşturmaya başlanmış durumda
- Testlerde bunun neredeyse tüm kazıyıcıları iyi yakaladığı görüldü; ancak NoScript kullanıcıları, ekran okuyucu kullanıcıları ya da beklenmedik cihazlar kullanan kişiler gibi alışılmadık gezinme alışkanlıklarına sahip insanlarda ne tür yanlış pozitifler çıkacağı net değil
- Kendi ML/veri analizi altyapısını kurmak ve bunu kalıcı biçimde sürdürmek de ayrıca yük oluşturuyor
-
Daha egzotik tespit teknikleri
- TCP/TLS zamanlama uyumsuzlukları ile konut proxy’lerini tespit edip başarılı olan örnekler var
- Konut proxy IP’leri için gerçek zamanlı veritabanı satan şirketler de bulunuyor
- Ancak çoğu konut proxy’si aynı anda gerçek insanlar tarafından da kullanıldığı için bunun uygulanabilir bir engelleme sinyali olarak ne kadar yararlı olduğu belirsiz
- Cloudflare ya da büyük bulut sağlayıcıları gibi devasa trafik üzerinde paket düzeyi ağ bilgisine sahip aktörler, büyük ölçekte iyi sezgisel kurallar geliştirebilir gibi görünüyor
- Buna rağmen, yıllık maliyeti altı haneli rakamlara ulaşan ticari bot tespit ürünleri dahil olmak üzere, ticari ürünlerin sezgisel kurallarından etkilenen bir işletmeciyle karşılaşılmadı
Okurlar için kötü olan aşırı seçenekler
- Yapay zeka kazıyıcılarını durdurmak için kullanılan “nükleer seçenekler”, gerçek kullanıcılar için çok daha yıkıcı
- Yaygın yöntemlerden biri, üretilmesi maliyetli olabilecek sayfaları görmek için giriş yapma zorunluluğu getirmek
- Fandom birkaç ay önce tüm wikilerinde böyle bir önlem uyguladı
- Başka bir yöntem tüm trafiğe Cloudflare challenge sunmak
- Web yöneticisinin bakış açısından anlaşılır olsa da wiki ve topluluğun uzun vadeli sağlığı için kötü
- 16 yıldır wiki topluluğu inşa ederken öğrenilen temel ders şu: yeni katkıcı çekmenin en iyi yolu sürtünmeyi azaltmak
- Düzenlemeyi kolaylaştırmak, wiki içi yapının gezinmesini kolaylaştırmak ve okurla editör arasındaki giriş bariyerini düşürmek gerekiyor
- Aşırı anti-bot teknikleri yeni sürtünmeler yaratıyor ve öngörülebilir sonuçlar doğuruyor
- Fandom, hesapsız okurların %95’inden fazlasına “iç sayfaları” gizledikten sonra, Fandom genelinde yeni kullanıcı katkılarının yaklaşık %40 azaldığı görüldü
- Bu tür ödünleşimlerin değerli olduğunu düşünmek zor
İleriye dönük yön
- Weird Gloop hâlâ wiki barındırmayı sürdürüyor ve Fandom’dan ayrılmak isteyen wikilere yardım etmeye da devam ediyor
- Uzun vadede “AI Overviews”, wiki okurlarını wiki katkıcılarına dönüştüren hattı öldürebilir; ancak bu ayrı bir sorun olarak bırakılıyor
- Bazı tanıdıklar bot dalgasının Weird Gloop’un lehine olabileceğini düşünüyor, ancak insanlar kolayca wiki barındıramazsa internet daha kötü bir yer olur
- Wikileri istikrarlı biçimde barındırmak için nöbet rotasyonu, ML mühendisleri ve kurumsal ürünler gerektiren bir senaryo, bağımsız wiki toplulukları için çok kötü haber olur
- Bot sahipleri ile web yöneticileri arasındaki silahlanma yarışının, kazımanın yapısal teşviklerini değiştiren akıllı bir yöntem ortaya çıkana kadar sürmesi muhtemel
- Cloudflare’in yeni crawling API’si, botlar robots.txt’yi görmezden gelip sorun çıkaran kendi sistemlerini kurmak yerine API kullanmayı daha kolay bulursa dengeleri değiştirebilir
- Kazımanın hiç olmaması daha iyi olurdu, ancak yaşanmış olanı geri almak zor
Açık tartışma ve işbirliği ihtiyacı
- Binlerce işletmeci kendi web sitelerini yönetiyor ve botlarla başa çıkmak için daha akıllı teknikler arıyor
- Başka sistem yöneticileriyle yapılan özel konuşmalarda somut ve iyi fikirler çıktı; Slack, Discord ve küçük gruplar içinde de büyük olasılıkla çok sayıda tartışma dönüyor
- Gerçek operasyonel ayrıntılar üzerine daha fazla açık tartışma gerekiyor
- Birçok sistem yöneticisi yaşadığı sorunun başka işletmecilerin sorunlarıyla neredeyse aynı olduğunun yeterince farkında değil
- Herkes kendi savunma yöntemlerini açıklamak istemiyor; açıklandığında avantajın kaybolacağı endişesi de var
- Yine de insanların birlikte düşünmesine yardımcı olunabiliyorsa, bazı taktiklerin etkisini azaltma riski alınmaya değer
- Yapay zeka kazıyıcılarıyla uğraşan sistem yöneticileri, kendileri için işe yarayan yöntemleri uygun gördükleri alanlarda paylaşmalı
- Bot sorunu çözen ürünler satan şirketler, yapay olmayan koşullarda precision and recall oranlarına dair gerçek veriler içeren vaka çalışmalarını daha fazla yayımlamalı
- Satın alma kararı verenler için önemli olan kutucuk doldurmak değil, gerçek sonuçlar
- Wiki ya da bağımsız bir web sitesi işletiyor ve bot tespiti üzerine konuşmak istiyorsanız e-posta veya Discord mesajı ile iletişime geçebilirsiniz
2 yorum
Temelde GeekNews’a da çok sayıda crawler geliyor; bu yüzden çeşitli yöntemler devreye alıp bunları engelliyor ve maliyetleri optimize ediyoruz. Çin tarafındaki AI botları gerçekten son derece agresif şekilde crawl ediyor.
Ama bir yandan, CDN tarafında engelleme yapmaya çalışınca bunun da ek maliyet yaratması ayrı bir sorun.
Lobste.rs görüşleri
Anubis'in eksiklerini tamamlamak için bekleme kanıtı (proof-of-wait) challenge'ını denedim ve oldukça etkili oldu
Temelde, genel istek oranı eşik değerin altındaysa filtreyi kapatıyor, eşiği aşarsa kullanıcı devam etmeden önce N saniye bekletiyorum
Ardından o IP'ye bağlı bir token verip, süresi dolana kadar yalnızca az sayıda isteğe izin veriyorum; token'ın kendisine de hız sınırı uyguluyorum
Başarılı istekler gelmeye devam ettikçe bekleme süresi kademeli olarak artıyor
Oldukça başarılı oldu; mobil cihazları aşırı derecede dezavantajlı duruma düşürmeden yumuşak şekilde performans düşürüyor ve JavaScript olmadan da çalışıyor
Bunun TLS ya da hatta işletim sisteminin IP yığını gibi çok daha alt katmanlarda olması gerektiğini düşünüyorum
Bekleme kanıtını derinlemesine düşünmedim ama meşru kullanıcılar için bu, otomatik scraper'lardan daha kötü değil mi? İnsanlar beklemekten rahatsız olur ama scraper token'ı saklayıp N saniye sonra geri gelir
Proof-of-work konusunda da ikilemliyim ama en azından scraper'lara ölçekle orantılı gerçek bir maliyet yüklüyor
Bekleme kanıtı, proof-of-work konusunda endişeleri olan kişileri rahatlatabilir
Bazı özel sayfaları, bir kez giriş yapıp ilgili çerezi almış istemcilerle sınırlamak; aksi halde reddetmek de oldukça iyi çalışıyor
Çoğu crawler wiki'yi taramak için özel sayfaları hedeflediğinden, bunları giriş yapmış kullanıcılarla sınırlayabiliyorsunuz
Bu yapılandırmada wiki kullanıcı oluşturulmasına izin vermiyor
<If "%{REQUEST_URI} =~ m#^/wiki/index.php(?:/.)?$# && %{HTTP_COOKIE} !~ /[-a-zA-Z_]+UserID=/ && ( %{REQUEST_URI} =~ m#^/wiki/index.php/Special(?::|%3A)(MobileDiff|History|Contributions|CreateAccount|ExportTranslations|MessageGroupStats|LanguageStats|Translate|RecentChanges|Log|RecentChangesLinked|WhatLinksHere)(?:/.)?$#i || %{QUERY_STRING} =~ /(Special(%3A|:)(MobileDiff|History|Contributions|CreateAccount|ExportTranslations|MessageGroupStats|LanguageStats|Translate|RecentChanges|Log|RecentChangesLinked|WhatLinksHere)|action=(edit|history|info|pagevalues|purge|formedit)|oldid=)/i )">
ErrorDocument 403 "Erişim reddedildi, lütfen giriş yapın."
Require all denied
</If>
Bu sayede sistem yükümüz ciddi biçimde azaldı. Önceden özel sayfalar o kadar yoğun taranıyordu ki wiki'nin kullanılamaz hale geldiği zirveler sık yaşanıyordu
Bunun dışında, bilinen AI crawler user-agent'larını doğrudan 403 ile engelliyor, Alibaba ya da Amazon Cloud gibi belirli IP bloklarını da kapatıyoruz
İlginç olan, karşı tarafın bunu fark etmesi oldu. Diff görünümünden sayfaları tararken kısıtlayınca aynı şeyi MobileDiff görünümünden denediler
Birkaç tur gidip geldik ama birkaç aydır bu yöntemle sorunsuz ilerliyor
User-agent ile engellerseniz crawler, insan gibi görünen bir user-agent ile tekrar dener ve siteyi keşfetmeye başlar
Engelleme tetikleyicisinin user-agent olduğunu anlarsa cehennem moduna geçer; tespiti çok daha zorlaşır ve siteyi canı çıkana kadar döver
IP aralığı engelleme de yardımcı olur ama mobil kötü amaçlı yazılım proxy'leri üzerinden tarama yaptıkları için yeterli değildir ve hepsini yakalayamaz
Başta engellemezseniz genelde nispeten uslu kalırlar
Bu yüzden püf nokta engellemek yerine onlara ucuza üretilmiş çöp veri yedirmek ve cehennem modunu tetiklememektir; ben https://iocaine.madhouse-project.org/ kullanıyorum
Ancak o durumda yanıtları doğrudan MediaWiki'nin sunması gerekir; Apache'de halletmenin de avantajı var
Konudan biraz sapacağım ama Weird Gloop mükemmel bir hizmet. İşlettikleri wikilerin kalitesi çok yüksek ve hayran yapımı içeriği Fandom'un korkunç platformundan taşımak dünyaya faydalı bir iş
Gergely Nagy, a.k.a. algernon ve iocaine geliştiricisi bu sorunla bir süredir uğraşıyor; Weird Gloop için faydalı içgörülere sahip olma ihtimali yüksek
Bunu söylemekten hoşlanmıyorum ama insan davranışına göre ayarlama önerisi sonunda geri tepecek gibi geliyor
Botlar yakında sayfanın tüm statik varlıklarını da istemeye başlayacak ve bunun insanı ayırt eden davranışın parçası olduğu varsayılacak
İlginç bir oyun, Profesör Falken
Eğer scraper sıradan
<a href=...>bağlantılarını özyinelemeli biçimde takip ederek bu tür sayfalara ulaşıyorsa, geçmiş farkları gibi pahalı ve önbelleğe alınmayan sayfaları yalnızca<form method="POST" action=...>gönderimiyle erişilebilir yapıp nazikçe başka yöne yönlendirebilir miyiz diye düşünüyorumBöylece hiçbir şeyi engellememiş oluruz; hatta scraper açısından da neredeyse sonsuz tekrarlı bilgiyi özyinelemeli biçimde yutmamış olur, yani onun da lehine
Normal kullanıcılar da farkı neredeyse hiç hissetmeyebilir; emek/etki oranı fena görünmüyor. Anonim kullanıcılar için Anubis'ten daha iyi olabilir
Bu, scraper'ın
method="POST"olan HTTP formlarını göndermediği varsayımına dayanıyorEğer bu genel olarak doğru olmasaydı, AI scraper'ların anonim düzenlemeleri topluca gönderip Wikipedia içeriğini rastgele çöpe çevirdiğine dair manşetleri çoktan görmüş olurduk
Botların
<form method="GET">e de basıp basmayacağını merak ediyorum. Bu, önbellekle daha uyumlu olur ve crawler'dan ek mantık gerektirebilirBenim küçük blog trafiğimin %95'i Singapore ve China'dan gelen LLM scraper'larından oluşuyor
Aradan bunca yıl geçti de kimse IP'leri araştırıp iletişime geçilebilecek küçük bir ISP'ye ait tek bir IP bile bulamadı mı? O kullanıcıya ulaşıp bilgisayarı inceleyip inceleyemeyeceğini kibarca soran olmadı mı? Hangi yazılımın gerçekten tarama yaptığını kimse ortaya çıkaramadı mı?
Site yöneticileri bunu bile yapamıyorsa artık umursamak istemiyorum. Gerçek hayattaki o kirli insanlar arası temastan kaçınmak için bu kadar çabalarsanız elbette bot elde edersiniz
Ve konut tipi botnet üzerinde çalışan botlar bazen CAPTCHA ya da Anubis'i geçmeye yetecek hesaplama kaynağına zaten sahiptir
Sunucu tarafında kalıcı olarak kazanmak mümkün değil. Çünkü o bilgisayarın kullanıcısı da meşru trafik üretiyor
Bu yüzden uzaktan doğrulama istemiyorsanız o IP'lerin peşine düşmeniz gerekir
Dünyayı arabayla dolaşmanın yakıt maliyeti gibi pratik sorunları bir kenara bıraksanız bile bu devasa bir gezgin satıcı problemi haline geliyor
Birkaç bot yüzünden sistem yöneticisinin biraz daha uslu davranmaları için hafta sonu boyunca her yere araba sürmesi gerektiği fikri, özellikle çoğunun büyük ya da yabancı ISP'lerden geldiğini düşününce, sadece gülünç
Ne kullandığınızı merak ettiriyor
Hangi yazılımın tarama yaptığını mı soruyorsunuz? Biri bir sohbet botuna “bunu scrape eden bir şey yap” diyor ve her scraper ayrı ayrı üretiliyor
Aksi halde sadece soyut biçimde tüm evreni suçlamış olursunuz
Çoğu servis sağlayıcının, kendi IP'lerinin hangi web sitelerini scrape etmekte kullanıldığına zerre kadar aldırmadığını garanti ederim
Dahası, bu sağlayıcıların IP'ye bağlı adresi size vermeyeceğini de garanti ederim
Çok daha iyi sonuç veren şey, Alibaba, AWS gibi çeşitli sağlayıcılara ait ASN trafiğini topluca çöpe atmaktır
Bu her zaman uygulanabilir bir seçenek değil. Örneğin Atom feed'i olan bir blogunuz varsa feed okuyucuları da engelleyebilirsiniz
Ama birçok durumda çöp trafiğin %80'ini ortadan kaldırabiliyor
Bunun neden olduğunu bilen var mı? Özellikle neden ani sıçramalar olduğunu merak ediyorum
Doğru mu bilmiyorum ama en azından kulağa makul geliyor
Altyapıyı daha iyi anlamadan bir şey söylemek zor. Komuta-kontrol sınırları da olabilir
Eğer botnet DDoS için tasarlandıysa, mimarisi gereği ince taneli kontrol yeteneği zayıf olabilir