LWN şimdiye kadarki en ciddi scraper saldırısına maruz kalıyor
(social.kernel.org)- LWN.net, on binlerce adresten gelen büyük ölçekli scraping tabanlı DDoS saldırısı altında ve sitenin yanıt hızı düşmüş durumda
- Jonathan Corbet, siteyi yapay zeka ile ilişkili scraper'lara karşı savunmak zorunda kaldıklarını belirtirken, okur erişimine engel koymak istemediğini ancak bunun gerekli hale gelebileceğini söyledi
- Toplulukta, Bright Data gibi ticari veri toplama şirketlerinin saldırının arkasında olabileceği konuşulurken, birçok kullanıcı benzer trafik patlamaları yaşadığını bildirdi
- Bazıları RSS aboneliği, statik site üretimi, LLM tarpit'i gibi yöntemlerle karşılık verirken, Azure, Google, AliCloud gibi büyük bulut IP'lerinden saldırı geldiğine dair örnekler de paylaşıldı
- Bu olay, yapay zeka veri toplamanın web ekosisteminin istikrarı ve üreticilerin sürdürülebilirliği üzerindeki zararını ortaya koyan bir örnek olarak dikkat çekiyor
LWN.net'e yönelik büyük scraper saldırısı
-
Jonathan Corbet, LWN.net'in şimdiye kadar karşılaştığı en ciddi scraper saldırısı altında olduğunu açıkladı
- Saldırı, on binlerce IP adresini kullanan bir DDoS biçiminde gerçekleşiyor ve sitenin yanıt verebilirliğini düşürüyor
- "Yapay zeka ile ilişkili scraper'lardan LWN'i savunmak yapmak istemediğim bir iş" diyen Corbet, okur erişimine engel koyan önlemler almak istemediğini ancak bunun gerekli olabileceğini ifade etti
-
Corbet, saldırının failini belirleyemediklerini söylerken, Bright Data veya benzeri bir rakibin işin içinde olabileceğini dile getirdi
- Zaman zaman CPU yükünün ciddi seviyeye çıktığını, sunucuyu büyütebileceklerini ancak "özenle yazılmış makaleleri böyle kişilere yedirmek için para ödemek sinir bozucu" olduğunu söyledi
Topluluğun tepkileri ve önerileri
- Tristan Colgate-McFarlane, arama motorlarının kopyalanmış içeriği öne çıkarması nedeniyle asıl üreticinin trafiğinin ve reklam gelirinin elinden alındığını belirtti
- Birçok kullanıcı, yapay zeka scraper trafiğinde ani artış yaşadığını bildirdi
- Light Owl, kendi sitesindeki trafiğin normalin 20 katına çıktığını söyledi
- Ben Tasker, LLM tarpit'i robot tuzağıyla bazı istekleri engellediğini anlattı
- Bazıları saldırıların Azure, Google, AliCloud gibi büyük bulut IP'lerinden geldiğini bildirdi
- Dec, mx alex tax1a ve David Gerard, sırasıyla MSFT, Google ve Ali IP aralıklarını engelleme örneklerini paylaştı
Karşı önlem seçenekleri tartışılıyor
- Riku Voipio, abonelere özel sunucu (subscriber.lwn.net) kullanılmasını önerdi, ancak Corbet bunun yeni abonelerin gelmesini zorlaştırabileceği yanıtını verdi
- Jani Nikula, yalnızca kayıtlı kullanıcılara erişim önerdi, fakat Corbet bunun da etkili olmayabileceğini; çünkü botların zaten hesap oluşturduğunu söyledi
- trademark, önbellek verimini artırmak için içerik sharding'i önerdi, ancak Corbet sorunun önbellek olmadığını belirtti
Diğer site yöneticilerinin deneyim paylaşımları
- Çeşitli yöneticiler benzer saldırı kalıpları bildirdi
- Dec, MSFT IP'lerinden PHP açık taramaları ve
wp-admingiriş denemeleri geldiğini söyledi - David Gerard, RationalWiki'de JavaScript tabanlı çerez doğrulaması ile savunma yaptıklarını, bunun Googlebot'un da engellenmesi gibi bir yan etkisi olduğunu anlattı
- Catherine (whitequark), yalnızca 404 yanıtlarını işleyerek bile sunucu yükünü hafiflettiğini belirtti
- Dec, MSFT IP'lerinden PHP açık taramaları ve
Topluluk içindeki algı
- Bazıları "web gerçekten çöküyor" diyerek, yapay zeka scraping'inin web ekosisteminin çöküşünü hızlandırdığını eleştirdi
- Ayush Agarwal, çekirdek topluluğunun da LLM kullanımının küçük sitelere zarar verdiği gerçeğini fark etmesi gerektiğini söyledi
- Martin Roukala, "fazla ilgili olduğu için ortaya çıkan bir sorun" diyerek kendisiyle alay etti; buna Jani Nikula ise "scraper'lar bununla ilgilenmiyor" diye karşılık verdi
1 yorum
Hacker News görüşleri
Bu tür agresif scraperları kimin işlettiğini merak ediyorum
Eğer bunlar yapay zeka laboratuvarlarıysa, veri toplamak için aynı anda çok sayıda siteyi kazımak verimli olabilir ama itibar riskini göze alıp popüler siteleri aşırı yüklemenin nedenini anlamıyorum
Muhtemelen yapay zekanın bizzat ürettiği scraper'ı üstünkörü test edip hemen yayına aldılar
Üstelik kimliklerini bir
residential IP providerüzerinden gizledikleri için itibar riski de yokOpenAI ya da Anthropic gibi büyük şirketler olsa bile, insanlar muhtemelen bunu da sineye çeker
Claude Cowork gibi araçlarla kullanıcılar kendi crawler'larını doğrudan oluşturabiliyor; ben de NASA sitesini kazırken 404 sayfalarını bombardımana tutup geçici olarak engel yemiştim
Sonuçta iyi niyetli kullanıcılar bile web trafik kalıplarını değiştiriyor
İlgili istatistiklere Cloudflare AI Insights üzerinden bakılabilir
OpenAI'nin GPTBot'u dışında çoğu daha önce adını bile duymadığım küçük şirketlerdi; bazıları User-Agent bilgisini bile gizliyordu
Veri zaten Common Crawl'da varken neden tekrar kazıdıklarını anlamıyorum
Yapay zekanın açık kaynak kodu sanki kendileri yazmış gibi yeniden satıp lisans etrafından dolanması büyük bir sorun
Sadece kod değil, diğer içerikleri de aynı şekilde kazıyorlar
Sadece değişken adlarını biraz değiştirmiş, yapıysa aynı kalmıştı
Bunu bir çalışan şirkette yapsa anında kovulur
Ama yapay zeka yaptığında buna “fair use” deyip ahlaki meşruiyet iddia etmeleri tuhaf
Bu scraping yalnızca yapay zeka veri toplama işi olmayabilir
FOSS siteleri sürekli saldırı altında ama bunun ekonomik mantığı yok
Belki de amaç teknoloji sektörü ya da açık kaynak topluluğunu bozup karıştırmaktır
Kâr amacı gütmeyen projeler olmalarına rağmen DDOS seviyesinde trafik gelince sonunda giriş duvarı koymak zorunda kaldılar
Çoğu konut tipi IP kullanıyordu; sorun da galiba “internetteki her şey benimdir” diye düşünen insanlar
Blogum yeterince sıkıcı olduğu için scraping sorunu yaşamıyor
“On binlerce adresin karıştığı bir DDOS saldırısı” denildiği gibi, saldırı aşırı derecede dağıtık
Küçük sitelere bile binlerce IP'den trafik yağıyor
BrightData bunun önde gelen örneklerinden biri; veri merkezi IP'lerinden daha pahalı ama engellenmesi zor
en kötü yorumsa bunun sadece antisosyal geliştiricilerin düşüncesizce yazdığı botlar olması
Residential proxy fiilen kötü amaçlı yazılım sayılmalı
Antivirüs tanımlarına eklenmeli ve uygulama mağazalarından da atılmalı
Bunun gerçekten yapay zeka eğitimi için scraping olup olmadığını merak ediyorum
Normal bir DDOS'tan ayırt edilemiyorsa bundan nasıl emin olunabilir ki?
Görünüşe göre saldırı şimdilik durmuş
Ana sayfa da normal şekilde yükleniyor
Blog scraper'larını engellemek için JavaScript metotlarını ezerek sayfa içeriğini boşaltıyorum
Shadow DOM ile öğeleri gizlemek işi daha da zorlaştırabilir
Yalnız bu yöntemler Playwright ya da Selenium gibi test araçlarıyla ve arama motoru indekslemesiyle sorun çıkarıyor
Bazıları “yapay zeka şirketleri rakip siteleri DDOS ile felç edip veriyi tekelleştirmeye çalışıyor” diyor
Böyle bir siteyi kazımanın yapay zekaya pek bir getirisi olmaz, hatta daha çok aşırı paranoya gibi duruyor