LWN şimdiye kadarki en ciddi scraper saldırısına maruz kalıyor

(social.kernel.org)

1 puan yazan GN⁺ 2026-01-19 | 1 yorum | WhatsApp'ta paylaş

LWN.net, on binlerce adresten gelen büyük ölçekli scraping tabanlı DDoS saldırısı altında ve sitenin yanıt hızı düşmüş durumda
Jonathan Corbet, siteyi yapay zeka ile ilişkili scraper'lara karşı savunmak zorunda kaldıklarını belirtirken, okur erişimine engel koymak istemediğini ancak bunun gerekli hale gelebileceğini söyledi
Toplulukta, Bright Data gibi ticari veri toplama şirketlerinin saldırının arkasında olabileceği konuşulurken, birçok kullanıcı benzer trafik patlamaları yaşadığını bildirdi
Bazıları RSS aboneliği, statik site üretimi, LLM tarpit'i gibi yöntemlerle karşılık verirken, Azure, Google, AliCloud gibi büyük bulut IP'lerinden saldırı geldiğine dair örnekler de paylaşıldı
Bu olay, yapay zeka veri toplamanın web ekosisteminin istikrarı ve üreticilerin sürdürülebilirliği üzerindeki zararını ortaya koyan bir örnek olarak dikkat çekiyor

LWN.net'e yönelik büyük scraper saldırısı

Jonathan Corbet, LWN.net'in şimdiye kadar karşılaştığı en ciddi scraper saldırısı altında olduğunu açıkladı
- Saldırı, on binlerce IP adresini kullanan bir DDoS biçiminde gerçekleşiyor ve sitenin yanıt verebilirliğini düşürüyor
- "Yapay zeka ile ilişkili scraper'lardan LWN'i savunmak yapmak istemediğim bir iş" diyen Corbet, okur erişimine engel koyan önlemler almak istemediğini ancak bunun gerekli olabileceğini ifade etti
Corbet, saldırının failini belirleyemediklerini söylerken, Bright Data veya benzeri bir rakibin işin içinde olabileceğini dile getirdi
- Zaman zaman CPU yükünün ciddi seviyeye çıktığını, sunucuyu büyütebileceklerini ancak "özenle yazılmış makaleleri böyle kişilere yedirmek için para ödemek sinir bozucu" olduğunu söyledi

Topluluğun tepkileri ve önerileri

Tristan Colgate-McFarlane, arama motorlarının kopyalanmış içeriği öne çıkarması nedeniyle asıl üreticinin trafiğinin ve reklam gelirinin elinden alındığını belirtti
Birçok kullanıcı, yapay zeka scraper trafiğinde ani artış yaşadığını bildirdi
- Light Owl, kendi sitesindeki trafiğin normalin 20 katına çıktığını söyledi
- Ben Tasker, LLM tarpit'i robot tuzağıyla bazı istekleri engellediğini anlattı
Bazıları saldırıların Azure, Google, AliCloud gibi büyük bulut IP'lerinden geldiğini bildirdi
- Dec, mx alex tax1a ve David Gerard, sırasıyla MSFT, Google ve Ali IP aralıklarını engelleme örneklerini paylaştı

Karşı önlem seçenekleri tartışılıyor

Riku Voipio, abonelere özel sunucu (subscriber.lwn.net) kullanılmasını önerdi, ancak Corbet bunun yeni abonelerin gelmesini zorlaştırabileceği yanıtını verdi
Jani Nikula, yalnızca kayıtlı kullanıcılara erişim önerdi, fakat Corbet bunun da etkili olmayabileceğini; çünkü botların zaten hesap oluşturduğunu söyledi
trademark, önbellek verimini artırmak için içerik sharding'i önerdi, ancak Corbet sorunun önbellek olmadığını belirtti

Diğer site yöneticilerinin deneyim paylaşımları

Çeşitli yöneticiler benzer saldırı kalıpları bildirdi
- Dec, MSFT IP'lerinden PHP açık taramaları ve wp-admin giriş denemeleri geldiğini söyledi
- David Gerard, RationalWiki'de JavaScript tabanlı çerez doğrulaması ile savunma yaptıklarını, bunun Googlebot'un da engellenmesi gibi bir yan etkisi olduğunu anlattı
- Catherine (whitequark), yalnızca 404 yanıtlarını işleyerek bile sunucu yükünü hafiflettiğini belirtti

Topluluk içindeki algı

Bazıları "web gerçekten çöküyor" diyerek, yapay zeka scraping'inin web ekosisteminin çöküşünü hızlandırdığını eleştirdi
Ayush Agarwal, çekirdek topluluğunun da LLM kullanımının küçük sitelere zarar verdiği gerçeğini fark etmesi gerektiğini söyledi
Martin Roukala, "fazla ilgili olduğu için ortaya çıkan bir sorun" diyerek kendisiyle alay etti; buna Jani Nikula ise "scraper'lar bununla ilgilenmiyor" diye karşılık verdi

1 yorum

GN⁺ 2026-01-19

Hacker News görüşleri

Bu tür agresif scraperları kimin işlettiğini merak ediyorum
Eğer bunlar yapay zeka laboratuvarlarıysa, veri toplamak için aynı anda çok sayıda siteyi kazımak verimli olabilir ama itibar riskini göze alıp popüler siteleri aşırı yüklemenin nedenini anlamıyorum
- Bu tür durumlarda çoğu zaman teknik yetkinlik ya da özen eksikliği oluyor
  Muhtemelen yapay zekanın bizzat ürettiği scraper'ı üstünkörü test edip hemen yayına aldılar
  Üstelik kimliklerini bir residential IP provider üzerinden gizledikleri için itibar riski de yok
  OpenAI ya da Anthropic gibi büyük şirketler olsa bile, insanlar muhtemelen bunu da sineye çeker
- İlk başta OpenAI ya da Anthropic gibi büyük Amerikan şirketlerinden şüpheleniliyordu ama gerçekte web sayfalarını kazıyan kişisel yapay zeka ajanları giderek artıyor
  Claude Cowork gibi araçlarla kullanıcılar kendi crawler'larını doğrudan oluşturabiliyor; ben de NASA sitesini kazırken 404 sayfalarını bombardımana tutup geçici olarak engel yemiştim
  Sonuçta iyi niyetli kullanıcılar bile web trafik kalıplarını değiştiriyor
  İlgili istatistiklere Cloudflare AI Insights üzerinden bakılabilir
- Benim kişisel sitem de zaman zaman scraper'lar yüzünden felç oluyor
  OpenAI'nin GPTBot'u dışında çoğu daha önce adını bile duymadığım küçük şirketlerdi; bazıları User-Agent bilgisini bile gizliyordu
  Veri zaten Common Crawl'da varken neden tekrar kazıdıklarını anlamıyorum
- Muhtemelen biri Claude Code'a “LWN'nin tamamını arşivle” dedi
- LWN içinde çeşitli mailing list arşivleri de var; sebep bu olabilir
Yapay zekanın açık kaynak kodu sanki kendileri yazmış gibi yeniden satıp lisans etrafından dolanması büyük bir sorun
Sadece kod değil, diğer içerikleri de aynı şekilde kazıyorlar
- Ben eski DOS oyunlarıyla ilgili bir proje yapmıştım; Claude benim kodumu neredeyse aynen çekip başka bir lisansla yeniden üretmişti
  Sadece değişken adlarını biraz değiştirmiş, yapıysa aynı kalmıştı
  Bunu bir çalışan şirkette yapsa anında kovulur
  Ama yapay zeka yaptığında buna “fair use” deyip ahlaki meşruiyet iddia etmeleri tuhaf
- Sonuçta bu, adeta para aklamanın yeni sürümü olan fikri mülkiyet aklama haline geldi
- Yine de yapay zekanın bunu yapmasının hukuken kabul edilebilir olduğuna dair verilmiş bir mahkeme kararı yok; bunu sadece yapay zeka sektörü öne sürüyor
Bu scraping yalnızca yapay zeka veri toplama işi olmayabilir
FOSS siteleri sürekli saldırı altında ama bunun ekonomik mantığı yok
Belki de amaç teknoloji sektörü ya da açık kaynak topluluğunu bozup karıştırmaktır
- Niş oyun modlama toplulukları da aynı saldırıları aldı
  Kâr amacı gütmeyen projeler olmalarına rağmen DDOS seviyesinde trafik gelince sonunda giriş duvarı koymak zorunda kaldılar
- Muhtemelen veri bilimciler, yapay zekayla oluşturulmuş scraper'ların sitelere ne kadar sık vurduğunu pek umursamıyor
- Takip ettiğim bazı forumlar da sonunda giriş yapmadan okunamaz hale geldi
- Ben de küçük bir tarayıcı oyunu wiki'si işletiyorum; Claude ve OpenAI dahil sayısız bot çok agresif biçimde kazıyor
  Çoğu konut tipi IP kullanıyordu; sorun da galiba “internetteki her şey benimdir” diye düşünen insanlar
- Yerel odaklı hobi topluluklarında engellemeleri daha sert uygulayabilmek en azından bir avantaj
Blogum yeterince sıkıcı olduğu için scraping sorunu yaşamıyor
- Ama o blog sayesinde Git Brag diye bir şeyi ilk kez öğrendim; epey ilginç
- Eğer bir LLM'i sıkabiliyorsanız, bu başlı başına etkileyici bir başarıdır
“On binlerce adresin karıştığı bir DDOS saldırısı” denildiği gibi, saldırı aşırı derecede dağıtık
Küçük sitelere bile binlerce IP'den trafik yağıyor
- Bu saldırılar çoğunlukla residential proxy hizmetleri üzerinden yapılıyor
  BrightData bunun önde gelen örneklerinden biri; veri merkezi IP'lerinden daha pahalı ama engellenmesi zor
- git.ardour.org da 1 milyondan fazla IP'den gelen anlamsız git scraping ile karşı karşıya kaldı
- En cömert yorum, yapay zeka şirketlerinin CommonCrawl gibi alternatif kaynakları bilmeyip doğrudan kazıma yapması;
  en kötü yorumsa bunun sadece antisosyal geliştiricilerin düşüncesizce yazdığı botlar olması
- Bu saldırılara “Distributed Intelligence Logic Denial Of Service (DILDOS)” demek istiyorum
Residential proxy fiilen kötü amaçlı yazılım sayılmalı
Antivirüs tanımlarına eklenmeli ve uygulama mağazalarından da atılmalı
Bunun gerçekten yapay zeka eğitimi için scraping olup olmadığını merak ediyorum
Normal bir DDOS'tan ayırt edilemiyorsa bundan nasıl emin olunabilir ki?
- Ama LWN neredeyse 30 yıldır yayında ve yapay zeka crawl işlemlerinden önce DDOS yaşamamıştı
Görünüşe göre saldırı şimdilik durmuş
Ana sayfa da normal şekilde yükleniyor
Blog scraper'larını engellemek için JavaScript metotlarını ezerek sayfa içeriğini boşaltıyorum
Shadow DOM ile öğeleri gizlemek işi daha da zorlaştırabilir
Yalnız bu yöntemler Playwright ya da Selenium gibi test araçlarıyla ve arama motoru indekslemesiyle sorun çıkarıyor
- Ama bunun gerçekten işe yarayıp yaramadığı konusunda emin değilim
- Fonksiyonun çöp veri üretmesini sağlayıp botların kafasını karıştırmak da eğlenceli bir fikir
Bazıları “yapay zeka şirketleri rakip siteleri DDOS ile felç edip veriyi tekelleştirmeye çalışıyor” diyor
- Ama bu bana komplo teorisi gibi geliyor
- Bir tür ‘merdiveni itme’ stratejisi de olabilir
- Ama LWN zaten eski bir bülten sitesi; değerli veri neredeyse yok
  Böyle bir siteyi kazımanın yapay zekaya pek bir getirisi olmaz, hatta daha çok aşırı paranoya gibi duruyor

LWN şimdiye kadarki en ciddi scraper saldırısına maruz kalıyor

LWN.net'e yönelik büyük scraper saldırısı

Topluluğun tepkileri ve önerileri

Karşı önlem seçenekleri tartışılıyor

Diğer site yöneticilerinin deneyim paylaşımları

Topluluk içindeki algı

İlgili okumalar

1 yorum

Hacker News görüşleri