1 puan yazan GN⁺ 2026-01-19 | 1 yorum | WhatsApp'ta paylaş
  • LWN.net, on binlerce adresten gelen büyük ölçekli scraping tabanlı DDoS saldırısı altında ve sitenin yanıt hızı düşmüş durumda
  • Jonathan Corbet, siteyi yapay zeka ile ilişkili scraper'lara karşı savunmak zorunda kaldıklarını belirtirken, okur erişimine engel koymak istemediğini ancak bunun gerekli hale gelebileceğini söyledi
  • Toplulukta, Bright Data gibi ticari veri toplama şirketlerinin saldırının arkasında olabileceği konuşulurken, birçok kullanıcı benzer trafik patlamaları yaşadığını bildirdi
  • Bazıları RSS aboneliği, statik site üretimi, LLM tarpit'i gibi yöntemlerle karşılık verirken, Azure, Google, AliCloud gibi büyük bulut IP'lerinden saldırı geldiğine dair örnekler de paylaşıldı
  • Bu olay, yapay zeka veri toplamanın web ekosisteminin istikrarı ve üreticilerin sürdürülebilirliği üzerindeki zararını ortaya koyan bir örnek olarak dikkat çekiyor

LWN.net'e yönelik büyük scraper saldırısı

  • Jonathan Corbet, LWN.net'in şimdiye kadar karşılaştığı en ciddi scraper saldırısı altında olduğunu açıkladı

    • Saldırı, on binlerce IP adresini kullanan bir DDoS biçiminde gerçekleşiyor ve sitenin yanıt verebilirliğini düşürüyor
    • "Yapay zeka ile ilişkili scraper'lardan LWN'i savunmak yapmak istemediğim bir iş" diyen Corbet, okur erişimine engel koyan önlemler almak istemediğini ancak bunun gerekli olabileceğini ifade etti
  • Corbet, saldırının failini belirleyemediklerini söylerken, Bright Data veya benzeri bir rakibin işin içinde olabileceğini dile getirdi

    • Zaman zaman CPU yükünün ciddi seviyeye çıktığını, sunucuyu büyütebileceklerini ancak "özenle yazılmış makaleleri böyle kişilere yedirmek için para ödemek sinir bozucu" olduğunu söyledi

Topluluğun tepkileri ve önerileri

  • Tristan Colgate-McFarlane, arama motorlarının kopyalanmış içeriği öne çıkarması nedeniyle asıl üreticinin trafiğinin ve reklam gelirinin elinden alındığını belirtti
  • Birçok kullanıcı, yapay zeka scraper trafiğinde ani artış yaşadığını bildirdi
    • Light Owl, kendi sitesindeki trafiğin normalin 20 katına çıktığını söyledi
    • Ben Tasker, LLM tarpit'i robot tuzağıyla bazı istekleri engellediğini anlattı
  • Bazıları saldırıların Azure, Google, AliCloud gibi büyük bulut IP'lerinden geldiğini bildirdi
    • Dec, mx alex tax1a ve David Gerard, sırasıyla MSFT, Google ve Ali IP aralıklarını engelleme örneklerini paylaştı

Karşı önlem seçenekleri tartışılıyor

  • Riku Voipio, abonelere özel sunucu (subscriber.lwn.net) kullanılmasını önerdi, ancak Corbet bunun yeni abonelerin gelmesini zorlaştırabileceği yanıtını verdi
  • Jani Nikula, yalnızca kayıtlı kullanıcılara erişim önerdi, fakat Corbet bunun da etkili olmayabileceğini; çünkü botların zaten hesap oluşturduğunu söyledi
  • trademark, önbellek verimini artırmak için içerik sharding'i önerdi, ancak Corbet sorunun önbellek olmadığını belirtti

Diğer site yöneticilerinin deneyim paylaşımları

  • Çeşitli yöneticiler benzer saldırı kalıpları bildirdi
    • Dec, MSFT IP'lerinden PHP açık taramaları ve wp-admin giriş denemeleri geldiğini söyledi
    • David Gerard, RationalWiki'de JavaScript tabanlı çerez doğrulaması ile savunma yaptıklarını, bunun Googlebot'un da engellenmesi gibi bir yan etkisi olduğunu anlattı
    • Catherine (whitequark), yalnızca 404 yanıtlarını işleyerek bile sunucu yükünü hafiflettiğini belirtti

Topluluk içindeki algı

  • Bazıları "web gerçekten çöküyor" diyerek, yapay zeka scraping'inin web ekosisteminin çöküşünü hızlandırdığını eleştirdi
  • Ayush Agarwal, çekirdek topluluğunun da LLM kullanımının küçük sitelere zarar verdiği gerçeğini fark etmesi gerektiğini söyledi
  • Martin Roukala, "fazla ilgili olduğu için ortaya çıkan bir sorun" diyerek kendisiyle alay etti; buna Jani Nikula ise "scraper'lar bununla ilgilenmiyor" diye karşılık verdi

1 yorum

 
GN⁺ 2026-01-19
Hacker News görüşleri
  • Bu tür agresif scraperları kimin işlettiğini merak ediyorum
    Eğer bunlar yapay zeka laboratuvarlarıysa, veri toplamak için aynı anda çok sayıda siteyi kazımak verimli olabilir ama itibar riskini göze alıp popüler siteleri aşırı yüklemenin nedenini anlamıyorum

    • Bu tür durumlarda çoğu zaman teknik yetkinlik ya da özen eksikliği oluyor
      Muhtemelen yapay zekanın bizzat ürettiği scraper'ı üstünkörü test edip hemen yayına aldılar
      Üstelik kimliklerini bir residential IP provider üzerinden gizledikleri için itibar riski de yok
      OpenAI ya da Anthropic gibi büyük şirketler olsa bile, insanlar muhtemelen bunu da sineye çeker
    • İlk başta OpenAI ya da Anthropic gibi büyük Amerikan şirketlerinden şüpheleniliyordu ama gerçekte web sayfalarını kazıyan kişisel yapay zeka ajanları giderek artıyor
      Claude Cowork gibi araçlarla kullanıcılar kendi crawler'larını doğrudan oluşturabiliyor; ben de NASA sitesini kazırken 404 sayfalarını bombardımana tutup geçici olarak engel yemiştim
      Sonuçta iyi niyetli kullanıcılar bile web trafik kalıplarını değiştiriyor
      İlgili istatistiklere Cloudflare AI Insights üzerinden bakılabilir
    • Benim kişisel sitem de zaman zaman scraper'lar yüzünden felç oluyor
      OpenAI'nin GPTBot'u dışında çoğu daha önce adını bile duymadığım küçük şirketlerdi; bazıları User-Agent bilgisini bile gizliyordu
      Veri zaten Common Crawl'da varken neden tekrar kazıdıklarını anlamıyorum
    • Muhtemelen biri Claude Code'a “LWN'nin tamamını arşivle” dedi
    • LWN içinde çeşitli mailing list arşivleri de var; sebep bu olabilir
  • Yapay zekanın açık kaynak kodu sanki kendileri yazmış gibi yeniden satıp lisans etrafından dolanması büyük bir sorun
    Sadece kod değil, diğer içerikleri de aynı şekilde kazıyorlar

    • Ben eski DOS oyunlarıyla ilgili bir proje yapmıştım; Claude benim kodumu neredeyse aynen çekip başka bir lisansla yeniden üretmişti
      Sadece değişken adlarını biraz değiştirmiş, yapıysa aynı kalmıştı
      Bunu bir çalışan şirkette yapsa anında kovulur
      Ama yapay zeka yaptığında buna “fair use” deyip ahlaki meşruiyet iddia etmeleri tuhaf
    • Sonuçta bu, adeta para aklamanın yeni sürümü olan fikri mülkiyet aklama haline geldi
    • Yine de yapay zekanın bunu yapmasının hukuken kabul edilebilir olduğuna dair verilmiş bir mahkeme kararı yok; bunu sadece yapay zeka sektörü öne sürüyor
  • Bu scraping yalnızca yapay zeka veri toplama işi olmayabilir
    FOSS siteleri sürekli saldırı altında ama bunun ekonomik mantığı yok
    Belki de amaç teknoloji sektörü ya da açık kaynak topluluğunu bozup karıştırmaktır

    • Niş oyun modlama toplulukları da aynı saldırıları aldı
      Kâr amacı gütmeyen projeler olmalarına rağmen DDOS seviyesinde trafik gelince sonunda giriş duvarı koymak zorunda kaldılar
    • Muhtemelen veri bilimciler, yapay zekayla oluşturulmuş scraper'ların sitelere ne kadar sık vurduğunu pek umursamıyor
    • Takip ettiğim bazı forumlar da sonunda giriş yapmadan okunamaz hale geldi
    • Ben de küçük bir tarayıcı oyunu wiki'si işletiyorum; Claude ve OpenAI dahil sayısız bot çok agresif biçimde kazıyor
      Çoğu konut tipi IP kullanıyordu; sorun da galiba “internetteki her şey benimdir” diye düşünen insanlar
    • Yerel odaklı hobi topluluklarında engellemeleri daha sert uygulayabilmek en azından bir avantaj
  • Blogum yeterince sıkıcı olduğu için scraping sorunu yaşamıyor

    • Ama o blog sayesinde Git Brag diye bir şeyi ilk kez öğrendim; epey ilginç
    • Eğer bir LLM'i sıkabiliyorsanız, bu başlı başına etkileyici bir başarıdır
  • “On binlerce adresin karıştığı bir DDOS saldırısı” denildiği gibi, saldırı aşırı derecede dağıtık
    Küçük sitelere bile binlerce IP'den trafik yağıyor

    • Bu saldırılar çoğunlukla residential proxy hizmetleri üzerinden yapılıyor
      BrightData bunun önde gelen örneklerinden biri; veri merkezi IP'lerinden daha pahalı ama engellenmesi zor
    • git.ardour.org da 1 milyondan fazla IP'den gelen anlamsız git scraping ile karşı karşıya kaldı
    • En cömert yorum, yapay zeka şirketlerinin CommonCrawl gibi alternatif kaynakları bilmeyip doğrudan kazıma yapması;
      en kötü yorumsa bunun sadece antisosyal geliştiricilerin düşüncesizce yazdığı botlar olması
    • Bu saldırılara “Distributed Intelligence Logic Denial Of Service (DILDOS)” demek istiyorum
  • Residential proxy fiilen kötü amaçlı yazılım sayılmalı
    Antivirüs tanımlarına eklenmeli ve uygulama mağazalarından da atılmalı

  • Bunun gerçekten yapay zeka eğitimi için scraping olup olmadığını merak ediyorum
    Normal bir DDOS'tan ayırt edilemiyorsa bundan nasıl emin olunabilir ki?

    • Ama LWN neredeyse 30 yıldır yayında ve yapay zeka crawl işlemlerinden önce DDOS yaşamamıştı
  • Görünüşe göre saldırı şimdilik durmuş
    Ana sayfa da normal şekilde yükleniyor

  • Blog scraper'larını engellemek için JavaScript metotlarını ezerek sayfa içeriğini boşaltıyorum
    Shadow DOM ile öğeleri gizlemek işi daha da zorlaştırabilir
    Yalnız bu yöntemler Playwright ya da Selenium gibi test araçlarıyla ve arama motoru indekslemesiyle sorun çıkarıyor

    • Ama bunun gerçekten işe yarayıp yaramadığı konusunda emin değilim
    • Fonksiyonun çöp veri üretmesini sağlayıp botların kafasını karıştırmak da eğlenceli bir fikir
  • Bazıları “yapay zeka şirketleri rakip siteleri DDOS ile felç edip veriyi tekelleştirmeye çalışıyor” diyor

    • Ama bu bana komplo teorisi gibi geliyor
    • Bir tür ‘merdiveni itme’ stratejisi de olabilir
    • Ama LWN zaten eski bir bülten sitesi; değerli veri neredeyse yok
      Böyle bir siteyi kazımanın yapay zekaya pek bir getirisi olmaz, hatta daha çok aşırı paranoya gibi duruyor