2021'de web scraping'in durumu

(mihaisplace.blog)

26 puan yazan xguru 2021-10-05 | 1 yorum | WhatsApp'ta paylaş

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

→ Scraper API : proxy rotasyonu, CAPTCHA çözme, anti-bot kontrolleri desteği

→ Apify : topluluk tarafından geliştirilen binlerce eklenti sunuyor

→ Parsehub : masaüstü uygulaması kullanan point-and-click tarzı no-code araç

→ Diffbot : web'den toplanan şirket/perakende/haber/pano/etkinlik vb. verilerden büyük veri/makine öğrenimi ile veri çıkarımını destekliyor

→ Octoparse : Parsehub gibi point-and-click tarzında. IP rotasyonu ve regex araçlarıyla veri temizleme, büyük ölçekli scraping vb. destekliyor

→ ScrapingBee : karmaşık özellikler sunan no-code araç

→ yalnızca tek bir IP bağlantısı kullanın

→ crawling'i yoğun olmayan saatlerde yapın

→ sitenin ToS'una uyun

→ robots.txt kurallarına uyun

→ içeriği farklı bir şekilde sunmak için crawl ediyorsanız, basit bir kopya değil özgün bir çözüm olsun

→ GDPR / CCPA kurallarına uyun

1 yorum

xguru 2021-10-05

Yazının alt kısmındaki "Web scraping is now legal" yazısına da göz atın.

Linkedin'in, analiz şirketi HiQ'nun crawling yapmasını engelleme talebiyle başvurduğu ancak ABD mahkemesi tarafından reddedilen bir örnektir.