2021'de web scraping'in durumu
(mihaisplace.blog)-
Web scraping nedir?
-
Web scraping için başlıca framework'ler hangileri?
→ Python : Scrapy, Beautiful Soup, MechanicalSoup
→ JS : Cheerio, Puppeteer, Apify SDK
→ Java : Jaunt, jsoup
→ Ruby : Kimurai
→ PHP : Goutte
- Kurumsal düzeyde ücretli web scraping framework'leri
→ Scraper API : proxy rotasyonu, CAPTCHA çözme, anti-bot kontrolleri desteği
→ Apify : topluluk tarafından geliştirilen binlerce eklenti sunuyor
→ Parsehub : masaüstü uygulaması kullanan point-and-click tarzı no-code araç
→ Diffbot : web'den toplanan şirket/perakende/haber/pano/etkinlik vb. verilerden büyük veri/makine öğrenimi ile veri çıkarımını destekliyor
→ Octoparse : Parsehub gibi point-and-click tarzında. IP rotasyonu ve regex araçlarıyla veri temizleme, büyük ölçekli scraping vb. destekliyor
→ ScrapingBee : karmaşık özellikler sunan no-code araç
-
Python web scraping örneği : Beautiful Soup kullanımı
-
JavaScript (Node.js) örneği : Puppeteer ile Google araması
-
Web Scraping'de Yapılması ve Kaçınılması Gerekenler
→ yalnızca tek bir IP bağlantısı kullanın
→ crawling'i yoğun olmayan saatlerde yapın
→ sitenin ToS'una uyun
→ robots.txt kurallarına uyun
→ içeriği farklı bir şekilde sunmak için crawl ediyorsanız, basit bir kopya değil özgün bir çözüm olsun
→ GDPR / CCPA kurallarına uyun
1 yorum
Yazının alt kısmındaki "Web scraping is now legal" yazısına da göz atın.
Linkedin'in, analiz şirketi HiQ'nun crawling yapmasını engelleme talebiyle başvurduğu ancak ABD mahkemesi tarafından reddedilen bir örnektir.
https://medium.com/@tjwaterman99/…