26 puan yazan xguru 2021-10-05 | 1 yorum | WhatsApp'ta paylaş
  • Web scraping nedir?

  • Web scraping için başlıca framework'ler hangileri?

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

  • Kurumsal düzeyde ücretli web scraping framework'leri

→ Scraper API : proxy rotasyonu, CAPTCHA çözme, anti-bot kontrolleri desteği

→ Apify : topluluk tarafından geliştirilen binlerce eklenti sunuyor

→ Parsehub : masaüstü uygulaması kullanan point-and-click tarzı no-code araç

→ Diffbot : web'den toplanan şirket/perakende/haber/pano/etkinlik vb. verilerden büyük veri/makine öğrenimi ile veri çıkarımını destekliyor

→ Octoparse : Parsehub gibi point-and-click tarzında. IP rotasyonu ve regex araçlarıyla veri temizleme, büyük ölçekli scraping vb. destekliyor

→ ScrapingBee : karmaşık özellikler sunan no-code araç

  • Python web scraping örneği : Beautiful Soup kullanımı

  • JavaScript (Node.js) örneği : Puppeteer ile Google araması

  • Web Scraping'de Yapılması ve Kaçınılması Gerekenler

→ yalnızca tek bir IP bağlantısı kullanın

→ crawling'i yoğun olmayan saatlerde yapın

→ sitenin ToS'una uyun

→ robots.txt kurallarına uyun

→ içeriği farklı bir şekilde sunmak için crawl ediyorsanız, basit bir kopya değil özgün bir çözüm olsun

→ GDPR / CCPA kurallarına uyun

1 yorum

 
xguru 2021-10-05

Yazının alt kısmındaki "Web scraping is now legal" yazısına da göz atın.

Linkedin'in, analiz şirketi HiQ'nun crawling yapmasını engelleme talebiyle başvurduğu ancak ABD mahkemesi tarafından reddedilen bir örnektir.

https://medium.com/@tjwaterman99/…