2022 itibarıyla en iyi web scraping aracı hangisi?
(news.ycombinator.com)HN’deki soruya verilen yanıtlar
- Playwright : JS çalıştırılması gereken web sayfaları arttığı için tarayıcı otomasyon araçları kullanışlı
- Beautiful Soup : çeşitli scraping uygulamaları geliştirmeye uygun bir Python paketi
- Shell’de cURL + pup(markup)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : web tarayıcısı tabanlı iş otomasyon aracı
- curl-impersonate : web sitelerini tarayıcı gibi getiren bir fork sürümü
- Helium : kullanımı daha kolay Selenium-Python
- undetected_chromedriver : CloudFlare bot kontrolünü geçen özelleştirilmiş Selenium Chromedriver
- estela : Kubernetes üzerinde çalışan elastic web scraping cluster
6 yorum
Puppeteer ekibinin Microsoft tarafından bünyeye katılmasıyla bunun doğrudan Playwright’a dönüştüğünü duydum.
Playwright ve Scrapy gibi araçlar, geliştirici tarafında bakımlarının iyi yapılması sayesinde iyi görünüyor.
Ben de kişisel olarak
scrapy-playwrighteklentisini çok kullanıyorum.Peppeteer görünmediğine göre çoğu kişi Playwright'a geçmiş gibi duruyor.
Yorumlarda da gerçekten kullanmış olanların çoğu, Playwright'ın iyi olduğunu söylüyor.
Benim oyum Playwright'a.
Sıklıkla Cloudflare'in HTMLRewriter'ını kullanıyorum.