52 puan yazan xguru 2026-03-10 | 3 yorum | WhatsApp'ta paylaş
  • Modern webin karmaşık yapısını ve anti-bot sistemlerini aşarak, tekil isteklerden büyük ölçekli crawling işlerine kadar işlem yapar
  • Web sitesi yapısı değiştiğinde öğeleri otomatik olarak yeniden bulan akıllı parser yerleşik olarak gelir
  • Cloudflare Turnstile gibi başlıca güvenlik sistemlerini varsayılan olarak aşan Fetcher modülü yerleşiktir
  • Spider framework'ü ile eşzamanlılık, oturum yönetimi, duraklatma/devam ettirme, proxy rotasyonu gibi büyük ölçekli crawling özelliklerini destekler
    • Scrapy benzeri API: start_urls, asenkron parse callback'leri ve Request/Response nesnelerini kullanır
    • Eşzamanlı crawling ve oturum ayrımı: Birden çok tarayıcı oturumu paralel olarak çalıştırılabilir
    • Checkpoint tabanlı duraklatma ve devam ettirme: Uzun süreli crawling işlerinde de kararlıdır
    • Gerçek zamanlı streaming modu: Toplanan veriler anında işlenebilir veya UI'a yansıtılabilir
    • Engellenen istekleri otomatik olarak algılar ve özel mantıkla yeniden deneme yapılabilir
    • Hook'lar ile sonuçları kendi pipeline'ınıza aktarabilirsiniz (JSON/JSONL)
  • Oturum desteği sunan gelişmiş web sitesi fetching
    • Fetcher sınıfı; HTTP/3, TLS fingerprint spoofing, header kamuflajı gibi gelişmiş istek özelliklerini destekler
    • DynamicFetcher ile Playwright/Chrome tabanlı tarayıcı otomasyonu gerçekleştirilir
    • StealthyFetcher, Cloudflare Turnstile gibi anti-bot korumalarını otomatik olarak aşar
    • ProxyRotator ile istek bazında proxy değiştirme ve alan adı engelleme kontrolü yapılabilir
    • Tüm Fetcher'lar asenkron (async) çalışır ve oturum sınıfları (FetcherSession, DynamicSession vb.) sunar
  • Uyarlanabilir scraping (Adaptive Scraping) ile web sitesi değiştikten sonra da öğeleri otomatik olarak yeniden bulur
    • Benzerlik tabanlı öğe izleme algoritması: Yapısal değişikliklere dayanıklı veri toplama sağlar
    • CSS/XPath/metin/regex tabanlı seçicilerin tamamını destekler
    • Yapay zeka entegrasyonu için yerleşik MCP sunucusu: Claude, Cursor vb. ile entegre olarak yapay zeka destekli veri çıkarımı yapar
      • Yapay zeka çağrısından önce Scrapling hedef içeriği ayıklayarak token kullanımını azaltır ve hızı artırır
  • Yüksek performanslı mimari
    • Çoğu Python scraping kütüphanesinden daha hızlı işlem sunar
    • Bellek verimli yapı ve lazy loading ile hafif çalışır
    • JSON serileştirme hızında 10 kat artış, %92 test kapsamı ve eksiksiz statik type hint'leri sunar
    • Çok sayıda web scraper topluluğunda sahada kanıtlanmıştır (battle-tested)
  • Geliştirici/web scraper dostu bir deneyim sunar
    • Etkileşimli Web Scraping Shell yerleşiktir: IPython tabanlı gerçek zamanlı keşif ve istek dönüştürme desteği sağlar
    • CLI komutları ile kod yazmadan URL scraping ve dosya çıkarımı yapılabilir
    • DOM gezinme API'si ile ebeveyn/kardeş/çocuk ilişkileri ve benzer öğe bulma işlevi sunar
    • Otomatik seçici oluşturucu ile kararlı CSS/XPath seçicileri otomatik üretilir
    • Scrapy/BeautifulSoup benzeri API: Mevcut kullanıcılar için tanıdık bir geliştirme deneyimi sağlar
    • PyRight/MyPy tabanlı statik analiz ve otomatik Docker image build'i ile dağıtım kolaylığını artırır
  • Performans benchmark'ları
    • Scrapling parser'ı Parsel/Scrapy'den biraz daha hızlıdır,
      BeautifulSoup4 (bs4) ile karşılaştırıldığında 700 kata kadar daha yüksek işlem hızı göstermiştir
    • Öğe benzerliği arama performansında da AutoScraper'a kıyasla 5 kattan fazla daha hızlı sonuç elde etmiştir
  • pip install scrapling ile kurulabilir veya
    tarayıcı dahil eksiksiz çalışma ortamı için Docker image sunar: docker pull pyd4vinci/scrapling
  • BSD-3-Clause lisansı

3 yorum

 
eyelove 2026-03-11

Yasal olarak sorun yok mu acaba??? İnternetteki bilgileri almanın sorun olmadığına dair bir şey görmüştüm ama..
Sitede taramayı engellemek için konan önlemleri aşarak okursanız bunun sakıncası olur mu merak ediyorum.

Sadece giriş yaptıktan sonra görüntülenen içerikler mi riskli acaba?

 
crawler 2026-03-10

> with FetcherSession(impersonate='chrome') as session: # Use latest version of Chrome's TLS fingerprint

İlginçmiş, ben bunu hep aratıp manuel olarak ekliyordum; böyle bir kütüphaneyi ilk kez görüyorum. Kullanışlı olacak gibi.

 
crawler 2026-03-10

Ama Cloudflare'ın nasıl aşıldığını merak ediyorum. Sanırım anlamak için koda bir bakmak gerekecek.