Web tarayıcı mimarisi

chernobyl · 2021-05-26T12:34:09+09:00

Şimdiye kadar internette sayısız kez tanıtılan web crawler'larının çoğu aslında birer 'scraper'; bunlara crawler demek pek doğru değil Yazar, web crawler'ını tanımlayan makaleleri kısaca tanıtıyor Crawler, internet dünyasında BFS ve DFS yapan bir uygulamadır. Robots kuralları, bir şirketin imajını belirleyecek kadar önemli bir mesele olmasına rağmen bunu bilmeyen çok sayıda startup var.

(velog.io)

16 puan yazan chernobyl 2021-05-26 | 4 yorum | WhatsApp'ta paylaş

Şimdiye kadar internette sayısız kez tanıtılan web crawler'larının çoğu aslında birer 'scraper'; bunlara crawler demek pek doğru değil
Yazar, web crawler'ını tanımlayan makaleleri kısaca tanıtıyor
Crawler, internet dünyasında BFS ve DFS yapan bir uygulamadır.
Robots kuralları, bir şirketin imajını belirleyecek kadar önemli bir mesele olmasına rağmen bunu bilmeyen çok sayıda startup var.

4 yorum

youth 2021-05-27

Geçen yıl da bu kişinin yazısını okuyup neden bu kadar ters bir tavırla yaşadığını düşünmüştüm; gerçi biraz olsun düzelmiş mi, emin değilim.

Gerçekçi bakarsak, kelimenin tam anlamıyla arama motoru işleten büyük şirketlerde çalışanlar değilseniz...

Crawler kullansanız bile, text mining alanında İngilizce dışındaki dillerde ön işleme maliyeti yüksek olduğu için böyle bir crawler ile kaliteli veri çıkarmak zor; görüntü işleme alanında ise kaliteli dataset zaten bolken ayrıca crawler işletmek için bir neden yok. Ortada böyle iyi bir teori varken scraper'ların ortalığı kaplaması boşuna değil. Bunun nedeni, çok uğraşıp elde edilecek değerin düşük olması.

Bu kişinin sözünü ettiği kusursuz crawler, teoride iyi olabilir ama sonuçta yalnızca biraz daha yüksek olasılıkla veri çıkarmaktan ibaret; bu yüzden bugünlerde yapay zeka gibi alanlarda kullanması zor, elde tutması zor bir şey. Bakım maliyeti de ucuz değil, çıkarılan veri de kusursuz değil, yönetmesi de zor, hukuki sorun da çok. Kişi ya da şirketlerin tüm bunları hesaba katacağına, birkaç büyük siteye scraper çalıştırması daha ekonomik. İyi analiz edilip kurulmuş büyük bir site için yazılmış tek bir scraper, işe yaramaz 10 bin siteyi dolaşmaktan yüzlerce, binlerce kat daha ekonomik ve rahat. Tek bir crawler'ı geniş kapsamda "iyi" işletmek, yüksek lisans ve doktora sahip uzmanlar toplansa bile zordur. Üstelik crawler'ı izleyip mantığını da sürekli düzeltmek gerekirse daha da korkunç olur. Log'lar bile muazzam olacağından onları da dağıtık işlemek gerekecektir.

Elbette crawler'ın temel omurga olduğu ve önemli olduğu görüşüne doğal olarak katılıyorum ama böyle bir iddiayı ille de bir yıl boyunca scraper ile seviye ayrımı yaparak anlatmak gerekli miydi, emin değilim.

Şimdi dönüp bakınca da bu kişinin Scrapy'yi neden küçümsediğini anlayamıyorum. En azından seçenekler ya da eklentiler açısından gocolly'den çok daha fazla şeye sahip.

Tabii bu kişisel bakış açısına göre değişir ama ben de büyük veri toplama ekibinde çalışan biri olarak naçizane görüşümü bırakıyorum.

twince 2021-05-28

Katılıyorum.

kunggom 2021-05-26

Henüz tamamlanmamış bir yazı olduğu için galiba, sanki olması gereken bazı içerikler eksikmiş gibi görünen birkaç yer var.

Ortada yeniden ziyaret zamanlaması kısmında bahsedilen [Lambda Crawl], Effective Page Refresh Policies For Web Crawlers makalesine mi işaret ediyor? Bu anahtar kelimeyle arama yapınca, AWS’nin sunucusuz hizmeti Lambda ile tarama yapmaktan bahseden bir sürü sonuç çıkıyor. Oysa aşağıdaki kaynakça listesinde bu makale yok gibi görünüyor…

http://ilpubs.stanford.edu:8090/604/1/2003-44.pdf

chernobyl 2021-05-27

Görünüşe göre bu makalede Tractable near-optimal policies for crawling yer alıyor.

Web tarayıcı mimarisi

İlgili okumalar

4 yorum