Web tarayıcı mimarisi
(velog.io)-
Şimdiye kadar internette sayısız kez tanıtılan web crawler'larının çoğu aslında birer 'scraper'; bunlara crawler demek pek doğru değil
-
Yazar, web crawler'ını tanımlayan makaleleri kısaca tanıtıyor
-
Crawler, internet dünyasında BFS ve DFS yapan bir uygulamadır.
-
Robots kuralları, bir şirketin imajını belirleyecek kadar önemli bir mesele olmasına rağmen bunu bilmeyen çok sayıda startup var.
4 yorum
Geçen yıl da bu kişinin yazısını okuyup neden bu kadar ters bir tavırla yaşadığını düşünmüştüm; gerçi biraz olsun düzelmiş mi, emin değilim.
Gerçekçi bakarsak, kelimenin tam anlamıyla arama motoru işleten büyük şirketlerde çalışanlar değilseniz...
Crawler kullansanız bile, text mining alanında İngilizce dışındaki dillerde ön işleme maliyeti yüksek olduğu için böyle bir crawler ile kaliteli veri çıkarmak zor; görüntü işleme alanında ise kaliteli dataset zaten bolken ayrıca crawler işletmek için bir neden yok. Ortada böyle iyi bir teori varken scraper'ların ortalığı kaplaması boşuna değil. Bunun nedeni, çok uğraşıp elde edilecek değerin düşük olması.
Bu kişinin sözünü ettiği kusursuz crawler, teoride iyi olabilir ama sonuçta yalnızca biraz daha yüksek olasılıkla veri çıkarmaktan ibaret; bu yüzden bugünlerde yapay zeka gibi alanlarda kullanması zor, elde tutması zor bir şey. Bakım maliyeti de ucuz değil, çıkarılan veri de kusursuz değil, yönetmesi de zor, hukuki sorun da çok. Kişi ya da şirketlerin tüm bunları hesaba katacağına, birkaç büyük siteye scraper çalıştırması daha ekonomik. İyi analiz edilip kurulmuş büyük bir site için yazılmış tek bir scraper, işe yaramaz 10 bin siteyi dolaşmaktan yüzlerce, binlerce kat daha ekonomik ve rahat. Tek bir crawler'ı geniş kapsamda "iyi" işletmek, yüksek lisans ve doktora sahip uzmanlar toplansa bile zordur. Üstelik crawler'ı izleyip mantığını da sürekli düzeltmek gerekirse daha da korkunç olur. Log'lar bile muazzam olacağından onları da dağıtık işlemek gerekecektir.
Elbette crawler'ın temel omurga olduğu ve önemli olduğu görüşüne doğal olarak katılıyorum ama böyle bir iddiayı ille de bir yıl boyunca scraper ile seviye ayrımı yaparak anlatmak gerekli miydi, emin değilim.
Şimdi dönüp bakınca da bu kişinin Scrapy'yi neden küçümsediğini anlayamıyorum. En azından seçenekler ya da eklentiler açısından gocolly'den çok daha fazla şeye sahip.
Tabii bu kişisel bakış açısına göre değişir ama ben de büyük veri toplama ekibinde çalışan biri olarak naçizane görüşümü bırakıyorum.
Katılıyorum.
Henüz tamamlanmamış bir yazı olduğu için galiba, sanki olması gereken bazı içerikler eksikmiş gibi görünen birkaç yer var.
Ortada yeniden ziyaret zamanlaması kısmında bahsedilen [Lambda Crawl], Effective Page Refresh Policies For Web Crawlers makalesine mi işaret ediyor? Bu anahtar kelimeyle arama yapınca, AWS’nin sunucusuz hizmeti Lambda ile tarama yapmaktan bahseden bir sürü sonuç çıkıyor. Oysa aşağıdaki kaynakça listesinde bu makale yok gibi görünüyor…
http://ilpubs.stanford.edu:8090/604/1/2003-44.pdf
Görünüşe göre bu makalede Tractable near-optimal policies for crawling yer alıyor.