7 puan yazan GN⁺ 2024-04-28 | Henüz yorum yok. | WhatsApp'ta paylaş

Here is a summary of the key points from the article in Korean, formatted as a markdown bullet list:

Büyük Ölçekli Scraping Altyapısı Kurmak

  • AWS Lambda üzerinde Headless Chrome çalıştırarak Google SERP sonuçlarını haftada milyonlarca kez scrape etmek
    • Lambda fonksiyonunu 3 kez çağırınca yeni bir public IP alınabiliyor
    • 1000 Lambda fonksiyonu aynı anda çağrılırsa yaklaşık 250 public IP kullanılabiliyor
    • 16 bölge kullanılırsa yaklaşık 4000 public IP adresi kullanılabiliyor
  • Ancak bu yöntem yalnızca Google, Bing, Amazon gibi sitelerde çalışıyor. DataDome, Akamai, Imperva gibi anti-bot çözümleri kullanan sitelerde çalışmıyor
  • Anti-bot çözümleri; tarayıcı fingerprinting, yalan tespiti, insandan farklı davranış algılama gibi çeşitli teknikler kullanıyor
  • Bot tespitinden kaçınmanın zor olmasının nedeni, çoğunun Docker ya da Kubernetes ile bulutta çalıştırılması

Tespit Edilmesi Zor, Ölçeklenebilir Bir Scraping Altyapısı Önerisi

  • 5 üreticiden 500 adet ucuz Android cihaz satın almak
  • Ucuz veri tarifeleri kullanmak, cihazları DeviceFarmer/stf ile kontrol etmek
  • Londra, Paris, Boston, Frankfurt, LA gibi 5 büyük şehrin her birine 100'er cihaz yerleştirmek
  • Hafif Android Go kurmak, her 5 dakikada bir uçak modunu kapatıp açarak IP adresini değiştirmek
  • 4G/5G/LTE mobil IP'leri engellenemez. Çok sayıda kullanıcı tarafından paylaşıldığı için Instagram bile LA'deki 200 bin kişiyi engelleyemez
  • Cihaz yönü, hareket gibi event'leri kernel seviyesinde manipüle etmek gerekiyor

İyileştirme: Android Emülasyonu

  • Android-x86 on VirtualBox, Bluestacks, Android Studio gibi emülatörleri kullanmak
  • Ancak çok sayıda emülasyon tespit tekniği var (tarayıcı tabanlı red-pill, adb port taraması, reklam ID'si tespiti, sosyal giriş tespiti vb.)
  • 4G dongle'ları sunucuya bağlayıp Android emülatöründe doğrudan kullanmak
  • 5 büyük şehrin her birine, 50 dongle bağlı güçlü scraping sunucularından 1'er tane yerleştirmek
  • Her sunucuda 50~100 Android emülatörü çalıştırmak
  • Basit bir komut kontrol sunucusuyla 5 scraping istasyonunu koordine etmek

GN⁺ Görüşü

  • Gerçek cihaz kullanımı, yönetim maliyeti yüksek ve ölçeklenebilirlik açısından sınırlı görünüyor. Emülatör kullanımı daha gerçekçi bir alternatif olabilir.
  • Ancak emülatör tespit teknikleri de sürekli gelişiyor; bu yüzden yalnızca emülatör kullanmanın güvenli olacağı söylenemez. Sürekli güncelleme ve iyileştirme gerekecektir.
  • 4G/5G mobil IP kullanmak iyi bir fikir. Ancak operatörlerin belirli cihazları engellemesi veya tarifeleri değiştirmesi ihtimali de göz ardı edilemez.
  • Veri merkezi IP'lerini kullanmaktan kaçınmanın yanı sıra, insan benzeri davranış kalıpları oluşturmak da bot tespitinden kaçınmaya yardımcı olabilir. Otomasyonla büyük ölçekli toplama yerine, sınırlı concurrency ile yavaş yavaş toplama yaklaşımı düşünülebilir.
  • Multilogin veya GoLogin gibi ticari anti-detection browser çözümlerini kullanmak da düşünülebilir. Ancak lisans maliyeti sorunu vardır.

Henüz yorum yok.

Henüz yorum yok.