4 puan yazan GN⁺ 2025-08-05 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Perplexity, tarama yasağı yönergelerini atlatmak için kimliğini gizleyen bir web crawler kullandı
  • robots.txt dosyasının göz ardı edilmesi ve IP, User Agent'ın sürekli değiştirilmesi gibi davranışlar tespit edildi
  • Yeni bir etki alanında yapılan deneyde, yasaklama ayarlarına rağmen Perplexity'nin site içeriğine eriştiği doğrulandı
  • Cloudflare, bu tür davranışları engellemek için Perplexity'yi resmi doğrulanmış bot listesinden çıkardı ve bot yönetimi kurallarını güncelledi
  • OpenAI gibi iyi niyetli bot işletmecileriyle karşılaştırıldığında, Perplexity'nin gizleme odaklı davranışı sorun olarak ortaya çıktı

Perplexity'nin Gizli Crawler Kullanımı Genel Bakışı

  • Perplexity, yapay zeka tabanlı bir yanıt motorudur ve önceki adımda web sitelerini resmi olarak bildirilen User Agent ile taradı
  • Ancak ağ engeline maruz kaldığında kimliğini gizlemek için User Agent'ını değiştirdi ve çeşitli ASN (Otonom Sistem Numarası)'lar aracılığıyla erişmeye çalıştı
  • Bu süreçte robots.txt dosyasının göz ardı edilmesi veya hiç istenmeden erişim girişimleri tespit edildi

Web Siteleri ve Crawler'lar Arasındaki Güven İlkeleri ve Sorunlu Davranışlar

  • İnternet, onlarca yıldır güven temeli üzerinde gelişti ve crawler'ların da şeffaflığa, amaç açıklığına ve net davranış kurallarına sahip olması kuralını içerir
  • Crawler'lar web sitesi sahiplerinin yönergelerini ve önceliklerini saygıyla karşılamalıdır; Perplexity'nin gözlemlenen davranışı bu ilkelerle çelişmektedir
  • Bu nedenle Cloudflare, Perplexity'yi resmi doğrulanmış bot listesinden çıkararak, gizli crawler'ları tespit ve engellemek için ek bot yönetim kuralları uyguladı

Deney ve Tespit Örnekleri

  • Cloudflare, Perplexity'nin tarama davranışını test etmek için bir yeni etki alanı oluşturdu
    • robots.txt ile otomatik erişimin tamamının yasaklandığı ve WAF kurallarının ek olarak ayarlandığı bir ortam hazırlandı
    • Perplexity'nin resmi User Agent'ı ve IP'si bloke edilmesine rağmen, yine de kimliğini gizleyerek site içeriği topladığı doğrulandı
  • Perplexity, hem resmi hem de gizli User Agent'larda içerik erişimi denedi; gizli olanı gerçek bir tarayıcı (Chrome) gibi davranıyordu
Tür User Agent örneği Günlük istek sayısı
Resmi Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20 milyon~25 milyon
Gizli Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3 milyon~6 milyon
  • Resmi IP aralığına girmeyen birden fazla IP ve ASN kullanılarak IP'ler sürekli değiştirilmiş ve engelleme politikaları aşılmaya çalışılmıştır
  • Bu nedenle on binlerce etki alanında ve milyonlarca istekte bu etkinlik tespit edilmiştir; Cloudflare, makine öğrenmesi ve ağ sinyallerini kullanarak ilgili crawler'ları etiketledi

Gizli Crawler'ların Atlatma Örnekleri ve Sınırları

  • Gizli crawler engellendiğinde Perplexity, yanıt üretmek için diğer web siteleri gibi dış kaynakları kullanmaya çalıştı
  • Ancak bu durumda içerik ayrıntısı kayda değer şekilde düştü

İyi Niyetli Bot Operatörleri Kriterleri ve OpenAI'nin En İyi Uygulamaları

  • İyi çalıştırılan bir botun şeffaflık, kimliğini netleştirme, faaliyet amacını açıkça paylaşma, her bir faaliyet için ayrı bot kullanımı ve site yöneticisi kurallarını (robots.txt vb.) takip etme ilkelerine sahip olması gerekir
  • OpenAI, resmi IP ve User Agent ile bot faaliyet amacını açıkça sağlar ve robots.txt'yi sıkı şekilde uygular
  • Gerçek bir deneyde de ChatGPT crawler'ı, disallow ayarı veya ağ engeli gördüğünde ek tarama girişimlerini durdurur
  • Web Bot Auth gibi standartlaşmış kimlik doğrulama yöntemlerini de aktif şekilde benimsiyor

Korunma Yöntemleri ve Müdahale

  • Perplexity'nin bildirilmeyen User Agent'larından kaynaklanan tüm taramalar Cloudflare bot yönetim sistemi tarafından tespit edilip engellenmektedir
  • Cloudflare'ın mevcut bot engelleme kuralları veya challenge kurallarını etkinleştiren müşteriler halihazırda korunuyor
  • Gizli crawler engelleme için yönetici kuralları tüm müşterilere (ücretsiz müşteriler dahil) sunulmuştur
  • Content Independence Day ilanından sonra 2,5 milyondan fazla web sitesi yapay zeka tarama yasağı politikasını uygulamaya koydu
  • Bot operatörlerinin gelişen atlatma denemelerine karşı Cloudflare da savunma sistemlerini ve teknolojilerini sürekli geliştiriyor

Politik Çabalar ve Geleceğe Dair Öngörü

  • Cloudflare, dünya genelindeki teknoloji ve politika uzmanlarıyla, IETF dâhil olmak üzere robots.txt genişletmelerinin standardizasyonu tartışmalarına aktif katılım göstermektedir
  • Güvenilir crawler kurallarını oluşturup, hızla değişen yapay zeka ve crawler ortamında şeffaflık ile uyumluluğu öne çıkaran bir yöne gidilmektedir

Henüz yorum yok.

Henüz yorum yok.