- Perplexity, tarama yasağı yönergelerini atlatmak için kimliğini gizleyen bir web crawler kullandı
- robots.txt dosyasının göz ardı edilmesi ve IP, User Agent'ın sürekli değiştirilmesi gibi davranışlar tespit edildi
- Yeni bir etki alanında yapılan deneyde, yasaklama ayarlarına rağmen Perplexity'nin site içeriğine eriştiği doğrulandı
- Cloudflare, bu tür davranışları engellemek için Perplexity'yi resmi doğrulanmış bot listesinden çıkardı ve bot yönetimi kurallarını güncelledi
- OpenAI gibi iyi niyetli bot işletmecileriyle karşılaştırıldığında, Perplexity'nin gizleme odaklı davranışı sorun olarak ortaya çıktı
Perplexity'nin Gizli Crawler Kullanımı Genel Bakışı
- Perplexity, yapay zeka tabanlı bir yanıt motorudur ve önceki adımda web sitelerini resmi olarak bildirilen User Agent ile taradı
- Ancak ağ engeline maruz kaldığında kimliğini gizlemek için User Agent'ını değiştirdi ve çeşitli ASN (Otonom Sistem Numarası)'lar aracılığıyla erişmeye çalıştı
- Bu süreçte robots.txt dosyasının göz ardı edilmesi veya hiç istenmeden erişim girişimleri tespit edildi
Web Siteleri ve Crawler'lar Arasındaki Güven İlkeleri ve Sorunlu Davranışlar
- İnternet, onlarca yıldır güven temeli üzerinde gelişti ve crawler'ların da şeffaflığa, amaç açıklığına ve net davranış kurallarına sahip olması kuralını içerir
- Crawler'lar web sitesi sahiplerinin yönergelerini ve önceliklerini saygıyla karşılamalıdır; Perplexity'nin gözlemlenen davranışı bu ilkelerle çelişmektedir
- Bu nedenle Cloudflare, Perplexity'yi resmi doğrulanmış bot listesinden çıkararak, gizli crawler'ları tespit ve engellemek için ek bot yönetim kuralları uyguladı
Deney ve Tespit Örnekleri
- Cloudflare, Perplexity'nin tarama davranışını test etmek için bir yeni etki alanı oluşturdu
- robots.txt ile otomatik erişimin tamamının yasaklandığı ve WAF kurallarının ek olarak ayarlandığı bir ortam hazırlandı
- Perplexity'nin resmi User Agent'ı ve IP'si bloke edilmesine rağmen, yine de kimliğini gizleyerek site içeriği topladığı doğrulandı
- Perplexity, hem resmi hem de gizli User Agent'larda içerik erişimi denedi; gizli olanı gerçek bir tarayıcı (Chrome) gibi davranıyordu
| Tür |
User Agent örneği |
Günlük istek sayısı |
| Resmi |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20 milyon~25 milyon |
| Gizli |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3 milyon~6 milyon |
- Resmi IP aralığına girmeyen birden fazla IP ve ASN kullanılarak IP'ler sürekli değiştirilmiş ve engelleme politikaları aşılmaya çalışılmıştır
- Bu nedenle on binlerce etki alanında ve milyonlarca istekte bu etkinlik tespit edilmiştir; Cloudflare, makine öğrenmesi ve ağ sinyallerini kullanarak ilgili crawler'ları etiketledi
Gizli Crawler'ların Atlatma Örnekleri ve Sınırları
- Gizli crawler engellendiğinde Perplexity, yanıt üretmek için diğer web siteleri gibi dış kaynakları kullanmaya çalıştı
- Ancak bu durumda içerik ayrıntısı kayda değer şekilde düştü
İyi Niyetli Bot Operatörleri Kriterleri ve OpenAI'nin En İyi Uygulamaları
- İyi çalıştırılan bir botun şeffaflık, kimliğini netleştirme, faaliyet amacını açıkça paylaşma, her bir faaliyet için ayrı bot kullanımı ve site yöneticisi kurallarını (robots.txt vb.) takip etme ilkelerine sahip olması gerekir
- OpenAI, resmi IP ve User Agent ile bot faaliyet amacını açıkça sağlar ve robots.txt'yi sıkı şekilde uygular
- Gerçek bir deneyde de ChatGPT crawler'ı, disallow ayarı veya ağ engeli gördüğünde ek tarama girişimlerini durdurur
- Web Bot Auth gibi standartlaşmış kimlik doğrulama yöntemlerini de aktif şekilde benimsiyor
Korunma Yöntemleri ve Müdahale
- Perplexity'nin bildirilmeyen User Agent'larından kaynaklanan tüm taramalar Cloudflare bot yönetim sistemi tarafından tespit edilip engellenmektedir
- Cloudflare'ın mevcut bot engelleme kuralları veya challenge kurallarını etkinleştiren müşteriler halihazırda korunuyor
- Gizli crawler engelleme için yönetici kuralları tüm müşterilere (ücretsiz müşteriler dahil) sunulmuştur
- Content Independence Day ilanından sonra 2,5 milyondan fazla web sitesi yapay zeka tarama yasağı politikasını uygulamaya koydu
- Bot operatörlerinin gelişen atlatma denemelerine karşı Cloudflare da savunma sistemlerini ve teknolojilerini sürekli geliştiriyor
Politik Çabalar ve Geleceğe Dair Öngörü
- Cloudflare, dünya genelindeki teknoloji ve politika uzmanlarıyla, IETF dâhil olmak üzere robots.txt genişletmelerinin standardizasyonu tartışmalarına aktif katılım göstermektedir
- Güvenilir crawler kurallarını oluşturup, hızla değişen yapay zeka ve crawler ortamında şeffaflık ile uyumluluğu öne çıkaran bir yöne gidilmektedir
Henüz yorum yok.