Web’in bekçilere ihtiyacı yok: Cloudflare’ın yeni “Signed Agents” önerisi
(positiveblue.substack.com)- Cloudflare’ın Signed Agents politikası güvenliği gerekçe gösterse de, gerçekte web erişimini izinli hale getirmeye yönelik kapalı bir girişim
- Web tarihsel olarak açıklık ve standartlar sayesinde büyüdü; Flash ve Silverlight gibi kapalı teknolojiler sonunda HTML5 gibi açık standartlara yenilip ortadan kayboldu
- Gelecekte web’in başlıca kullanıcıları AI ajanları olacak; bunun için dağıtık ve doğrulanabilir kimlik doğrulama sistemi ile görev bazlı yetkilendirme gerekiyor
- Doğru model, zincir tabanlı yetki devri + istek bazlı kanıtı birleştirerek güvenilir kimlik doğrulama ve ayrıntılı yetki kontrolü sağlamaktır
- Anahtarların belirli bir şirketin elinde olması yerine, herkesin katılıp yenilik yapabileceği bir web’i açık protokoller ve standartlar aracılığıyla korumak gerekir
Cloudflare’ın Signed Agents önerisine eleştiri
- Cloudflare yeni bir Signed Agents sistemi önerdi, ancak bu fiilen izin listesi tabanlı erişim kontrolü anlamına geliyor
- Belirli bir şirketin bir ajanın kaydedilip kaydedilmeyeceğine karar vermesi, internet protokolü değil yalnızca bir tedarikçi onay mekanizmasıdır
- Bu, internetin açık doğasıyla çelişir; “form doldurup izin almak” bir standart olamaz
Web açık kalmalı
- Microsoft’un 90’lardaki “embrace and extend” stratejisi başarısız oldu; bu da web’in açıklığını korumuş olması sayesinde mümkün oldu
- Flash ve Silverlight gibi kapalı çalışma zamanları, sonunda HTML5 adlı açık standart tarafından yer değiştirildi
- Tarih, açık standartların yeniliği teşvik ettiğini defalarca kanıtladı
Ajan çağının gelişi
- AI ajanları gelecekte web’in temel kullanıcıları olacak ve bilgi arama, otomasyon, ödeme, sözleşme müzakeresi gibi işleri yürütecek
- İnsan ile ajanın eylemleri arasındaki sınır bulanıklaşacak; bu da yetki devrine dayalı bir kimlik doğrulama sistemini zorunlu kılıyor
Kimlik doğrulama (Authentication) ve yetkilendirme (Authorization)
- Kimlik doğrulama: Eylemi kim gerçekleştiriyor?
- Yetkilendirme: Ne yapabilir?
- Cloudflare bu iki kavramı karıştırıp tüm sorunları bir “pasaportla” çözmeye çalışıyor, ancak bu temelden imkansız
- Doğru kimlik doğrulama, yetki devri zinciri ve istek bazlı imzalar ile uygulanmalı; DNS tabanlı açık anahtar yayımı gibi dağıtık doğrulama mekanizmaları kullanılmalı
Yetki yönetimi
- Mevcut yazılımlarda sınırlı kapsam sayesinde OAuth scope modeli iyi çalıştı
- Ancak ajanlar genel amaçlı olduğundan görev bazlı (Task-Scoped) yetkilendirme gerekiyor
- Örneğin: “akşam yemeği ödemesi” yetkisi ile “3 aylık harcama geçmişini görüntüleme” yetkisi, aynı ajan için bile farklı token’lara sahip olmalı
- Bunun için Macaroons, Biscuits gibi kısıt tabanlı token’lar ve OPA/AWS Cedar gibi politika motorları kullanılabilir
Önce protokol, bekçileri dışarıda bırak
- Kimlik doğrulama, yetkilendirme ve gelir elde etme mekanizmaları belirli bir şirketin değil, açık ve birlikte çalışabilir standartların üzerinde kurulmalı
- Az sayıdaki şirket ajanların geçerliliğine karar verirse web hızla kapalı bir bahçeye (Walled Garden) dönüşür
- Bu nedenle zincir tabanlı yetki devri, istek bazlı kanıt ve görev kapsamlı yetkilendirme açık kaynak olarak öneriliyor ki herkes uygulayabilsin
Sonuç
- Web’in geleceği “kapıyı kimin kontrol ettiği”ne değil, herkesin birlikte inşa edip yenilik yapabileceği protokollere bağlı
1 yorum
Hacker News görüşü
Herkes tamamen özgür ve açık bir web hayal ediyor ama pratikte küçük bir blogu ya da içeriği olan birinin kendini AI eğitim botlarından korumasının neredeyse hiçbir yolu olmamasından hayal kırıklığı duyuyorum; Agent ile Training botlarını ayırıp
robots.txt'ye gerçekten saygı göstereceklerine inanmak gerçekçi değil.robots.txt'ye uysalar bile veriyi “licensed data” adı altında dolaylı olarak satın alma fikri devam ediyor. Reddit, X, Google, Meta gibi hukuki kaynakları neredeyse sınırsız şirketler değilseniz birey olarak bir gücünüz yok. Bununla ilgili ilginç bir video da tavsiye ederim.Herkesin istediği özgür ve açık web ile AI eğitim botlarını engelleme isteği birbiriyle çelişkili görünüyor. Herkese açık bir web ise, AI eğitim botları da istisnasız erişebilmelidir.
(Açık web hayali hakkında) İnternette açık içerik hayali aslında gerçek. Blogum herkese—insan ya da makine—özgürce erişilebilir. Sunucumu da evde kendim barındırdığım için insan ile AI'ı ayırma ihtiyacı duymuyorum. Bir web sitesine çok fazla ziyaretçi gelmesinden endişe ediyorsanız, aslında sorun insan ya da AI değil aşırı trafiğin kendisidir. Botların döngüye girmemesi için
robots.txtile asgari bir rehber bırakıyor, geri kalanında özgürce taramalarına izin veriyorum. Amazonbot da siteme sık sık uğruyor; her zaman hoş karşılanır.Düşmanca yazılıma karşı savaşan özgür yazılımlar geliştirmemiz gerektiğini düşünüyorum. Büyük şirketler düşmanca AI agent'ları geliştiriyorsa, buna karşı yetenekli hacker'lar da anti-AI-agent geliştirmeli. “Bizim gücümüz yok” şeklindeki yenilgici tavra katılmıyorum.
Buradaki Hacker News'te sayısız büyük IT şirketi mühendisi olmasına rağmen, kendi işlerinde mahremiyet ve veri yönetişimini ele almadan hep başka konularda ses yükseltmelerini eleştiriyorum. Öz eleştiri için bir ayna gerekiyorsa, ben almaya hazırım.
Küçük blogların ya da içeriklerin AI eğitim botlarından korunması gerektiği sorusunun neden ortaya çıktığını anlamıyorum. Eğer temel HTML üretmek bile zor olduğu için ağır ve karmaşık framework'ler kullanmak zorundaysanız ve bunun sonucu olarak CPU kaynağı çok tüketiliyorsa, asıl sorun budur. Ya da çevrimiçi yazılarınızın sizi içerik üreticisi olarak servet ve şöhrete götüreceğini düşünüyorsanız elbette endişelenebilirsiniz; ama durum bu değilse ortada gerçek bir sorun olduğunu düşünmüyorum.
Gerçekçi olmak gerekirse “web” zaten uzun zamandır açık değil. Etkileşimlerin, paylaşımların ve bilgi dolaşımının çoğu kimlik doğrulamasının arkasında gerçekleşiyor. Büyük sosyal ağlar, gazeteler ve benzerlerinin çoğu doğrulanmamış erişimi kısıtlıyor ya da engelliyor. Bloglar ise sıradan insanların tükettiği toplam bilginin çok küçük bir kısmını oluşturuyor.
Ben de AI Agent'ın kendisini dert etmiyorum. Arkasında gerçek bir kullanıcı varsa sorun değil. Ama Meta, Perplexity ve OpenAI'ın sitemi agresif biçimde taraması beni ciddi biçimde rahatsız ediyor. Gerçek kullanıcılardan ya da Google aramasından daha fazla kaynağı AI taraması tüketiyor. CPU çekirdeklerinin AI taramasına kilitlenmesi gerçekten sinir bozucu.
Benim de internette birkaç kişisel uygulamam var; geçen ay bir AI botu 1.6TB veri çektiği için Cloudflare AI bot korumasını açmak zorunda kaldım. Günde 1,3 milyondan fazla durmaksızın istek geliyordu ve başa çıkmak imkânsızdı.
Bazı pazarlama sitelerimde saniyede 200–300 istek geliyor. Hatta var olmayan URL'leri bile rastgele üretip çağırıyorlar; kontrol edilemez bir seviyede.
AI şirketlerinin web taraması yüzünden ne kadar CPU döngüsü harcattığını merak ediyorum. Genelde AI'ın çevresel etkisi denince yalnızca eğitim ya da servis inference'ı hesaba katılıyor ama web taramasının ek yükü de dikkate alınmalı. Sağlıklı bir karşılaştırma için, bir insan kullanıcı aynı işlemi doğrudan yapsaydı ne olurdu onunla kıyaslamak gerekir. Botlar, tracker, görsel ve benzeri ek unsurları minimumda tutup yalnızca hedef sorgu için gerekenleri çekmek üzere tasarlanırsa, insanlığın tamamının tarayıcıyla doğrudan ziyaret etmesinden daha az CPU yükü bile oluşturabilir.
Bende de durum aynı. Arkasında gerçek bir kullanıcı varsa ve anormal derecede aşırı erişmiyorsa AI agent kullanımına çok aldırmıyorum. (AI agent kullanımını özellikle amaçlamış değilim ama kimin nasıl kullandığı beni pek ilgilendirmiyor.) Ama aşırı taramayı sevmiyorum. Daha da önemlisi, birinin sadece
curlile bir dosya indirmesi ya da Lynx gibi metin tabanlı bir tarayıcı kullanması da mümkün. Böyle senaryoların da desteklenmeye devam etmesi gerektiğini düşünüyorum.Cloudflare, bir “kullanıcının denediği agent”ı izinli sayıp diğer agent'ları engelleyerek gerçek kullanıcı yerine eğitim verisi toplamak için yapılan ayrım gözetmeyen taramadan ayırıyor. Meta, Perplexity ve OpenAI'dan gelen isteklerin çoğu, gerçek kullanıcı istemlerine göre çalışan web arama özelliklerinden geliyor ve bunlar bir sonraki LLM modelinin eğitiminde kullanılmıyor. Cloudflare iki taraf arasındaki farkı bilerek belirsiz bırakıyor; resmî olarak “üreticiyi koruma” söylemini öne sürüyor ama gerçekte LLM sağlayıcılarından bir tür “geçiş ücreti” alıp kendi kârına çalışan bir sistem kuruyor. Sonuçta bunun motivasyonu adalet değil para gibi görünüyor.
Ben çok fazla kişisel veri sızdırmayan nadir bir tarayıcı kullanıyorum ama Cloudflare açısından ben de bottan farksız görünüyorum. Host'un (site sahibinin) erişim iznini belirlediği bir ortamda mahremiyetin olamayacağını düşünüyorum. Sunucu yükünü önlemek için rate limiting'e katılıyorum ama otomatik erişimi tamamen engellemek pratikte imkânsız; üstelik bu tür engeller sonunda gerçek kullanıcı erişimini de zorlaştırıyor.
Acaba şu anda Cloudflare ya da turnstile yüzünden sık sık engelleniyor musunuz, bunu merak ediyorum. Yukarıda ima ettiniz ama açıkça doğrulamak istedim.
Eğer otoriter bir ülkede yaşayan insanlar mahremiyet ve özgürlük için VPN kullanmak zorundaysa, internet 2-3 şirketin işlettiği bir captcha cehennemine dönüşür. Kendi yaptığım botla Cloudflare korumalı sitelere erişmeye çalıştığımdan daha fazla sorunu, VPN ve mahremiyet odaklı tarayıcıyla normal internette gezinirken yaşıyorum. Bu arada, web gatekeeping işi Microsoft'a kalsaydı çok daha kötü olurdu. Özellikle VPN kullanıp Microsoft'un captcha'sını geçmek için, makale yazacak kadar odaklanıp 5 dakikadan fazla uğraşmak gerekiyor.
Site sahibinin de elbette hakları var. İşletmenin finansal sürdürülebilirliği için gatekeeping seçmemelerini istemek aşırı bir talep olur.
Ben de nadir bir tarayıcı kullandığım için sık sık bot engelleyicilere takılıyorum. Ama host'un da isteklerimi istediği gibi ele alma hakkı olduğunu düşünüyorum. Özellikle devlet sitelerinin herkese adil hizmet verme sorumluluğu çok daha büyük.
Daha açık bir yaklaşım için iyi bir alternatif varsa duymak isterim. Ama şu anda Cloudflare'ın yaptığı şey AI botların yarattığı gerçek sorunu pratik biçimde çözüyor. Şimdiye kadar IP engelleme ya da user agent ile de durdurmayı denedik ama sınırları vardı. Ayrıca başka güvenlik sorunları da bugüne kadar böyle kısmen merkezi yöntemlerle çözüldü. Certificate authority sistemi de açık bir sistem değil, attestation sağlayıcıları da öyle değil ama yine de çalışıyorlar.
Daha açık bir çözüm istiyorsanız cevap regülasyon olabilir. Site sahibinin
robots.txtiçinde açıkça izin vermediği crawler isteklerini yasal olarak yasaklayıp bunu doğrudan kamu otoritesinin denetlemesini sağlayabilirsiniz. Eğer işletmeci bot trafiğini kanıtlarsa devlete bildirim yapıp büyük para cezaları kestirebilir. Bulut hizmet sağlayıcıları, hangi IP'yi kimin kullandığına dair kayıt tutmaya zorlanabilir. %100 çözüm değildir ama iyi uygulanırsa güçlü bir caydırıcılık sağlar.Bu yaklaşım en iyi çözüm olmayabilir ama pratikte bir ölçüde işe yarayan bir çözüm. Merkezileşme eleştirileri çok ama Cloudflare başlıca AI şirketlerini ve CDN'leri dahil etmeyi başarırsa fiilen standart haline gelebilir diye düşünüyorum.
Sertifikalar, insanı bot sanıp engellemez.
Bence AI poisoning, yani veriye kasıtlı olarak yanlış bilgi karıştırıp AI'ı bozmak, daha etkili bir koruma olabilir. Cloudflare'ın kendisi bile AI botlara bilerek yanlış veri verme hizmeti sunabilir.
Aslında CA'ler, Let's Encrypt çıkana kadar çoğu zaman sadece sıradan şirket sitelerinde, üstelik onların da bazı giriş sayfalarında kullanılıyordu. Eğer Let's Encrypt'in açık politikası olmasaydı kişisel verilerimiz hâlâ ISP'lere ya da aradaki aktörlere açık olacaktı. Attestation sağlayıcıları da cihaz açıkları yaygın olarak bilinse bile ticari kararlar yüzünden sertifikayı iptal etmeyi reddedecek kadar etkisiz kalabiliyor. Sonuç olarak çoğu tartışmada gerçek bir alternatif bulunamıyor gibi. Cloudflare'ın internetin gatekeeper'ı olması kötü bir çözüm ama asıl sorun çok daha ciddi. Tamamen dağıtık çözümler aslında zaten var (ör. remote attestation, ücretli ziyaret/abonelik modelleri, self-hosted firewall'lar). AI'ın yan etkilerini görmezden gelip sadece maliyeti ödeyin yaklaşımı, Cloudflare'ın daha da büyümesinin nedenlerinden biri oldu. Eğer ISP'ler ve benzerleri spoofing, DDoS, botnet gibi sorunları görmezden gelmemiş olsaydı Cloudflare bugün ancak Akamai benzeri bir rakip olarak kalırdı.
Zaten aşırı fazla gatekeeper olan bir dünyada yaşıyoruz. Buna eklenecek her yeni gatekeeper girişimi saldırgan bir davranış olarak görülmeli. Cloudflare ve Google da kendi gatekeeper konumlarını daha da güçlendirmeye çalışıyor. Bu eğilim sürerse ikisinin de tamamen çöktüğünü görmek isterim.
Pek çok şirket AI bot sorununa çözüm üretmeye çalışıyor ve eğer Cloudflare seçilirse muazzam gelir elde edecek. Ama Cloudflare geri çekilse sorun ortadan kalkmayacak; yalnızca başka bir şirketin kötü alternatifi benimsenmiş olacak. Gatekeeping aslında site sahibinin kendi tercihiyle seçtiği bir seçenek (ör. paywall, kendi bot tespiti, kimlik doğrulama vb.). Cloudflare zaten bu hizmetleri sunuyor ve eğer standartlaşırsa seçenekler artar, pazar da genişler (yan etkileriyle birlikte). Gerçek anlamda açık web özgürlüğü yalnızca ziyaretçiler için değil, site sahipleri için de aynı şekilde geçerli olmalı.
Google'ın geleceğin gatekeeper'ı olma “arzusu” abartılı bir ifade. Google zaten yıllardır Chrome tarayıcı pazar payı sayesinde gatekeeper rolünü oynuyor. Firefox'un etkisi de iyice azaldı. Google'ın tüm www'yi istediği yöne sürüklediği görüşündeyim (
uBlockyasağı,.webpformatını dayatma vb.).Tek bir şirketin işlettiği allowlist'i sorun etmeden önce, aslında site sahiplerinin bu hizmeti kendi iradeleriyle seçtiği gerçeği var. İlginç olan, “adalet” üzerine ideolojik konuşmalar yapılırken bloglarda AI araçlarıyla yapılmış çizgi romanlar paylaşılması gibi, gündelik hayatta AI'ın zaten derin biçimde yer etmiş olması.
Cloudflare, gelişmekte olan Web Bot Auth standardını uyguluyor ve biz de Stytch olarak IsAgent.dev üzerinde aynı standardı kullanıyoruz. Mevcut tartışma biraz fazla hararetli olduğu için dikkatli konuşuyorum ama sonuçta allowlist, Cloudflare'ın müşterilerine sunduğu bir seçenekten ibaret; HTTP Message Signature gibi çekirdek kısımlar ise açık/dağıtık biçimde tasarlandığı için herkes tarafından kullanılabilir.
Tek bir şirketin allowlist'ini kendi tercihinizle kullanmanızda büyük bir sorun yok ama bu tek başına onu bir protokol yapmaz. Ayrıca adalet tartışmasıyla AI çizgi roman kullanımı arasında mantıksal bir bağlantı da görünmüyor.
Kötünün iyisi gibi görünen bir durumda, belirli bir şirketin çözümünün fiilen herkese dayatılan bir standart haline gelmesi riski var. Bu aslında gerçek bir protokol/standart tabanlı çözüm üretmek için fırsat olabilirdi ama Cloudflare kendi mavi okyanusunu yaratmaya çalışıyor. Ayrıca “adalet” savunulurken pratikte hayatın her yerine AI'ın sokulmuş olması da ince bir ironi olarak işaret ediliyor.
Bunu e-posta yapısına benzetiyorum. E-posta internet standartlarına dayanıyor ama kullanıcıların çoğu Gmail gibi çok az sayıdaki servis sağlayıcıda toplanmış durumda. Cloudflare da açık standartların kendisini öne sürüyor ama gerçek gücü dev müşteri tabanından geliyor. (İyi bir alternatifin ne olduğu da soruluyor.) Ayrıca e-postada spam filtreleme yüzünden teslimat güvenilirliğinin düşük ve uygulamanın zor olması gibi, web de benzer bir yola girebilir.
Web; attestation, signed agent ya da Cloudflare'ın kimin “gerçek” agent olduğuna karar vermesini istemiyor. Herkesin “public” kelimesinin anlamını yeniden hatırlaması ve trafik yönetimi zorlaşırsa sadece temel rate limiting uygulaması en doğrusu olur. Web'in insan mı, bot mu, köpek mi diye ayırt etmesine gerek yok; makul kaynak sınırları içinde talepte bulunan herkese bayt sunması yeterli. Bu “açık web” özünün kaybolmasına herkes üzülür.
Temel rate limiting bile saldırılara açık. Botnet'leri de yok sayamazsınız ve IPv6'ya geçtikçe işe yarar bir rate limiting fiilen imkânsız hale geliyor. Bucket'ları yanlış belirlerseniz bazı ağ işletmecileri /48 aralıklarını çok kolay veriyor ve limit etkisiz kalıyor; öte yandan mobil kullanıcılar yüz binlerce kişi tek bir rate limit'e takılabiliyor.
Bu yaklaşım, sonunda çok sayıda küçük web sitesine “trafiği kaldıramıyorsanız kapatın” demekle aynı şey. “Açık internet” sloganıyla çelişiyor.
Güncel AI crawler'lar artık kötü niyetli botnet'lerden ayırt edilemez hale geldi. Normal rate limiting artık anlamını yitirdi ve Cloudflare'ın sorunu çözmeye çalışmasının nedeni de tam olarak bu.
“Public, PUBLIC demektir” argümanı kulağa hoş geliyor; temel rate limiting ile işletilebilse iyi olurdu ama pratikte kabul edilebilir erişim hızını açıkça belirtip yayımlamanız gerekir. Yine de çoğu durumda sırf
user-agentfarklı diye tek bir istekten sonra bile engelleme yaşanıyor. Sonuçta işletmeciler bot davranışına değil kimliğe bakarak istekleri engellemeye yatkın. Ölçütler çok kaba olduğu için yanlış pozitifler üretiyorlar ve böyle durumlarda girişimin ya da bağlamın ne olduğuna hiç bakmadan sadece kimliğe göre karar veriliyor.Temel rate limiting'i bile uygulamak çoğu zaman kolay değil. Belirli bir kimlik doğrulama/yetki devri gerektiren durumlar dışında, herkese açık dosya erişimi için ayrıca kimlik doğrulama ya da yetki devri gerekmediğini düşünüyorum. Böyle bir yetki devri meselesi olsa bile, bunun içine devreden taraf dışında Cloudflare gibi üçüncü tarafların girmesine gerek yok.
Yazarın görüşlerine büyük ölçüde katılıyorum. Kurumsal ortamda, karmaşık özel ağlarda agent davranışını nasıl kontrol edeceğimiz önemli bir mesele. Yakın zamanda biscuit tabanlı bir “identity token” sistemi yaptım. Bu token ile önce kendiniz kimlik kazanıyor, sonra bir delegation token üreterek alt agent'lara da verebiliyorsunuz. Benim sistemimde authorization token olmadan hiçbir şey yapılamıyor (tek kapsam, tek kullanım mantığı). İnternette ise identity token + küçük ödeme (ör. çok küçük bir kripto işlem) karşılığında authorization token verilmesini hayal ediyorum. Böylece insan kullanıcılar için maliyet neredeyse sıfır olurken, yoğun tarama yapan AI crawler'lar ödeme yapmak zorunda kalır.