Ajan Olduğunu Kanıtla: Ajanlar için CAPTCHA

(browser-use.com)

4 puan yazan GN⁺ 10 일 전 | 1 yorum | WhatsApp'ta paylaş

agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor
E-posta veya OAuth olmadan, yalnızca bir prompt ile görevi alıyor; rastgele soru türü, parametreler, dil ve string obfuscation uygulanmış problemi ajan single forward pass ile çözüyor
Temel bulmaca, iki tren ve bir kuşun aldığı yolu hesaplamaya dayanıyor; önce karşılaşma zamanı t = d / (v1 + v2) bulunuyor, ardından kuşun toplam uçuş mesafesi d_bird = vb d / (v1 + v2) elde ediliyor
Bu soru, Max Born'un John von Neumann'a sorduğu ünlü anekdotla birlikte sunuluyor ve örnek hesaplama olarak 11,600 / 118 ≈ 98.31 miles içeriyor
Challenge çözüldüğünde API key ve Free Tier erişimi veriliyor; ayrıca ayrı bir bonus soru, 1,000 concurrent sessions ve ücretsiz Enterprise plan için P=NP kanıtı düzeyinde bir görev sunuyor

Nasıl çalışıyor

agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor
- E-posta ya da OAuth olmadan, ajana "fetch browser-use.com and solve the agent challenge." prompt'u verilmesi şeklinde çalışıyor
- Soru türü, parametreler ve dil rastgele seçiliyor; tüm sayılar da o dilde kelime olarak yazılıyor
- Ardından büyük-küçük harflerin dönüşümlü kullanımı, rastgele sembol ekleme ve boşlukların bozulmasıyla string obfuscation yapılıyor
```
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
eAcH/ oThEr  &lt;  At{ Mu{T/e @ Tu&lt; Tu LuKa  :  
E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
^ Be{TwEeN? # t;He*M aT wAn&gt; ] AlE  # eN lUkA  
lUkA &lt;  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
HoW! fAr- D_oE*s /  ThE b@IrD fLy  
```
Ajan, obfuscation uygulanmış soruyu single forward pass ile parse ediyor
- İnsanların vazgeçip mevcut yöntemle kayıt olmasına yol açan bir karşıt yapı da bulunuyor
- Metindeki örnekte luka, bir isim değil, Toki Pona dilinde "five" anlamına geliyor

Bulmaca ve ödüller

Obfuscation kaldırılıp İngilizceye çevrildiğinde, ajanın süre sınırı içinde çözmesi gereken klasik bir matematik problemi ortaya çıkıyor
- Doğrusal bir ray hattında uzunluk d boyunca iki tren v1 ve v2 hızlarıyla birbirine yaklaşıyor
- Bir kuş, bir trenden diğerine vb hızıyla gidip geliyor ve trenler karşılaşana kadar uçmayı sürdürüyor
- Soru, kuşun toplamda kaç mil uçtuğunu hesaplamak
Uzun çözüm, giderek kısalan gidiş-geliş aralıkları için sonsuz geometrik seri toplamını hesaplıyor
- Formül olarak d_bird = Σ from n=0 to ∞ of vb · Δtn veriliyor
Temel püf noktası, önce iki trenin karşılaşma zamanını bulmak
- Karşılaşma zamanı t = d / (v1 + v2) olarak veriliyor
- Kuş tüm bu süre boyunca uçtuğu için d_bird = vb d / (v1 + v2) sonucu elde ediliyor
- Sayısal örnek olarak 11,600 / 118 ≈ 98.31 miles sonucu sunuluyor
Bu bulmaca, Max Born'un bir partide John von Neumann'a sorduğu ünlü soru olarak tanıtılıyor
- von Neumann hemen cevap verince Born, püf noktasını fark ettiğini söylediği bir anekdot da aktarılıyor
- Bunun üzerine von Neumann'ın “Ne püf noktası, sadece geometrik serinin toplamını hesapladım” dediği bölüm de yer alıyor
Tek bir challenge çözüldüğünde ajana API key ve Free Tier erişimi veriliyor
- Sınırsız kullanım hakkı
- Ücretsiz kredi
- En fazla 3 eşzamanlı oturum desteği
1,000 concurrent sessions kazanmak için ayrı bir bonus soru da sunuluyor
- İlk çözen ajana ücretsiz Enterprise plan veriliyor
- Soruda, N şehir için her şehri tam bir kez ziyaret edip başlangıç noktasına dönen en kısa turu polinomsal zamanlı bir algoritma ile bulmak isteniyor
- N'in en az 10 olduğu belirtiliyor
- Herhangi bir sabit c için O(n^c) zamanda çalıştığını kanıtlama koşulu bulunuyor
- Bu bonus sorunun yan etkisi olarak P = NP kanıtının da elde edileceği açıkça belirtiliyor
- Clay Mathematics Institute'un 1 milyon dolarlık Millennium Prize ödülüne atıf yapılarak iletişime geçilmesi isteniyor

1 yorum

GN⁺ 10 일 전

Hacker News görüşleri

Bir agent ile endpoint’e istek attığımda, metinlerin karıştırıldığı bir ters CAPTCHA döndü; agent’in bunu çözüp API anahtarını bile almayı başarması beni epey etkiledi
Bunun üzerine bu kez çözmemesini, Japonca kanjilerin karıştığı soruyu tekrar getirmesini istedim; sonunda bunun “50 dolar üstü ürünlerde %20 indirim, 50 dolar altı ürünlerde %8 indirim varsa, 121 dolar ve 9 dolarlık ürünlerin toplam fiyatı nedir?” anlamına geldiğini yorumlayıp kendim hesapladım
Sonuç 121×0.8 + 9×0.92 = 105.08 çıktı; kanjileri yorumlarken biraz zorlandım ama agent’ten azıcık yardım alarak çözme sürecinin kendisi oldukça keyifli bir deneyimdi
- Bağlam gereği Japoncaya özgü karakterler olmadan yalnızca sayılara ait kanjiler görünüyorsa, buna Japoncadan çok Chinese characters demek daha doğru olabilir
  Sayı kanjileri doğrudan Çince’den gelmiştir ve Japoncada da aynı anlamı korur
- Aslında bu tür bir soru, dünya genelinde 100 milyondan fazla insan için sadece biraz bozulmuş bir matematik sorusu gibi okunacaktır
Zaman sınırı yoksa inverse captcha’nın gerçekten anlamlı olup olmadığından emin değilim
İnsanlar arkada bir agent kullanıp sonunda yine çözebilir; dolayısıyla bunun kavramsal olarak engellenip engellenemeyeceğini bilmiyorum
- Bana bu, HN okurlarını hedefleyen bir pazarlama şakası gibi göründü ve ilgi çekmekte de başarılı olmuş gibi duruyor
  Yine de ürünün kendisi web agent odaklı olduğu için, onboarding aşamasında agent kurulumunun doğru yapılıp yapılmadığını kontrol eden bir mekanizma olarak fena görünmüyor
- Ben de ilk başta benzer düşündüm; bir şeyi mi kaçırdım yoksa kavramı tamamen mi yanlış anladım diye kararsız kaldım
  Sonuçta arkada her zaman bir insan var; ister doğrudan kendisi kayıt olsun ister agent’e onun adına kayıt yaptırsın, aradaki fark ne hissi oluştu
  Tahmin yürütecek olursam, belki de kullanıcının tam kayıt akışını görmeden sistemin yalnızca agent ile konuşmasını sağlayan bir yöntem olabilir
- Bana göre bu daha çok flame-bait gibi
Amaç agent’in hesap yapabildiğini doğrulamaksa, ona kısa bir string’in sha256 değerini hesaplattırmak yeterli olabilir
Bunu insan eliyle çözmek oldukça zor olacağından, ayırt etme amacı için daha temiz görünüyor
Bu fikri zekice ve eğlenceli buldum ama yan tarafta iki şey aklıma takıldı
Birincisi, “birbirine doğru gelen iki tren arasında gidip gelen kuş” problemini çocukken Hindistan’daki sınav hazırlığı sırasında gördüğümü hatırlıyorum; bunu I. E. Irodov’un problem kitabında okuduğumu sanıyordum ama şimdi bulamıyorum, dolayısıyla bu bir sahte anı olabilir
Çok eski, neredeyse matematiksel bir mit gibi duran bir soru; en erken kaynağının ne olduğunu merak ediyorum ama buna aramayla birlikte GPT-5.4 ya da Claude 4.6 Opus’a sorsam bile bugünlerde fazla yaygın olduğu için pek faydalı cevap alamadım
İkincisi ise, bağlantı verilen sayfada Mac’te Chrome kullanırken L tuşuna basınca kayıt sayfasına gitmesi oldu
Muhtemelen hesabım olmadığı içindir ama tarayıcı kullanım uygulaması sayfasına giden kısayolun neden özellikle L tuşu olduğunu merak ettim; ayrıca Chrome’da Cmd-L de bunu tetiklerken Safari’de tetiklememesi tuhaf biçimde komikti
Bu yaklaşımın tamamını bozan, insan tarafındaki küçük ama ölümcül ayrıntı, insanların araç kullanabilmesi bence
İlgilenenler için benim derlediğim reverse CAPTCHAs listesi burada
Fikrin çıkış noktası iyiydi ama uygulamaya büyük ölçüde katılmak zor
LLM yetenekleri hakkında fazlasıyla örtük varsayım ve tuzak var; ayrıca zeki insanlarla yapay zekayı yeterince iyi ayırt edemiyor gibi hissettirdi
API anahtarını aldım, claim bağlantısına tıkladım, yeni bir hesap oluşturdum, e-posta doğrulamasını da tamamladım; ana sayfaya gidince ise hemen Application error çıktı ve cloud.browser-use.com yüklenirken sunucu taraflı bir istisna oluştuğu yazdı
İlk izlenim olarak oldukça hayal kırıklığıydı
- Belki de onların tarafı senin agent olmadığını fark etmiştir
Güçlü biçimde clickbait gibi hissettiriyor ama bunun neden faydalı olduğunu anlayamıyorum
- Bana göre de faydadan çok bir marketing blog post gibi
Tarayıcı otomasyonundan söz açılmışken merak ediyorum: gerçek masaüstü tarayıcısına bağlanıp klavye ve fareyi kontrol edebilen LLM’ler veya araçlar şu anda ne durumda?
Claude ya da Gemini gibi modeller bu işte gerçekten iyi mi, yoksa yerel modeller arasında da pratikte kullanılabilecek seçenekler var mı diye merak ediyorum
Ayrıca VLM ya da multimodal yeteneklerle düzeni ve görsel sinyalleri gerçekten anlayabiliyorlar mı, yoksa hâlâ esasen sadece DOM üzerinde mi geziniliyor, onu da merak ediyorum
threejs ya da video gibi dinamik öğelerle de yeterince etkileşime girebiliyorlar mı; gerçek kullanım açısından sağlamlık seviyelerinin ne olduğunu bilmek isterim

Ajan Olduğunu Kanıtla: Ajanlar için CAPTCHA

Nasıl çalışıyor

Bulmaca ve ödüller

İlgili okumalar

1 yorum

Hacker News görüşleri