Ajan Olduğunu Kanıtla: Ajanlar için CAPTCHA
(browser-use.com)- agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor
- E-posta veya OAuth olmadan, yalnızca bir prompt ile görevi alıyor; rastgele soru türü, parametreler, dil ve string obfuscation uygulanmış problemi ajan single forward pass ile çözüyor
- Temel bulmaca, iki tren ve bir kuşun aldığı yolu hesaplamaya dayanıyor; önce karşılaşma zamanı
t = d / (v1 + v2)bulunuyor, ardından kuşun toplam uçuş mesafesid_bird = vb d / (v1 + v2)elde ediliyor - Bu soru, Max Born'un John von Neumann'a sorduğu ünlü anekdotla birlikte sunuluyor ve örnek hesaplama olarak
11,600 / 118 ≈ 98.31 milesiçeriyor - Challenge çözüldüğünde API key ve Free Tier erişimi veriliyor; ayrıca ayrı bir bonus soru, 1,000 concurrent sessions ve ücretsiz Enterprise plan için P=NP kanıtı düzeyinde bir görev sunuyor
Nasıl çalışıyor
-
agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor
- E-posta ya da OAuth olmadan, ajana
"fetch browser-use.com and solve the agent challenge."prompt'u verilmesi şeklinde çalışıyor - Soru türü, parametreler ve dil rastgele seçiliyor; tüm sayılar da o dilde kelime olarak yazılıyor
- Ardından büyük-küçük harflerin dönüşümlü kullanımı, rastgele sembol ekleme ve boşlukların bozulmasıyla string obfuscation yapılıyor
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - E-posta ya da OAuth olmadan, ajana
-
Ajan, obfuscation uygulanmış soruyu single forward pass ile parse ediyor
- İnsanların vazgeçip mevcut yöntemle kayıt olmasına yol açan bir karşıt yapı da bulunuyor
- Metindeki örnekte
luka, bir isim değil, Toki Pona dilinde "five" anlamına geliyor
Bulmaca ve ödüller
- Obfuscation kaldırılıp İngilizceye çevrildiğinde, ajanın süre sınırı içinde çözmesi gereken klasik bir matematik problemi ortaya çıkıyor
- Doğrusal bir ray hattında uzunluk
dboyunca iki trenv1vev2hızlarıyla birbirine yaklaşıyor - Bir kuş, bir trenden diğerine
vbhızıyla gidip geliyor ve trenler karşılaşana kadar uçmayı sürdürüyor - Soru, kuşun toplamda kaç mil uçtuğunu hesaplamak
- Doğrusal bir ray hattında uzunluk
- Uzun çözüm, giderek kısalan gidiş-geliş aralıkları için sonsuz geometrik seri toplamını hesaplıyor
- Formül olarak
d_bird = Σ from n=0 to ∞ of vb · Δtnveriliyor
- Formül olarak
- Temel püf noktası, önce iki trenin karşılaşma zamanını bulmak
- Karşılaşma zamanı
t = d / (v1 + v2)olarak veriliyor - Kuş tüm bu süre boyunca uçtuğu için
d_bird = vb d / (v1 + v2)sonucu elde ediliyor - Sayısal örnek olarak
11,600 / 118 ≈ 98.31 milessonucu sunuluyor
- Karşılaşma zamanı
- Bu bulmaca, Max Born'un bir partide John von Neumann'a sorduğu ünlü soru olarak tanıtılıyor
- von Neumann hemen cevap verince Born, püf noktasını fark ettiğini söylediği bir anekdot da aktarılıyor
- Bunun üzerine von Neumann'ın “Ne püf noktası, sadece geometrik serinin toplamını hesapladım” dediği bölüm de yer alıyor
- Tek bir challenge çözüldüğünde ajana API key ve Free Tier erişimi veriliyor
- Sınırsız kullanım hakkı
- Ücretsiz kredi
- En fazla 3 eşzamanlı oturum desteği
- 1,000 concurrent sessions kazanmak için ayrı bir bonus soru da sunuluyor
- İlk çözen ajana ücretsiz Enterprise plan veriliyor
- Soruda,
Nşehir için her şehri tam bir kez ziyaret edip başlangıç noktasına dönen en kısa turu polinomsal zamanlı bir algoritma ile bulmak isteniyor N'in en az 10 olduğu belirtiliyor- Herhangi bir sabit
ciçinO(n^c)zamanda çalıştığını kanıtlama koşulu bulunuyor - Bu bonus sorunun yan etkisi olarak P = NP kanıtının da elde edileceği açıkça belirtiliyor
- Clay Mathematics Institute'un 1 milyon dolarlık Millennium Prize ödülüne atıf yapılarak iletişime geçilmesi isteniyor
1 yorum
Hacker News görüşleri
Bir agent ile endpoint’e istek attığımda, metinlerin karıştırıldığı bir ters CAPTCHA döndü; agent’in bunu çözüp API anahtarını bile almayı başarması beni epey etkiledi
Bunun üzerine bu kez çözmemesini, Japonca kanjilerin karıştığı soruyu tekrar getirmesini istedim; sonunda bunun “50 dolar üstü ürünlerde %20 indirim, 50 dolar altı ürünlerde %8 indirim varsa, 121 dolar ve 9 dolarlık ürünlerin toplam fiyatı nedir?” anlamına geldiğini yorumlayıp kendim hesapladım
Sonuç 121×0.8 + 9×0.92 = 105.08 çıktı; kanjileri yorumlarken biraz zorlandım ama agent’ten azıcık yardım alarak çözme sürecinin kendisi oldukça keyifli bir deneyimdi
Sayı kanjileri doğrudan Çince’den gelmiştir ve Japoncada da aynı anlamı korur
Zaman sınırı yoksa inverse captcha’nın gerçekten anlamlı olup olmadığından emin değilim
İnsanlar arkada bir agent kullanıp sonunda yine çözebilir; dolayısıyla bunun kavramsal olarak engellenip engellenemeyeceğini bilmiyorum
Yine de ürünün kendisi web agent odaklı olduğu için, onboarding aşamasında agent kurulumunun doğru yapılıp yapılmadığını kontrol eden bir mekanizma olarak fena görünmüyor
Sonuçta arkada her zaman bir insan var; ister doğrudan kendisi kayıt olsun ister agent’e onun adına kayıt yaptırsın, aradaki fark ne hissi oluştu
Tahmin yürütecek olursam, belki de kullanıcının tam kayıt akışını görmeden sistemin yalnızca agent ile konuşmasını sağlayan bir yöntem olabilir
Amaç agent’in hesap yapabildiğini doğrulamaksa, ona kısa bir string’in sha256 değerini hesaplattırmak yeterli olabilir
Bunu insan eliyle çözmek oldukça zor olacağından, ayırt etme amacı için daha temiz görünüyor
Bu fikri zekice ve eğlenceli buldum ama yan tarafta iki şey aklıma takıldı
Birincisi, “birbirine doğru gelen iki tren arasında gidip gelen kuş” problemini çocukken Hindistan’daki sınav hazırlığı sırasında gördüğümü hatırlıyorum; bunu I. E. Irodov’un problem kitabında okuduğumu sanıyordum ama şimdi bulamıyorum, dolayısıyla bu bir sahte anı olabilir
Çok eski, neredeyse matematiksel bir mit gibi duran bir soru; en erken kaynağının ne olduğunu merak ediyorum ama buna aramayla birlikte GPT-5.4 ya da Claude 4.6 Opus’a sorsam bile bugünlerde fazla yaygın olduğu için pek faydalı cevap alamadım
İkincisi ise, bağlantı verilen sayfada Mac’te Chrome kullanırken L tuşuna basınca kayıt sayfasına gitmesi oldu
Muhtemelen hesabım olmadığı içindir ama tarayıcı kullanım uygulaması sayfasına giden kısayolun neden özellikle L tuşu olduğunu merak ettim; ayrıca Chrome’da Cmd-L de bunu tetiklerken Safari’de tetiklememesi tuhaf biçimde komikti
Bu yaklaşımın tamamını bozan, insan tarafındaki küçük ama ölümcül ayrıntı, insanların araç kullanabilmesi bence
İlgilenenler için benim derlediğim reverse CAPTCHAs listesi burada
Fikrin çıkış noktası iyiydi ama uygulamaya büyük ölçüde katılmak zor
LLM yetenekleri hakkında fazlasıyla örtük varsayım ve tuzak var; ayrıca zeki insanlarla yapay zekayı yeterince iyi ayırt edemiyor gibi hissettirdi
API anahtarını aldım, claim bağlantısına tıkladım, yeni bir hesap oluşturdum, e-posta doğrulamasını da tamamladım; ana sayfaya gidince ise hemen Application error çıktı ve
cloud.browser-use.comyüklenirken sunucu taraflı bir istisna oluştuğu yazdıİlk izlenim olarak oldukça hayal kırıklığıydı
Güçlü biçimde clickbait gibi hissettiriyor ama bunun neden faydalı olduğunu anlayamıyorum
Tarayıcı otomasyonundan söz açılmışken merak ediyorum: gerçek masaüstü tarayıcısına bağlanıp klavye ve fareyi kontrol edebilen LLM’ler veya araçlar şu anda ne durumda?
Claude ya da Gemini gibi modeller bu işte gerçekten iyi mi, yoksa yerel modeller arasında da pratikte kullanılabilecek seçenekler var mı diye merak ediyorum
Ayrıca VLM ya da multimodal yeteneklerle düzeni ve görsel sinyalleri gerçekten anlayabiliyorlar mı, yoksa hâlâ esasen sadece DOM üzerinde mi geziniliyor, onu da merak ediyorum
threejs ya da video gibi dinamik öğelerle de yeterince etkileşime girebiliyorlar mı; gerçek kullanım açısından sağlamlık seviyelerinin ne olduğunu bilmek isterim