4 puan yazan GN⁺ 10 일 전 | 1 yorum | WhatsApp'ta paylaş
  • agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor
  • E-posta veya OAuth olmadan, yalnızca bir prompt ile görevi alıyor; rastgele soru türü, parametreler, dil ve string obfuscation uygulanmış problemi ajan single forward pass ile çözüyor
  • Temel bulmaca, iki tren ve bir kuşun aldığı yolu hesaplamaya dayanıyor; önce karşılaşma zamanı t = d / (v1 + v2) bulunuyor, ardından kuşun toplam uçuş mesafesi d_bird = vb d / (v1 + v2) elde ediliyor
  • Bu soru, Max Born'un John von Neumann'a sorduğu ünlü anekdotla birlikte sunuluyor ve örnek hesaplama olarak 11,600 / 118 ≈ 98.31 miles içeriyor
  • Challenge çözüldüğünde API key ve Free Tier erişimi veriliyor; ayrıca ayrı bir bonus soru, 1,000 concurrent sessions ve ücretsiz Enterprise plan için P=NP kanıtı düzeyinde bir görev sunuyor

Nasıl çalışıyor

  • agent-native signup içinde insanları engelleyip ajanları geçiren reverse-CAPTCHA uygulanıyor

    • E-posta ya da OAuth olmadan, ajana "fetch browser-use.com and solve the agent challenge." prompt'u verilmesi şeklinde çalışıyor
    • Soru türü, parametreler ve dil rastgele seçiliyor; tüm sayılar da o dilde kelime olarak yazılıyor
    • Ardından büyük-küçük harflerin dönüşümlü kullanımı, rastgele sembol ekleme ve boşlukların bozulmasıyla string obfuscation yapılıyor
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
    HoW! fAr- D_oE*s /  ThE b@IrD fLy  
    
  • Ajan, obfuscation uygulanmış soruyu single forward pass ile parse ediyor

    • İnsanların vazgeçip mevcut yöntemle kayıt olmasına yol açan bir karşıt yapı da bulunuyor
    • Metindeki örnekte luka, bir isim değil, Toki Pona dilinde "five" anlamına geliyor

Bulmaca ve ödüller

  • Obfuscation kaldırılıp İngilizceye çevrildiğinde, ajanın süre sınırı içinde çözmesi gereken klasik bir matematik problemi ortaya çıkıyor
    • Doğrusal bir ray hattında uzunluk d boyunca iki tren v1 ve v2 hızlarıyla birbirine yaklaşıyor
    • Bir kuş, bir trenden diğerine vb hızıyla gidip geliyor ve trenler karşılaşana kadar uçmayı sürdürüyor
    • Soru, kuşun toplamda kaç mil uçtuğunu hesaplamak
  • Uzun çözüm, giderek kısalan gidiş-geliş aralıkları için sonsuz geometrik seri toplamını hesaplıyor
    • Formül olarak d_bird = Σ from n=0 to ∞ of vb · Δtn veriliyor
  • Temel püf noktası, önce iki trenin karşılaşma zamanını bulmak
    • Karşılaşma zamanı t = d / (v1 + v2) olarak veriliyor
    • Kuş tüm bu süre boyunca uçtuğu için d_bird = vb d / (v1 + v2) sonucu elde ediliyor
    • Sayısal örnek olarak 11,600 / 118 ≈ 98.31 miles sonucu sunuluyor
  • Bu bulmaca, Max Born'un bir partide John von Neumann'a sorduğu ünlü soru olarak tanıtılıyor
    • von Neumann hemen cevap verince Born, püf noktasını fark ettiğini söylediği bir anekdot da aktarılıyor
    • Bunun üzerine von Neumann'ın “Ne püf noktası, sadece geometrik serinin toplamını hesapladım” dediği bölüm de yer alıyor
  • Tek bir challenge çözüldüğünde ajana API key ve Free Tier erişimi veriliyor
    • Sınırsız kullanım hakkı
    • Ücretsiz kredi
    • En fazla 3 eşzamanlı oturum desteği
  • 1,000 concurrent sessions kazanmak için ayrı bir bonus soru da sunuluyor
    • İlk çözen ajana ücretsiz Enterprise plan veriliyor
    • Soruda, N şehir için her şehri tam bir kez ziyaret edip başlangıç noktasına dönen en kısa turu polinomsal zamanlı bir algoritma ile bulmak isteniyor
    • N'in en az 10 olduğu belirtiliyor
    • Herhangi bir sabit c için O(n^c) zamanda çalıştığını kanıtlama koşulu bulunuyor
    • Bu bonus sorunun yan etkisi olarak P = NP kanıtının da elde edileceği açıkça belirtiliyor
    • Clay Mathematics Institute'un 1 milyon dolarlık Millennium Prize ödülüne atıf yapılarak iletişime geçilmesi isteniyor

1 yorum

 
GN⁺ 10 일 전
Hacker News görüşleri
  • Bir agent ile endpoint’e istek attığımda, metinlerin karıştırıldığı bir ters CAPTCHA döndü; agent’in bunu çözüp API anahtarını bile almayı başarması beni epey etkiledi
    Bunun üzerine bu kez çözmemesini, Japonca kanjilerin karıştığı soruyu tekrar getirmesini istedim; sonunda bunun “50 dolar üstü ürünlerde %20 indirim, 50 dolar altı ürünlerde %8 indirim varsa, 121 dolar ve 9 dolarlık ürünlerin toplam fiyatı nedir?” anlamına geldiğini yorumlayıp kendim hesapladım
    Sonuç 121×0.8 + 9×0.92 = 105.08 çıktı; kanjileri yorumlarken biraz zorlandım ama agent’ten azıcık yardım alarak çözme sürecinin kendisi oldukça keyifli bir deneyimdi

    • Bağlam gereği Japoncaya özgü karakterler olmadan yalnızca sayılara ait kanjiler görünüyorsa, buna Japoncadan çok Chinese characters demek daha doğru olabilir
      Sayı kanjileri doğrudan Çince’den gelmiştir ve Japoncada da aynı anlamı korur
    • Aslında bu tür bir soru, dünya genelinde 100 milyondan fazla insan için sadece biraz bozulmuş bir matematik sorusu gibi okunacaktır
  • Zaman sınırı yoksa inverse captcha’nın gerçekten anlamlı olup olmadığından emin değilim
    İnsanlar arkada bir agent kullanıp sonunda yine çözebilir; dolayısıyla bunun kavramsal olarak engellenip engellenemeyeceğini bilmiyorum

    • Bana bu, HN okurlarını hedefleyen bir pazarlama şakası gibi göründü ve ilgi çekmekte de başarılı olmuş gibi duruyor
      Yine de ürünün kendisi web agent odaklı olduğu için, onboarding aşamasında agent kurulumunun doğru yapılıp yapılmadığını kontrol eden bir mekanizma olarak fena görünmüyor
    • Ben de ilk başta benzer düşündüm; bir şeyi mi kaçırdım yoksa kavramı tamamen mi yanlış anladım diye kararsız kaldım
      Sonuçta arkada her zaman bir insan var; ister doğrudan kendisi kayıt olsun ister agent’e onun adına kayıt yaptırsın, aradaki fark ne hissi oluştu
      Tahmin yürütecek olursam, belki de kullanıcının tam kayıt akışını görmeden sistemin yalnızca agent ile konuşmasını sağlayan bir yöntem olabilir
    • Bana göre bu daha çok flame-bait gibi
  • Amaç agent’in hesap yapabildiğini doğrulamaksa, ona kısa bir string’in sha256 değerini hesaplattırmak yeterli olabilir
    Bunu insan eliyle çözmek oldukça zor olacağından, ayırt etme amacı için daha temiz görünüyor

  • Bu fikri zekice ve eğlenceli buldum ama yan tarafta iki şey aklıma takıldı
    Birincisi, “birbirine doğru gelen iki tren arasında gidip gelen kuş” problemini çocukken Hindistan’daki sınav hazırlığı sırasında gördüğümü hatırlıyorum; bunu I. E. Irodov’un problem kitabında okuduğumu sanıyordum ama şimdi bulamıyorum, dolayısıyla bu bir sahte anı olabilir
    Çok eski, neredeyse matematiksel bir mit gibi duran bir soru; en erken kaynağının ne olduğunu merak ediyorum ama buna aramayla birlikte GPT-5.4 ya da Claude 4.6 Opus’a sorsam bile bugünlerde fazla yaygın olduğu için pek faydalı cevap alamadım
    İkincisi ise, bağlantı verilen sayfada Mac’te Chrome kullanırken L tuşuna basınca kayıt sayfasına gitmesi oldu
    Muhtemelen hesabım olmadığı içindir ama tarayıcı kullanım uygulaması sayfasına giden kısayolun neden özellikle L tuşu olduğunu merak ettim; ayrıca Chrome’da Cmd-L de bunu tetiklerken Safari’de tetiklememesi tuhaf biçimde komikti

  • Bu yaklaşımın tamamını bozan, insan tarafındaki küçük ama ölümcül ayrıntı, insanların araç kullanabilmesi bence

  • İlgilenenler için benim derlediğim reverse CAPTCHAs listesi burada

  • Fikrin çıkış noktası iyiydi ama uygulamaya büyük ölçüde katılmak zor
    LLM yetenekleri hakkında fazlasıyla örtük varsayım ve tuzak var; ayrıca zeki insanlarla yapay zekayı yeterince iyi ayırt edemiyor gibi hissettirdi

  • API anahtarını aldım, claim bağlantısına tıkladım, yeni bir hesap oluşturdum, e-posta doğrulamasını da tamamladım; ana sayfaya gidince ise hemen Application error çıktı ve cloud.browser-use.com yüklenirken sunucu taraflı bir istisna oluştuğu yazdı
    İlk izlenim olarak oldukça hayal kırıklığıydı

    • Belki de onların tarafı senin agent olmadığını fark etmiştir
  • Güçlü biçimde clickbait gibi hissettiriyor ama bunun neden faydalı olduğunu anlayamıyorum

    • Bana göre de faydadan çok bir marketing blog post gibi
  • Tarayıcı otomasyonundan söz açılmışken merak ediyorum: gerçek masaüstü tarayıcısına bağlanıp klavye ve fareyi kontrol edebilen LLM’ler veya araçlar şu anda ne durumda?
    Claude ya da Gemini gibi modeller bu işte gerçekten iyi mi, yoksa yerel modeller arasında da pratikte kullanılabilecek seçenekler var mı diye merak ediyorum
    Ayrıca VLM ya da multimodal yeteneklerle düzeni ve görsel sinyalleri gerçekten anlayabiliyorlar mı, yoksa hâlâ esasen sadece DOM üzerinde mi geziniliyor, onu da merak ediyorum
    threejs ya da video gibi dinamik öğelerle de yeterince etkileşime girebiliyorlar mı; gerçek kullanım açısından sağlamlık seviyelerinin ne olduğunu bilmek isterim