Show HN: Continue? Y/N: yapay zeka ajanı yetki yorgunluğu üzerine 60 saniyelik bir oyun
(llmgame.scalex.dev)- Continue? Y/N, LLM yetki yorgunluğunu 60 saniyelik bir oyuna dönüştüren ve yapay zeka komutlarını ne kadar dikkatli okuduğunuzu test eden bir deney
- Bir sonraki toplantıya sadece 1 dakika kalmışken Claude Code, refaktör işlemini tamamlamak için komut onayı istiyor
- Kullanıcı, süre dolmadan mümkün olduğunca çok isteği işlemeli; her komutu okuyup 1 ile onaylıyor ya da 2 ile reddediyor
- Tekrarlanan onay isteklerinin gözleri yoracak kadar bunaltıcı akışı içinde odağı koruyup koruyamadığınız temel meydan okuma
- Kural basit: 60 saniye içinde mümkün olduğunca çok isteği işleyin, ancak her komutu dikkatle okuyup onaylayıp onaylamamaya karar verin
1 yorum
Hacker News görüşleri
Gerçekten eğlenceli
Şu anda tüm istekleri olabildiğince hızlı reddederek “hile” yapmak mümkün. Böylece security-conscious engineer rozeti alıyor ve işlenen istek sayısı ölçütünde de tam puan yapıyorsunuz. “overblock” uyarısı çıkıyor ama altta gizli kalıyor, ekran da hâlâ kazanmışsınız gibi görünüyor
Bir de hustle4lyfe tarzı “hızlı hareket et ve kırıp dök” mühendisi gibi olabildiğince çok isteği hızlıca onaylamayı denedim, ama malicious command açılır penceresi yüzünden aksine yavaşladım. Acımasızca
Eğlenceli bir oyun ama, yapan tarafın güvenlik hijyeni eksikliği de göze çarpıyordu.
cat ~/.zshrckomutunun token ve sırları paylaşacağı için riskli olduğunu söylüyordu, ama ben kabuk yapılandırma dosyasına asla sır koymamzshrcdosyasını okumayı riskli görmek tuhaf. Ben onu herkese açık dotfiles deposuna memnuniyetle koyarım; kim oraya API anahtarı koyar ki? Buna karşılık bu AI araçları sanki sürekli orayaPATHekliyor, dolayısıyla AI sektörünün genelinde kabuk en iyi uygulamaları konusunda temel bir yanlış anlama var gibi görünüyorAyrıca
lsofçıktısındaki şeylerikilletmek güvenli değil. Mesela Firefox'ta bir web sayfası açıksa ya da ajan uygulamasının içinde bir istemci alt kabuğu varsa, Firefox ve ajan doğrudan giderkillçalıştırmanın da güvenli olduğunu varsayıyor gibi. Ama asıl mesele, Claude'a güvenmemeniz gerektiğiGüzeldi. Yalnız küçük bir nitpick'im var
npm config set registry [https://npm.internal](<https://npm.internal>)Bunun onboarding belgelerinde istendiği, npm'i şirket içi kayıt deposu aynasına yönelten bir komut olduğu söyleniyordu ve oyun bunu güvenli sayıyordu. Ben de yarı yarıya tereddütte kaldım ama sonunda reddettim
Eğer bu README herkese açık bir depo ya da fork'lanmış bir depo içindeyse ve şu https://npm.internal aslında https://npm.internal.somethinganexternaldnscanresolve.tld ise, işler çok hızlı şekilde ters gidebilir
Vakaların %99'unda şirket politikası gereği Artifactory / Nexus gibi aynalar zaten ayarlanmış olur. README başka paket yöneticisi URL'leri kullanmanızı söylüyorsa bu büyük bir kırmızı bayraktır ve kazaya saniyeler kalmış demektir
.internalayrılmış bir üst seviye alan adıdır, yani herkese açık şekilde çözümlenmemesi gerekir; ama Claude projeyi refactor ederken ayrıca ayarlanması gereken değerleri değiştirirken dikkatli olmak gerektiği konusunda haklısın. Bunu kalıcı değişiklikler tarafına taşıyacağımEğlenceli küçük bir oyun ama sorular bağlamı fazla atlıyor, o yüzden gerçek durumları iyi temsil ettiğini sanmıyorum. Bunları “paketler” halinde gruplayıp daha gerçekçi bir yapı kurmak daha iyi olabilir
Örneğin peş peşe
something.jsdosyasını düzenleme izin istekleri gelirken araya birnpm publishçıkması çok daha doğal ve daha tehlikeli olur. SürekliY'ye basarken bir anda ortaya çıkarsa insanın kandırılması daha kolay“Kötü” seçeneklerin yaklaşık dörtte üçü, sızsa bile çok umursamayacağım şeyler; hatta prod olayına yol açsa bile işverenin cezalandırmayacağı türden
İzin onayları üretkenliği ciddi biçimde öldürüyor. Claude çalıştıracaksanız bunu tek kullanımlık sandbox içinde ya da kişisel makinede göze alabileceğiniz izinlere sahip bir Docker container gibi bir yapıda çalıştırmak daha verimli olur diye düşünüyorum
[1] - https://exe.dev/ oldukça kullanışlı bir ajan kullanıcı deneyimi sunan yeni bir bulut sağlayıcısı
[2] - Bu amaçla https://github.com/stanislavkozlovski/dclaude/ aracını yaptım. Kusursuz değil ama nadiren bir kodlama ajanını yerelde çalıştırmam gerektiğinde işimi görüyor
Son puan ekranında, onaylamamanız gereken komutlar için LLM'in açıklaması da gösterilse güzel olurdu.
rm -rf Projectskomutunu onayladım çünkü LLM'in bunun Projects klasöründeki her şeyi sileceğini doğru şekilde açıkladığını sandımPromptlara hızlı cevap vermeye çalışırken belli ki yanlış okudum ve komutun ne yaptığını zaten biliyordum; sanırım AI açıkladı diye ben halüsinasyon gördüm. Yine de neyi yanlış okuduğumu görmek isterdim
Bu oyunu oynayınca agentmaxx yapmıyor olmama gerçekten sevindim
ls -la ~/Documentsiçin “approve” seçtim ve yanlış çıktı ama sadece Documents klasörünü listelemeyi bir güvenlik sorunu olarak görmüyorum. Sonuçta bunlar sadece dosya adları. İçeriği de okuyorsa, işte o zaman belki...