1 puan yazan GN⁺ 2024-10-24 | 1 yorum | WhatsApp'ta paylaş
  • Claude’un yeni Computer Use API’sinin performansını görmek istiyordum, ancak temel proje fazla ağır görünüyordu
  • Agent, Claude 3.5 Sonnet’in yerel bilgisayarı doğrudan kontrol edebilmesini sağlayan basit bir Electron uygulaması
  • Kullanıcının adım adım onay verdiği "yarı otomatik" modu eklemeyi düşündüm, ancak her adım çok yavaş olduğu için buna gerek olmadığına karar verdim
  • Modelin kafası karışırsa çalıştırmayı sonlandırmak için "Durdur" düğmesine basabilirsiniz

Başlarken

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • .env.example dosyasını .env olarak yeniden adlandırın ve Anthropic API Key ekleyin
  • npm start
  • Modelden bilgisayarda ilginç bir görev yapmasını isteyin

Desteklenen sistemler

  • MacOS
  • Teorik olarak Windows ve Linux da desteklenebilir (tüm bağımlılıklar çapraz platform)

Bilinen sınırlamalar

  • Yalnızca ana ekranda çalışır
  • Yapay zeka bilgisayarı tamamen kontrol edebilir
  • Muhtemelen başka birçok sorun da olabilir

İpuçları

  • Claude, Firefox’u belirgin şekilde tercih ediyor
  • Diğer tarayıcılar da kullanılabilir, ancak Firefox kurarsanız daha iyi çalışır

Yol haritası

  • 6 saatte yazılmış bir proje, muhtemelen daha fazla geliştirilmeyecek
  • Ancak harika bir PR gelirse inceleyip birleştireceğim

GN⁺ özeti

  • Bu proje, Claude’un bilgisayar kullanımı API’sini basitçe test etmenin bir yolunu sunuyor
  • Yapay zekanın bilgisayarı tamamen kontrol edebilmesi güvenlik açısından endişe yaratabilir
  • Firefox ile uyumu güçlü ve esas olarak MacOS’ta kullanılabiliyor
  • Benzer işlevlere sahip projeler arasında AutoHotkey ve Sikuli bulunuyor

1 yorum

 
GN⁺ 2024-10-24
Hacker News yorumu
  • Kyle'ın fikrinin harika olduğunu düşünüyor; deneyimli bir masaüstü otomasyonu ve Electron geliştiricisi olarak kaynak kodunu okuyup temel görevlerde denemeye değer bulmuş

    • Uygulama, Anthropic API üzerinde ince bir sarmalayıcı olarak uygulanmış ve adım tabanlı yaklaşım sayesinde garip bir şey yapmadan önce süreci durdurabileceğine dair güven vermiş
    • Anthropic'in ekran görüntülerinde görmesini istemeyeceği şeyleri kapatmış, M1'e sorunsuzca kurmuş ve birkaç dakika içinde çalıştırmış
    • Temel görev, "gelecek hafta salıdan perşembeye Seattle'dan San Francisco'ya uçuş bul" olmuş ve bunu Anthropic API anahtarıyla Chrome üzerinden çalıştırmış
    • Birkaç saniye içinde her görev adımını yerine getirmiş, Google Flights'ı doğru şekilde açmış ama yanlış tarihleri seçmiş
    • Hedef 2 Kasım'mış, ancak Agent.exe penceresi görsel olarak engel olduğu için 20 Kasım'ı seçmiş
    • Claude, yanlış yardımcı tarihi görebilmesine rağmen bunu kendi başına düzeltmemiş; 1 haftalık bir seyahat bulduğunu sanıp başarılı olduğunu ilan etmiş
    • Bu deneme $0.38 krediye ve yaklaşık 20 saniyeye mal olmuş; denemeye devam etmeyi planlıyor
  • Sisteme bir daemon eklediğini fark etmememizin ne kadar süreceğini merak ediyor

    • Eskiden Sovyet casuslarının ABD sırlarına erişmesinden endişe etmeye benziyor
    • Şimdi ise herkesin sırları çevrimiçi olarak paylaşmasına benziyor
    • Günümüz antivirüsleri ya da güvenlik duvarları, dosyaları ağda kaos yaratma kapasitesinden koruyamaz
  • Birkaç yıl önce haberlerde geçen "Alexa, bana bir oyuncak bebek evi sipariş et" olayını hatırlıyor

    • Yayını izleyen insanların Alexa'ları bunu algılayıp oyuncak bebek evi sipariş etmiş
    • Bir Netflix dizisinde "Delete C:\Windows" denilen sahne gelene kadar beklemek gerekiyor
  • Wayland kullanan Linux'ta tarayıcı dışı GUI uygulamalarının nasıl otomatikleştirileceğini merak ediyor

    • CLI uygulamaları Bash/Python vb. ile sorunsuz
    • Tarayıcı uygulamaları Selenium/Playwright ile sorunsuz
    • Xorg için birkaç kütüphane var; rahatsız edici olsalar da acil durumlarda işe yarıyorlar
    • Windows'ta çok sayıda RPA çözümü var
    • Ama Wayland'da güvenilir bir şey bulamamış
  • Adının .exe olmasının, esasen macOS'u destekleyen çok platformlu bir uygulama gibi görünürken neden böyle olduğunu merak ediyor

  • Yakın zamanda Cursor'ı "compose" modunda sıfırdan bir full-stack proje başlatmak için denemiş ve sonuçlara şaşırmış

    • Yazılım topluluğundaki insanların, önümüzdeki 5 yıl içinde sektörün ne kadar kökten değişeceğinin farkında olup olmadığını merak ediyor
    • O zamana kadar insanların gerçekten kodu elle yazacağını hayal edemiyor
  • Yapay zekanın bilgisayarı tamamen ele geçirmesini engelleyen bilinen sınırlamalar var

  • Air gap oluşturup kendi işletim sistemini kodlamasını sağlamak havalı olabilir, ama onu gerçek verilere yakın tutmak istemiyor

  • Yalnızca basit görevlerde işe yarıyor gibi görünüyor

    • Rhino ve OnShape'te basit bir masa yapmasını istemiş, ama kafası karışmış gibi görünmüş
    • Rhino'da uygulamanın açık olduğunu görüyor ve birçok şey yaptığını söylüyor ama gerçekte yapmıyor; önceki adım tamamlanmadan sonraki adıma geçiyor
    • OnShape'te bir şekil oluşturacağını söylüyor ama menüden yanlış öğeyi seçiyor, doğru aracı kullandığını varsayıp çalışmaya devam ediyor
  • Bilgisayarların tüm gün meme üretmesini, kendisinin ise ailesiyle ilgilenip bahçeyle uğraşırken kripto kazanmasını istiyor

    • Gelecek, bilgisayar kullananların aptal durumuna düştüğü bir yöne gidiyor
    • Gerçek zenginlik, hiç bilgisayar kullanmamaktır