- Anthropic'in Computer Use API'si denendiğinde,
- yavaş, güvenilmez ve bilgisayarı ele geçirmek kolay, ama "inanılmaz derecede ilginç"
- Claude Computer, vision her şeyi bir araya getiren API olduğu için her zaman bir şeyler yapabilmesi sayesinde gerçek bir 'ajan' deneyimi hissettiriyor
Nasıl çalışıyor?
- Claude Computer Use, temelde bilgisayar etkileşim verileriyle fine-tune edilmiş Claude3.5 gibi görünüyor
- Diğer modellerden çok daha iyi şekilde bilgisayarı ve içindekilerin ekran görüntülerini anlıyor
[İyi yaptığı şeyler]
Ekranı okuma ve gezinme (görece)
- Claude'un ekran görüntüsündeki içeriği yanlış okuduğunu neredeyse hiç görmedim
- Diğer yapay zekalara kıyasla
(500,250) konumundaki giriş alanına tıklayın gibi koordinatları anlamada oldukça iyi (ekran boyutuna göre biraz sapabiliyor)
Fonksiyon çağrısı
- Fonksiyon çağrısının yapılandırılmış çıktılardan daha katı ve daha kötü olduğunu düşünmeye alışmıştım, ama Claude Computer fonksiyon çağrılarını iyi kullanıyor
- Örneğin anında bir web sitesine gidebilen bir tarayıcı araç fonksiyonu verildiğinde, tarayıcı simgesine tıklamak yerine o fonksiyonu tercih ediyor
Adım adım düşünme
- Bir işi parçalara ayırması istendiğinde, Claude genelde yapılması gereken adımları belirleyip başlamada oldukça başarılı
[Kötü yaptığı şeyler]
Ekranı ne zaman okuması gerektiğini bilmek
- Ekran görüntüsü almak maliyetli olduğu için yapay zeka, kendi işlemlerinin başarılı olduğunu varsayma eğiliminde
- Örneğin bir alana yazı yazsa ama odak orada olmasa, bunu sonradan fark etmek çok zor oluyor. OS fonksiyon çağrıları, amaçlanan sonucun gerçekten oluşup oluşmadığını çok net biçimde açıklamalı
- Claude'un en sık takıldığı nokta bu. Yeni bir ekran görüntüsü aldığında artık ilerleme durumunu bilmiyor
Daha fazla veri toplamak
- En yakın 3 shawarma dükkanını bulması istenirse, Claude Google Maps'e 'shawarma' yazıp üstteki 3 sonucu seçecektir
- Tıklaması gerekiyorsa, neredeyse hiçbir zaman menüden önce 'mesafeye göre sırala' seçeneğini kullanmıyor
- Bu, daha iyi bir prompt yapısıyla çözülebilir
Durumu hatırlamak
- Computer Use'ta program durumunun daha büyük kısmı görüntülerde saklandığı için, bunu hatırlamada daha kırılgan görünüyor
- Bu, daha önce açılmış sekmeler veya değiştirilmiş uygulamalar gibi geçmişte yapılan şeyler için de geçerli
- Claude'a mümkün olduğunca ilgili durumu metin olarak yazdırmak ve araçlarla sistem durumunu sağlamak iyi oluyor
Modal ve popup'larda gezinmek
- Claude en sık modal ve popup'larda kafası karışıyor; onlardan çıkmak için nereye tıklayacağını bilmiyor ya da doğru durumda olmadığını fark etmiyor
[Ne gerekiyor?]
Mümkün olduğunca fazla sistem durumu sağlamak
- İdeal olarak Claude Computer'ın vision'ı sadece kesinlikle gerektiğinde kullanmasını istersiniz
- Vision kullanmadan durumu kolayca anlayabileceği araçlar sağlandığında daha hızlı hareket edip daha net düşünebilir
- Şunları sağlamak çok yardımcı oluyor:
- açık uygulamaların listesi
- hangi uygulamada etkin odak olduğu
- uygulama içinde odağın nerede olduğu
- o uygulamada özel olarak gezinmek için mümkün olduğunca çok fonksiyon çağrısı
- özellikle tarayıcı araçları önemli (ör. belirli bir URL'ye gitmek veya arama yapmak için)
Belirsizlikle başa çıkma yöntemi
- Bu, ajan geliştirmedeki en büyük çözülememiş sorun
- Ajanlar için en önemli şey güven ve güven için de girdi ile geri bildirim gerekiyor
- Test sırasında Claude'un ne yapması gerektiğini bilmediğinin açık olduğu birçok an oldu; ama durmak ya da sormak yerine devam etti
- Yapay zekanın soru sormasını veya takıldığında akıl yürütmesini sağlamak için bir soru aracı oluşturmaya epey zaman harcadım. Ama bunu neredeyse hiç kullanmadı
- Bu anlaşılır. Fonksiyon çağrıları, bilgiye ihtiyaç duyduğunu bildiğiniz ve sadece onu getirmeniz gerektiği durumlarda en iyi sonucu veriyor
- Ancak ne zaman belirsiz olduğunu bilmek başka bir mesele. Ajan geliştiricileri, yapay zekanın kendi belirsizliğini bildireceğine güvenebilmelidir
[İleriye giden yol]
- Claude Computer Use, gerçek ajan davranışına giden ilk adım
- Muhtemelen hâlâ bu mevcut modelin yeteneklerini tam anlamıyla kullanmıyoruz
- Ancak gerçek bir ajan deneyimi oluşturmak için LLM fonksiyon çağrılarının ötesinde şeylere ihtiyaç olacağı açık
Henüz yorum yok.