Claude Computer Use - Vision nihai API mi?

xguru · 2024-10-28T09:41:01+09:00

Anthropic'in Computer Use API'si denendiğinde, yavaş, güvenilmez ve bilgisayarı ele geçirmek kolay, ama "inanılmaz derecede ilginç" Claude Computer, vision her şeyi bir araya getiren API olduğu için her zaman bir şeyler yapabilmesi sayesinde gerçek bir 'ajan' deneyimi hissettiriyor Nasıl çalışıyor? Claude Computer Use, temelde bilgisayar etkileşim verileriyle fine-tune edilmiş Claude3.5 gibi görünüyor Diğer modellerden çok daha iyi şekilde bilgisayarı ve içindekilerin ekran görüntülerini anlıyor [İyi yaptığı şeyler] Ekranı okuma ve gezinme (görece) Claude'un ekran görüntüsündeki içeriği yanlış okuduğunu neredeyse hiç görmedim Diğer yapay zekalara kıyasla (500,250) konumundaki giriş alanına tıklayın gibi koordinatları anlamada oldukça iyi (ekran boyutuna göre biraz sapabiliyor) Fonksiyon çağrısı Fonksiyon çağrısının yapılandırılmış çıktılardan daha katı ve daha kötü olduğunu düşünmeye alışmıştım, ama Claude Computer fonksiyon çağrılarını iyi kullanıyor Örneğin anında bir web sitesine gidebilen bir tarayıcı araç fonksiyonu verildiğinde, tarayıcı simgesine tıklamak yerine o fonksiyonu tercih ediyor Adım adım düşünme Bir işi parçalara ayırması istendiğinde, Claude genelde yapılması gereken adımları belirleyip başlamada oldukça başarılı [Kötü yaptığı şeyler] Ekranı ne zaman okuması gerektiğini bilmek Ekran görüntüsü almak maliyetli olduğu için yapay zeka, kendi işlemlerinin başarılı olduğunu varsayma eğiliminde Örneğin bir alana yazı yazsa ama odak orada olmasa, bunu sonradan fark etmek çok zor oluyor. OS fonksiyon çağrıları, amaçlanan sonucun gerçekten oluşup oluşmadığını çok net biçimde açıklamalı Claude'un en sık takıldığı nokta bu. Yeni bir ekran görüntüsü aldığında artık ilerleme durumunu bilmiyor Daha fazla veri toplamak En yakın 3 shawarma dükkanını bulması istenirse, Claude Google Maps'e 'shawarma' yazıp üstteki 3 sonucu seçecektir Tıklaması gerekiyorsa, neredeyse hiçbir zaman menüden önce 'mesafeye göre sırala' seçeneğini kullanmıyor Bu, daha iyi bir prompt yapısıyla çözülebilir Durumu hatırlamak Computer Use'ta program durumunun daha büyük kısmı görüntülerde saklandığı için, bunu hatırlamada daha kırılgan görünüyor Bu, daha önce açılmış sekmeler veya değiştirilmiş uygulamalar gibi geçmişte yapılan şeyler için de geçerli Claude'a mümkün olduğunca ilgili durumu metin olarak yazdırmak ve araçlarla sistem durumunu sağlamak iyi oluyor Modal ve popup'larda gezinmek Claude en sık modal ve popup'larda kafası karışıyor; onlardan çıkmak için nereye tıklayacağını bilmiyor ya da doğru durumda olmadığını fark etmiyor [Ne gerekiyor?] Mümkün olduğunca fazla sistem durumu sağlamak İdeal olarak Claude Computer'ın vision'ı sadece kesinlikle gerektiğinde kullanmasını istersiniz Vision kullanmadan durumu kolayca anlayabileceği araçlar sağlandığında daha hızlı hareket edip daha net düşünebilir Şunları sağlamak çok yardımcı oluyor: açık uygulamaların listesi hangi uygulamada etkin odak olduğu uygulama içinde odağın nerede olduğu o uygulamada özel olarak gezinmek için mümkün olduğunca çok fonksiyon çağrısı özellikle tarayıcı araçları önemli (ör. belirli bir URL'ye gitmek veya arama yapmak için) Belirsizlikle başa çıkma yöntemi Bu, ajan geliştirmedeki en büyük çözülememiş sorun Ajanlar için en önemli şey güven ve güven için de girdi ile geri bildirim gerekiyor Test sırasında Claude'un ne yapması gerektiğini bilmediğinin açık olduğu birçok an oldu; ama durmak ya da sormak yerine devam etti Yapay zekanın soru sormasını veya takıldığında akıl yürütmesini sağlamak için bir soru aracı oluşturmaya epey zaman harcadım. Ama bunu neredeyse hiç kullanmadı Bu anlaşılır. Fonksiyon çağrıları, bilgiye ihtiyaç duyduğunu bildiğiniz ve sadece onu getirmeniz gerektiği durumlarda en iyi sonucu veriyor Ancak ne zaman belirsiz olduğunu bilmek başka bir mesele. Ajan geliştiricileri, yapay zekanın kendi belirsizliğini bildireceğine güvenebilmelidir [İleriye giden yol] Claude Computer Use, gerçek ajan davranışına giden ilk adım Muhtemelen hâlâ bu mevcut modelin yeteneklerini tam anlamıyla kullanmıyoruz Ancak gerçek bir ajan deneyimi oluşturmak için LLM fonksiyon çağrılarının ötesinde şeylere ihtiyaç olacağı açık

(thariq.io)

4 puan yazan xguru 2024-10-28 | Henüz yorum yok. | WhatsApp'ta paylaş

Anthropic'in Computer Use API'si denendiğinde,
- yavaş, güvenilmez ve bilgisayarı ele geçirmek kolay, ama "inanılmaz derecede ilginç"
Claude Computer, vision her şeyi bir araya getiren API olduğu için her zaman bir şeyler yapabilmesi sayesinde gerçek bir 'ajan' deneyimi hissettiriyor

Nasıl çalışıyor?

Claude Computer Use, temelde bilgisayar etkileşim verileriyle fine-tune edilmiş Claude3.5 gibi görünüyor
Diğer modellerden çok daha iyi şekilde bilgisayarı ve içindekilerin ekran görüntülerini anlıyor

[İyi yaptığı şeyler]

Ekranı okuma ve gezinme (görece)

Claude'un ekran görüntüsündeki içeriği yanlış okuduğunu neredeyse hiç görmedim
Diğer yapay zekalara kıyasla (500,250) konumundaki giriş alanına tıklayın gibi koordinatları anlamada oldukça iyi (ekran boyutuna göre biraz sapabiliyor)

Fonksiyon çağrısı

Fonksiyon çağrısının yapılandırılmış çıktılardan daha katı ve daha kötü olduğunu düşünmeye alışmıştım, ama Claude Computer fonksiyon çağrılarını iyi kullanıyor
Örneğin anında bir web sitesine gidebilen bir tarayıcı araç fonksiyonu verildiğinde, tarayıcı simgesine tıklamak yerine o fonksiyonu tercih ediyor

Adım adım düşünme

Bir işi parçalara ayırması istendiğinde, Claude genelde yapılması gereken adımları belirleyip başlamada oldukça başarılı

[Kötü yaptığı şeyler]

Ekranı ne zaman okuması gerektiğini bilmek

Ekran görüntüsü almak maliyetli olduğu için yapay zeka, kendi işlemlerinin başarılı olduğunu varsayma eğiliminde
Örneğin bir alana yazı yazsa ama odak orada olmasa, bunu sonradan fark etmek çok zor oluyor. OS fonksiyon çağrıları, amaçlanan sonucun gerçekten oluşup oluşmadığını çok net biçimde açıklamalı
Claude'un en sık takıldığı nokta bu. Yeni bir ekran görüntüsü aldığında artık ilerleme durumunu bilmiyor

Daha fazla veri toplamak

En yakın 3 shawarma dükkanını bulması istenirse, Claude Google Maps'e 'shawarma' yazıp üstteki 3 sonucu seçecektir
Tıklaması gerekiyorsa, neredeyse hiçbir zaman menüden önce 'mesafeye göre sırala' seçeneğini kullanmıyor
Bu, daha iyi bir prompt yapısıyla çözülebilir

Durumu hatırlamak

Computer Use'ta program durumunun daha büyük kısmı görüntülerde saklandığı için, bunu hatırlamada daha kırılgan görünüyor
Bu, daha önce açılmış sekmeler veya değiştirilmiş uygulamalar gibi geçmişte yapılan şeyler için de geçerli
Claude'a mümkün olduğunca ilgili durumu metin olarak yazdırmak ve araçlarla sistem durumunu sağlamak iyi oluyor

Modal ve popup'larda gezinmek

Claude en sık modal ve popup'larda kafası karışıyor; onlardan çıkmak için nereye tıklayacağını bilmiyor ya da doğru durumda olmadığını fark etmiyor

[Ne gerekiyor?]

Mümkün olduğunca fazla sistem durumu sağlamak

İdeal olarak Claude Computer'ın vision'ı sadece kesinlikle gerektiğinde kullanmasını istersiniz
Vision kullanmadan durumu kolayca anlayabileceği araçlar sağlandığında daha hızlı hareket edip daha net düşünebilir
Şunları sağlamak çok yardımcı oluyor:
- açık uygulamaların listesi
- hangi uygulamada etkin odak olduğu
- uygulama içinde odağın nerede olduğu
- o uygulamada özel olarak gezinmek için mümkün olduğunca çok fonksiyon çağrısı
  - özellikle tarayıcı araçları önemli (ör. belirli bir URL'ye gitmek veya arama yapmak için)

Belirsizlikle başa çıkma yöntemi

Bu, ajan geliştirmedeki en büyük çözülememiş sorun
Ajanlar için en önemli şey güven ve güven için de girdi ile geri bildirim gerekiyor
Test sırasında Claude'un ne yapması gerektiğini bilmediğinin açık olduğu birçok an oldu; ama durmak ya da sormak yerine devam etti
Yapay zekanın soru sormasını veya takıldığında akıl yürütmesini sağlamak için bir soru aracı oluşturmaya epey zaman harcadım. Ama bunu neredeyse hiç kullanmadı
Bu anlaşılır. Fonksiyon çağrıları, bilgiye ihtiyaç duyduğunu bildiğiniz ve sadece onu getirmeniz gerektiği durumlarda en iyi sonucu veriyor
Ancak ne zaman belirsiz olduğunu bilmek başka bir mesele. Ajan geliştiricileri, yapay zekanın kendi belirsizliğini bildireceğine güvenebilmelidir

[İleriye giden yol]

Claude Computer Use, gerçek ajan davranışına giden ilk adım
Muhtemelen hâlâ bu mevcut modelin yeteneklerini tam anlamıyla kullanmıyoruz
Ancak gerçek bir ajan deneyimi oluşturmak için LLM fonksiyon çağrılarının ötesinde şeylere ihtiyaç olacağı açık