4 puan yazan xguru 2024-10-28 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Anthropic'in Computer Use API'si denendiğinde,
    • yavaş, güvenilmez ve bilgisayarı ele geçirmek kolay, ama "inanılmaz derecede ilginç"
  • Claude Computer, vision her şeyi bir araya getiren API olduğu için her zaman bir şeyler yapabilmesi sayesinde gerçek bir 'ajan' deneyimi hissettiriyor

Nasıl çalışıyor?

  • Claude Computer Use, temelde bilgisayar etkileşim verileriyle fine-tune edilmiş Claude3.5 gibi görünüyor
  • Diğer modellerden çok daha iyi şekilde bilgisayarı ve içindekilerin ekran görüntülerini anlıyor

[İyi yaptığı şeyler]

Ekranı okuma ve gezinme (görece)

  • Claude'un ekran görüntüsündeki içeriği yanlış okuduğunu neredeyse hiç görmedim
  • Diğer yapay zekalara kıyasla (500,250) konumundaki giriş alanına tıklayın gibi koordinatları anlamada oldukça iyi (ekran boyutuna göre biraz sapabiliyor)

Fonksiyon çağrısı

  • Fonksiyon çağrısının yapılandırılmış çıktılardan daha katı ve daha kötü olduğunu düşünmeye alışmıştım, ama Claude Computer fonksiyon çağrılarını iyi kullanıyor
  • Örneğin anında bir web sitesine gidebilen bir tarayıcı araç fonksiyonu verildiğinde, tarayıcı simgesine tıklamak yerine o fonksiyonu tercih ediyor

Adım adım düşünme

  • Bir işi parçalara ayırması istendiğinde, Claude genelde yapılması gereken adımları belirleyip başlamada oldukça başarılı

[Kötü yaptığı şeyler]

Ekranı ne zaman okuması gerektiğini bilmek

  • Ekran görüntüsü almak maliyetli olduğu için yapay zeka, kendi işlemlerinin başarılı olduğunu varsayma eğiliminde
  • Örneğin bir alana yazı yazsa ama odak orada olmasa, bunu sonradan fark etmek çok zor oluyor. OS fonksiyon çağrıları, amaçlanan sonucun gerçekten oluşup oluşmadığını çok net biçimde açıklamalı
  • Claude'un en sık takıldığı nokta bu. Yeni bir ekran görüntüsü aldığında artık ilerleme durumunu bilmiyor

Daha fazla veri toplamak

  • En yakın 3 shawarma dükkanını bulması istenirse, Claude Google Maps'e 'shawarma' yazıp üstteki 3 sonucu seçecektir
  • Tıklaması gerekiyorsa, neredeyse hiçbir zaman menüden önce 'mesafeye göre sırala' seçeneğini kullanmıyor
  • Bu, daha iyi bir prompt yapısıyla çözülebilir

Durumu hatırlamak

  • Computer Use'ta program durumunun daha büyük kısmı görüntülerde saklandığı için, bunu hatırlamada daha kırılgan görünüyor
  • Bu, daha önce açılmış sekmeler veya değiştirilmiş uygulamalar gibi geçmişte yapılan şeyler için de geçerli
  • Claude'a mümkün olduğunca ilgili durumu metin olarak yazdırmak ve araçlarla sistem durumunu sağlamak iyi oluyor

Modal ve popup'larda gezinmek

  • Claude en sık modal ve popup'larda kafası karışıyor; onlardan çıkmak için nereye tıklayacağını bilmiyor ya da doğru durumda olmadığını fark etmiyor

[Ne gerekiyor?]

Mümkün olduğunca fazla sistem durumu sağlamak

  • İdeal olarak Claude Computer'ın vision'ı sadece kesinlikle gerektiğinde kullanmasını istersiniz
  • Vision kullanmadan durumu kolayca anlayabileceği araçlar sağlandığında daha hızlı hareket edip daha net düşünebilir
  • Şunları sağlamak çok yardımcı oluyor:
    • açık uygulamaların listesi
    • hangi uygulamada etkin odak olduğu
    • uygulama içinde odağın nerede olduğu
    • o uygulamada özel olarak gezinmek için mümkün olduğunca çok fonksiyon çağrısı
      • özellikle tarayıcı araçları önemli (ör. belirli bir URL'ye gitmek veya arama yapmak için)

Belirsizlikle başa çıkma yöntemi

  • Bu, ajan geliştirmedeki en büyük çözülememiş sorun
  • Ajanlar için en önemli şey güven ve güven için de girdi ile geri bildirim gerekiyor
  • Test sırasında Claude'un ne yapması gerektiğini bilmediğinin açık olduğu birçok an oldu; ama durmak ya da sormak yerine devam etti
  • Yapay zekanın soru sormasını veya takıldığında akıl yürütmesini sağlamak için bir soru aracı oluşturmaya epey zaman harcadım. Ama bunu neredeyse hiç kullanmadı
  • Bu anlaşılır. Fonksiyon çağrıları, bilgiye ihtiyaç duyduğunu bildiğiniz ve sadece onu getirmeniz gerektiği durumlarda en iyi sonucu veriyor
  • Ancak ne zaman belirsiz olduğunu bilmek başka bir mesele. Ajan geliştiricileri, yapay zekanın kendi belirsizliğini bildireceğine güvenebilmelidir

[İleriye giden yol]

  • Claude Computer Use, gerçek ajan davranışına giden ilk adım
  • Muhtemelen hâlâ bu mevcut modelin yeteneklerini tam anlamıyla kullanmıyoruz
  • Ancak gerçek bir ajan deneyimi oluşturmak için LLM fonksiyon çağrılarının ötesinde şeylere ihtiyaç olacağı açık

Henüz yorum yok.

Henüz yorum yok.