Tarsier - Web etkileşim ajanları için görsel yardımcı araç

xguru · 2023-11-16T10:03:01+09:00

GPT-4(V) ile web etkileşimini otomatikleştirirken ortaya çıkan sorular LLM'in yanıtları web öğeleriyle nasıl eşleştirilebilir? LLM'in çalışma alanını daha iyi anlaması için sayfa nasıl işaretlenmeli? Yalnızca metin tabanlı bir LLM'e nasıl "ekran görüntüsü" sağlanabilir? Tarsier, çok modlu web ajanları için bir görsel yardımcı araçtır [1] gibi kimlikler aracılığıyla sayfadaki etkileşime açık öğeleri görsel olarak "etiketleyerek" çalışır Böylece GPT-4(V)'nin görevleri yerine getirebilmesi için öğeler ile kimlikler arasında eşleme sağlar Etkileşime açık öğeler, sayfada görünen düğmeler, bağlantılar veya giriş alanları olarak tanımlanır Sayfanın metinsel bir temsilini sağlayabilir Yani çok modlu olmayan LLM'lerde de daha derin etkileşim mümkündür Bu, mevcut görsel-dil modellerinin performans sorunları göz önüne alındığında önemli bir noktadır Ayrıca sayfa ekran görüntüsünü, görsel yeteneği olmayan LLM'lerin anlayabileceği boşluk yapısına sahip bir dizeye dönüştüren bir OCR yardımcı aracı sunar Desteklenen OCR hizmetleri Şu anda yalnızca Google Cloud Vision destekleniyor; Amazon Textract ve Microsoft Azure Computer Vision desteği planlanıyor

(github.com/reworkd)

6 puan yazan xguru 2023-11-16 | Henüz yorum yok. | WhatsApp'ta paylaş

GPT-4(V) ile web etkileşimini otomatikleştirirken ortaya çıkan sorular
- LLM'in yanıtları web öğeleriyle nasıl eşleştirilebilir?
- LLM'in çalışma alanını daha iyi anlaması için sayfa nasıl işaretlenmeli?
- Yalnızca metin tabanlı bir LLM'e nasıl "ekran görüntüsü" sağlanabilir?
Tarsier, çok modlu web ajanları için bir görsel yardımcı araçtır
- [1] gibi kimlikler aracılığıyla sayfadaki etkileşime açık öğeleri görsel olarak "etiketleyerek" çalışır
- Böylece GPT-4(V)'nin görevleri yerine getirebilmesi için öğeler ile kimlikler arasında eşleme sağlar
- Etkileşime açık öğeler, sayfada görünen düğmeler, bağlantılar veya giriş alanları olarak tanımlanır
- Sayfanın metinsel bir temsilini sağlayabilir
  - Yani çok modlu olmayan LLM'lerde de daha derin etkileşim mümkündür
  - Bu, mevcut görsel-dil modellerinin performans sorunları göz önüne alındığında önemli bir noktadır
- Ayrıca sayfa ekran görüntüsünü, görsel yeteneği olmayan LLM'lerin anlayabileceği boşluk yapısına sahip bir dizeye dönüştüren bir OCR yardımcı aracı sunar
Reklam
Desteklenen OCR hizmetleri
- Şu anda yalnızca Google Cloud Vision destekleniyor; Amazon Textract ve Microsoft Azure Computer Vision desteği planlanıyor

Tarsier - Web etkileşim ajanları için görsel yardımcı araç

İlgili okumalar

Henüz yorum yok.