- GPT-4(V) ile web etkileşimini otomatikleştirirken ortaya çıkan sorular
- LLM'in yanıtları web öğeleriyle nasıl eşleştirilebilir?
- LLM'in çalışma alanını daha iyi anlaması için sayfa nasıl işaretlenmeli?
- Yalnızca metin tabanlı bir LLM'e nasıl "ekran görüntüsü" sağlanabilir?
- Tarsier, çok modlu web ajanları için bir görsel yardımcı araçtır
- [1] gibi kimlikler aracılığıyla sayfadaki etkileşime açık öğeleri görsel olarak "etiketleyerek" çalışır
- Böylece GPT-4(V)'nin görevleri yerine getirebilmesi için öğeler ile kimlikler arasında eşleme sağlar
- Etkileşime açık öğeler, sayfada görünen düğmeler, bağlantılar veya giriş alanları olarak tanımlanır
- Sayfanın metinsel bir temsilini sağlayabilir
- Yani çok modlu olmayan LLM'lerde de daha derin etkileşim mümkündür
- Bu, mevcut görsel-dil modellerinin performans sorunları göz önüne alındığında önemli bir noktadır
- Ayrıca sayfa ekran görüntüsünü, görsel yeteneği olmayan LLM'lerin anlayabileceği boşluk yapısına sahip bir dizeye dönüştüren bir OCR yardımcı aracı sunar
- Desteklenen OCR hizmetleri
- Şu anda yalnızca Google Cloud Vision destekleniyor; Amazon Textract ve Microsoft Azure Computer Vision desteği planlanıyor
Henüz yorum yok.