6 puan yazan xguru 2023-11-16 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-4(V) ile web etkileşimini otomatikleştirirken ortaya çıkan sorular
    • LLM'in yanıtları web öğeleriyle nasıl eşleştirilebilir?
    • LLM'in çalışma alanını daha iyi anlaması için sayfa nasıl işaretlenmeli?
    • Yalnızca metin tabanlı bir LLM'e nasıl "ekran görüntüsü" sağlanabilir?
  • Tarsier, çok modlu web ajanları için bir görsel yardımcı araçtır
    • [1] gibi kimlikler aracılığıyla sayfadaki etkileşime açık öğeleri görsel olarak "etiketleyerek" çalışır
    • Böylece GPT-4(V)'nin görevleri yerine getirebilmesi için öğeler ile kimlikler arasında eşleme sağlar
    • Etkileşime açık öğeler, sayfada görünen düğmeler, bağlantılar veya giriş alanları olarak tanımlanır
    • Sayfanın metinsel bir temsilini sağlayabilir
      • Yani çok modlu olmayan LLM'lerde de daha derin etkileşim mümkündür
      • Bu, mevcut görsel-dil modellerinin performans sorunları göz önüne alındığında önemli bir noktadır
    • Ayrıca sayfa ekran görüntüsünü, görsel yeteneği olmayan LLM'lerin anlayabileceği boşluk yapısına sahip bir dizeye dönüştüren bir OCR yardımcı aracı sunar
  • Desteklenen OCR hizmetleri
    • Şu anda yalnızca Google Cloud Vision destekleniyor; Amazon Textract ve Microsoft Azure Computer Vision desteği planlanıyor

Henüz yorum yok.

Henüz yorum yok.