- Kendi ürünlerinde kullandıkları çok modlu (görüntü + metin) modelin daha küçük bir sürümü
- Mimari ve eğitim süreci son derece basit (görüntü kodlayıcı yok)
- Dijital ajanlar için tasarlandı; rastgele görüntü çözünürlüklerini destekliyor ve grafikler ile diyagramlar hakkında, ayrıca arayüz tabanlı sorulara yanıt verebiliyor
- Büyük görüntülerde bile 100 ms içinde yanıt üretebilecek kadar hızlı
- Kendi kullanım senaryoları için optimize edilmiş olmasına rağmen, standart görüntü anlama benchmark'larında da çok iyi performans gösteriyor
- CC-BY-NC lisansı ile yayımlandı
Henüz yorum yok.