voyage-multimodal-3: metin, görsel ve ekran görüntüleri için hepsi bir arada embedding modeli
(blog.voyageai.com)-
voyage-multimodal-3, metin ve görsellerin karışık olduğu belgelerde görsel ve metinsel özellikleri vektörleştirebilen son teknoloji bir modeldir
- PDF, slayt, tablo ve çizim gibi ekran görüntülerindeki temel görsel özellikleri yakalayarak karmaşık belge ayrıştırma ihtiyacını ortadan kaldırır
- 20 veri kümesi kullanılan 3 çok modlu arama görevinde ortalama %19,63 arama doğruluğu artışı gösterir
-
Mevcut modellerle karşılaştırma
- voyage-multimodal-3, tablo/çizim aramasında OpenAI CLIP large ve Cohere multimodal v3'ten sırasıyla %41,44 ve %43,37 daha iyi performans gösterir
- belge ekran görüntüsü aramasında sırasıyla %26,54 ve %25,84 daha iyi performans gösterir
- metin-fotoğraf aramasında sırasıyla %6,55 ve %5,86 daha iyi performans gösterir
-
Metin ve görsel karışımını destekleme
- Mevcut çok modlu embedding modelleri metin ve görselleri ayrı ağlarda işlerken, voyage-multimodal-3 her iki modu da aynı transformer encoder üzerinden doğrudan vektörleştirir
- Bu, görsel ve metinsel bilgi arasındaki bağlamsal ilişkiyi koruyarak karışık metin ve görsellerin, belge ekran görüntülerinin ve karmaşık yerleşime sahip PDF'lerin vektörleştirilmesini sağlar
-
Ekran görüntüleriyle karışık mod arama
- CLIP benzeri modellerde modlar arası fark nedeniyle karışık mod aramada performans düşer
- voyage-multimodal-3, tüm ekran görüntüsü oranlarında en iyi performansı gösterir ve ekran görüntülerinin anlamsal içeriğini gerçekten yakalar
-
Değerlendirme ayrıntıları
- voyage-multimodal-3, 20 çok modlu veri kümesi ve 34 metin arama veri kümesi üzerinde değerlendirilmiştir
- Her görev için önceki en iyi performans gösteren model baz alınarak değerlendirme yapılmıştır
-
Sonuçlar
- Çok modlu aramada voyage-multimodal-3; OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M ve ColQwen2 v0.1'den daha iyi performans gösterir
- Standart metin aramasında OpenAI v3 large ve Cohere multimodal/English1 v3'ten sırasıyla %5,13 ve %13,70 daha iyi performans gösterir
-
Kullanım bilgisi
- voyage-multimodal-3 şu anda kullanılabilir ve ilk 200 milyon token ücretsiz sunulmaktadır
- örnek notebook ile başlayabilir veya daha fazla bilgi için dokümantasyona başvurabilirsiniz
1 yorum
Hacker News görüşleri