4 puan yazan GN⁺ 2024-11-18 | 1 yorum | WhatsApp'ta paylaş
  • voyage-multimodal-3, metin ve görsellerin karışık olduğu belgelerde görsel ve metinsel özellikleri vektörleştirebilen son teknoloji bir modeldir

    • PDF, slayt, tablo ve çizim gibi ekran görüntülerindeki temel görsel özellikleri yakalayarak karmaşık belge ayrıştırma ihtiyacını ortadan kaldırır
    • 20 veri kümesi kullanılan 3 çok modlu arama görevinde ortalama %19,63 arama doğruluğu artışı gösterir
  • Mevcut modellerle karşılaştırma

    • voyage-multimodal-3, tablo/çizim aramasında OpenAI CLIP large ve Cohere multimodal v3'ten sırasıyla %41,44 ve %43,37 daha iyi performans gösterir
    • belge ekran görüntüsü aramasında sırasıyla %26,54 ve %25,84 daha iyi performans gösterir
    • metin-fotoğraf aramasında sırasıyla %6,55 ve %5,86 daha iyi performans gösterir
  • Metin ve görsel karışımını destekleme

    • Mevcut çok modlu embedding modelleri metin ve görselleri ayrı ağlarda işlerken, voyage-multimodal-3 her iki modu da aynı transformer encoder üzerinden doğrudan vektörleştirir
    • Bu, görsel ve metinsel bilgi arasındaki bağlamsal ilişkiyi koruyarak karışık metin ve görsellerin, belge ekran görüntülerinin ve karmaşık yerleşime sahip PDF'lerin vektörleştirilmesini sağlar
  • Ekran görüntüleriyle karışık mod arama

    • CLIP benzeri modellerde modlar arası fark nedeniyle karışık mod aramada performans düşer
    • voyage-multimodal-3, tüm ekran görüntüsü oranlarında en iyi performansı gösterir ve ekran görüntülerinin anlamsal içeriğini gerçekten yakalar
  • Değerlendirme ayrıntıları

    • voyage-multimodal-3, 20 çok modlu veri kümesi ve 34 metin arama veri kümesi üzerinde değerlendirilmiştir
    • Her görev için önceki en iyi performans gösteren model baz alınarak değerlendirme yapılmıştır
  • Sonuçlar

    • Çok modlu aramada voyage-multimodal-3; OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M ve ColQwen2 v0.1'den daha iyi performans gösterir
    • Standart metin aramasında OpenAI v3 large ve Cohere multimodal/English1 v3'ten sırasıyla %5,13 ve %13,70 daha iyi performans gösterir
  • Kullanım bilgisi

    • voyage-multimodal-3 şu anda kullanılabilir ve ilk 200 milyon token ücretsiz sunulmaktadır
    • örnek notebook ile başlayabilir veya daha fazla bilgi için dokümantasyona başvurabilirsiniz

1 yorum

 
GN⁺ 2024-11-18
Hacker News görüşleri
  • CLIP modeli, karma modaliteli aramada düşük performans gösterme eğiliminde. Bunun nedeni modalite boşluğu; metin vektörleri ilgili olmayan metinlere daha yakın görünebiliyor
    • Google'ın Gemini modeli en baştan multimodal olarak tasarlandığı için bu sorunu iyileştiriyor. Çeşitli modaliteler üzerinde önceden eğitildiğinden tüm girdileri etkili biçimde anlayıp akıl yürütebiliyor
  • ColiVara projesi, ColPali kullanarak multimodal bir model uyguluyor. Vidore leaderboard'unda VoyageAI performansını karşılaştırmak isterim
  • Ticari modellerin yalnızca API üzerinden sunulması üzücü
  • Yalnızca API modeli yaklaşımına eleştirel bakmak gerekiyor. Özellikle İngilizce dışı metinler için değerlendirme yapılmalı
  • Gerçek veri kümeleri kullanarak nitel analiz yapmak önemli. Nicel benchmark'lar faydalı olsa da nadiren kullanılıyor
  • Multimodal embedding'lere bakmanın ilginç bir yolu. Performans, girdinin bir modaliteden diğerine geçiş oranına göre değerlendiriliyor
  • Voyage motoru, geleneksel Python API'sinde metin bloklarını tokenize ederek karakter dizeleri çıktısı veriyor. Bu model bunu görsellerin vektörleştirilmesi üzerinden yapıyor
    • 'you' ve 'apple' gibi kelimeler tek bir token olarak işlenirken, 'pikachu' gibi daha karmaşık terimler 'pik-a-chu' şeklinde bölünebilir
  • Colab'de 0.428 ve 0.498 nokta çarpımı değerleri "oldukça yüksek benzerlik değerleri" olarak açıklanıyor. 0.4 eşiğiyle verileri güvenle etiketleyebilen bir sistem tasarlanıp tasarlanamayacağı konusunda soru işaretleri var