voyage-multimodal-3: Metin, görüntü ve ekran görüntüleri için hepsi bir arada embedding modeli

(blog.voyageai.com)

4 puan yazan GN⁺ 2024-11-18 | 1 yorum | WhatsApp'ta paylaş

Voyage AI tarafından duyurulan voyage-multimodal-3, metin ve görüntülerin karışık olduğu bilgi tabanlarını tek bir embedding modeliyle aramayı hedefleyen RAG ve semantik arama modelidir
PDF, slayt, tablo, grafik ve belge ekran görüntüleri gibi yerleşim bilgisinin önemli olduğu materyalleri belge ayrıştırma yapmadan vektörleştirebilmesi temel farkıdır
CLIP ailesi modellerin karma modalite aramasındaki sınırlarını azaltmak için metin ve görsel bilgileri aynı Transformer encoder içinde işler ve modalitelerin karışık olduğu girdilerde bağlamsal ilişkileri korur
20 multimodal arama veri kümesinde, en iyi ikinci multimodal embedding modeline göre ortalama %19,63 daha yüksek arama doğruluğu gösterdi; 34 metin arama veri kümesinde de OpenAI v3 large’ı geride bıraktı
Ekran görüntüsü oranı arttıkça CLIP tabanlı modellerin kalitesi düşerken voyage-multimodal-3 tüm aralıklarda düşük performans kaybı gösterdi; bu da onu ekran yakalamaya dayalı arama hatları için pratik kılıyor

`voyage-multimodal-3` hangi kullanım alanlarını hedefliyor?

voyage-multimodal-3, Voyage AI’ın ilk multimodal embedding modeli olup görsel materyal ve metnin birlikte yoğun olduğu bilgi tabanlarında RAG ve semantik aramayı hedefler
Girdi hedefi metinler ve içerik açısından zengin görüntülerdir; başlıca örnekler şunlardır
- Metin ekran görüntüleri
- Grafikler ve tablolar
- PDF ekran görüntüleri
- Slayt desteleri
- Diğer belge görüntüleri
Üretilen vektörler yalnızca metin anlamını değil, yazı tipi boyutu, metin konumu ve boşluklar gibi görsel özellikleri de yansıtır
Karmaşık yerleşime sahip ya da grafik/fotoğraf içeren belgelerde heuristik tabanlı ayrıştırmada doğruluk sorunları oluşabileceğinden model, özgün ekranı doğrudan arama amaçlı vektöre dönüştüren bir yaklaşım benimser
Özellik örnekleri sample notebook üzerinden görülebilir

CLIP ailesinden farklı embedding yöntemi

Amazon Titan Multimodal G1, Google Vertex AI multimodal ve Cohere multimodal v3 gibi mevcut multimodal embedding modelleri OpenAI CLIP tabanlı bir yapı kullanır
CLIP ailesi mimari, farklı modaliteleri bağımsız ağlar ile işler
- Görüntüler vision tower üzerinden vektörleştirilir
- Metinler text tower üzerinden vektörleştirilir
- Bu yapıda metin ve görüntülerin karışık olduğu girdileri tek seferde işlemek zordur
voyage-multimodal-3, iki modaliteyi aynı Transformer encoder içinde doğrudan vektörleştirir
- Metin ve görsel özellikler ayrı bileşenler olarak değil, birleşik temsilin parçası olarak ele alınır
- En yeni vision-language model mimarisinin üretim yerine vektörleştirmeye uygulanmış biçimidir
Bu sayede karışık metin ve görüntülerde, belge ekran görüntülerinde, karmaşık PDF’lerde ve açıklamalı görüntülerde görsel bilgi ile metin bilgisi arasındaki bağlamsal ilişkileri birlikte vektöre dahil edebilir

Ekran görüntülerinin karıştığı aramada ortaya çıkan fark

CLIP benzeri modeller, modalite boşluğu (modality gap) nedeniyle karma modalite aramasında daha düşük performans gösterebilir
Örnekte “I address you, members of the Seventy-Seventh Congress…” metin parçasına en yakın vektör ilgili ekran görüntüsü değil, başka bir metindi
Bu tür bir durum, metin vektörlerinin ilgili görüntülerden çok ilgisiz ama aynı modalitedeki öğelere daha yakın olmasına yol açan bir arama yanlılığına dönüşür
Voyage AI, PyTorch belgeleriyle nicel bir deney kurguladı
- Aynı içeriğe sahip belge kümeleri hem düz metin dizeleri hem de ekran görüntüleri olarak oluşturuldu
- Metin tabanlı belgelerin bir kısmı ile kalan belgelerin ekran görüntüleri karıştırılarak karma modalite veri kümesi oluşturuldu
- Ekran görüntüsü oranı %0’dan %100’e kadar farklı şekilde ayarlandı
- Her model kosinüs benzerliğiyle ilk 10 sonucu getirdi ve NDCG@10 ile değerlendirildi
CLIP tabanlı modellerde ekran görüntüsü oranı %90’a kadar arttıkça arama kalitesi düştü; tüm metinler görüntüye dönüştürüldüğünde de performans düşüktü
voyage-multimodal-3 tüm oranlarda en yüksek performansı gösterdi ve genel performans kaybı da neredeyse yoktu
Bu sonuç, ekran görüntülerinin içindeki anlamsal bilgiyi vektöre dahil etme becerisini ve tüm girdi modalitelerini aynı backbone ile işleyen yaklaşımın sağlamlığını gösteriyor

Değerlendirme veri kümeleri ve karşılaştırılan modeller

Multimodal değerlendirme 3 görevde, toplam 20 veri kümesi üzerinde yapıldı
- Tablo/grafik arama: charxiv, mmtab-test, ChartQA, Chartve, FintabnetQA, PlotQA
- Belge ekran görüntüsü arama: ViDoRe benchmark kapsamındaki Energy, Healthcare Industry, Artificial Intelligence, Government Report, InfoVQA, DocVQA, ArxivQA, TabFQuad, TAT-DQA, Shift Project
- Metin-fotoğraf arama: meme-cap, mm-imdb, winoground, docci
Standart metin arama değerlendirmesi hukuk, finans, diyalog, kod, web ve teknoloji dahil 6 alan ve 34 veri kümesi üzerinde yapıldı
Tüm veri kümelerinde sorgular metindir; belgeler grafik, fotoğraf, metin, belge ekran görüntüsü veya bunların kombinasyonları olabilir
Multimodal görevlerde karşılaştırılan modeller şunlardır
- OpenAI CLIP large (clip-vit-large-patch14-336)
- Amazon Titan Multimodal Embeddings G1 (amazon.titan-embed-image-v1)
- Cohere multimodal v3 (embed-multimodal-v3.0)
- SigLIP So400M (siglip-so400m-patch14-384)
- ColQwen2 v0.1 (colqwen-v0.1)
Standart metin aramada OpenAI v3 large (text-embeddings-3-large), Cohere multimodal/English 1 v3 ve voyage-3 ile karşılaştırıldı
Cohere multimodal v3, saf metinde text tower olarak Cohere English v3 (embed-english-v3.0) kullandığından, grafikte karışıklığı azaltmak için yalnızca “Cohere multimodal v3” etiketi kullanıldı

Arama doğruluğu sonuçları

voyage-multimodal-3, 20 multimodal arama veri kümesinin tamamında en iyi ikinci multimodal embedding modelinden ortalama %19,63 daha yüksek arama doğruluğu kaydetti
Tablo/grafik aramada OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M ve ColQwen2 v0.1’e göre sırasıyla %41,44, %45,00, %43,37, %20,66 ve %6,14 önde çıktı
Belge ekran görüntüsü aramada aynı karşılaştırma modellerine göre sırasıyla %26,54, %37,68, %25,84, %35,62 ve %0,98 daha yüksek performans gösterdi
Metin-fotoğraf aramada aynı karşılaştırma modellerine göre sırasıyla %6,55, %5,16, %5,86, %3,42 ve %10,34 önde çıktı
Standart metin aramada OpenAI v3 large’dan %5,13, Cohere multimodal/English 1 v3’ten ise %13,70 daha yüksek performans verdi
Saf metin belge arama doğruluğu voyage-3ten %0,05 daha yüksek olup iki model neredeyse aynı seviyededir
Değerlendirmenin tüm sonuçları spreadsheet üzerinde yayımlanmıştır

Kullanıma başlama ve sunulan materyaller

voyage-multimodal-3, duyurulduğu günden itibaren kullanılabilir
İlk 200 milyon token ücretsizdir
Başlangıç materyalleri sample notebook ve docs üzerinden sunulur
Fine-tuning embedding modelleriyle ilgilenen kullanıcılar contact@voyageai.com adresinden iletişime geçebilir

1 yorum

GN⁺ 2024-11-18

Hacker News yorumları

Temel gözlem basit ve sezgisel: Tüm CLIP ailesi modeller, modaliteler arası boşluk (modality gap) nedeniyle karma modaliteli aramada iyi performans göstermiyor
Örneğin “I address you, members of the Seventy-Seventh Congress…” cümlesine en yakın vektörün ilgili ekran görüntüsü değil de başka bir metin olması gibi. Bu yüzden gömme uzayında metin vektörü, ilgili görselden çok alakasız bir metne daha yakın hale geliyor ve arama sonuçları aynı modaliteye doğru kayıyor
- Bu alıntı önemli, ancak tek başına bakıldığında bu sorunu çözdüklerini iddia edip etmedikleri net değil. Yeni model voyage-multimodal-3'ün modaliteler arasında bağlantılı kavramları tanımladığını söylüyor gibi
  Görsel olarak ya da metinle ifade edilse de aynı fikri kümeleyebilen bir gizil uzay varsa bu oldukça hoş bir şey. Ancak bu benchmark'ın multimodal embedding'lere oldukça dar bir açıdan baktığını düşünüyorum. İlgili metin görseliyle metin embedding'inin yakın olması kullanışlı, ama bunun “rabbit” ile tavşan fotoğrafı gibi farklı görsel temsillerin ilişkisine kadar genişlediğini söylemek zor. Dar hedef belge görsellerini indekslemekse, başka tekniklerin de oldukça iyi çalışabileceğini düşünüyorum. Metin ortamının ötesine geçen multimodal kavram temsili için yeni bir benchmark veri kümesinin ortaya çıkması açısından iyi bir fırsat gibi görünüyor
- Bu sorun, iki modalite arasında büyük bir gizil uzay boşluğu oluşmasını engelleyen multimodal mixup ile çözülüyor olabilir: https://arxiv.org/abs/2203.03897
Bu alanla ilgileniyorsanız, içeride ColPali'yi şeffaf biçimde kullanan projemizi de adaylar arasına alabilirsiniz
https://github.com/tjmlabs/ColiVara
Bu taraftaki ana benchmark Vidore liderlik tablosu; VoyageAI'ın daha açık açık kaynak uygulamalarla karşılaştırıldığında nerede durduğunu görmek isterim
Bir şeyi kaçırıyor gibiyim. “Yerel multimodal” olan bir LLM'in bir şekilde multimodal embedding içermesi gerekmez mi diye düşünüyorum
Örneğin Google'ın Gemini blog yazısı, mevcut multimodal modellerin farklı modaliteler için bileşenleri ayrı ayrı eğitip sonra birleştirdiğini, Gemini'nin ise en baştan birden fazla modaliteyle ön eğitimden geçirildiğini ve ek multimodal verilerle ince ayarlandığını açıklıyor. Bu yüzden her tür girdiyi en baştan doğal biçimde anladığını ve üzerinde akıl yürütebildiğini iddia ediyor
- Gemini gibi LLM'ler, daha genel olarak nedensel dil modelleri, sonraki token tahminiyle eğitildiği için çıktı token embedding'lerini havuzlayarak elde edilen vektörler, gerçek embedding modellerinden elde edilenlere kıyasla RAG veya anlamsal arama için pek kullanışlı değil
  Burada ayırt edilmesi gereken nokta, token embedding'leri ile embedding modelinin çıktısı olan vektör/embedding'lerin ilişkili ama ayrı kavramlar olduğu. Token başına bir tane olmak üzere çok sayıda token embedding'i transformer'dan geçerken bağlamsallaştırılır; embedding modeli ise uzun metin, fotoğraf, belge ekran görüntüsü gibi tek bir girdi verisi başına tek bir vektör üretir
- LLM embedding'lerinde birçok kavramın üst üste binmiş temsili bulunduğundan sonraki token'ı tahmin edebilirler, ancak kontrastif öğrenmeyle ön eğitilmiş embedding modellerinden daha iyi performans göstermezler
- Diğer yanıtlar net değilse burada “embedding”i “yapay zeka modelimin bir katmanının ürettiği liste” gibi düşünebilirsiniz
  Tam olarak biraz daha spesifik bir kavram, ama bu bağlamda doğru. Multimodal LLM'ler dahil LLM'lerde de embedding'ler vardır, ancak bunlar benzer belgeleri bulacak şekilde eğitilmiş embedding'ler değil, metin üretimi yoluyla eğitilmiş embedding'lerdir
Oldukça etkileyici görünüyor. Sunulan değerlendirmeye yönelik eleştirel bakış açılarını merak ediyorum
İngilizce dışı metinlerde nasıl olacağını da merak ediyorum. Diğer ticari modeller gibi yalnızca API üzerinden sunulan bir model diye anlamam doğru mu?
- Evet, Voyage modelleri yalnızca API ile sunuluyor
  Çok dillilikle ilgili bir şey yazmıştım ama yanlıştı, sildim. Bu arada Voyage'ın ayrı law, code, finance modelleri de var. [1]'e bakın
  Her hâlükârda sonuçlar gerçekten ilginç
  [1]: https://docs.voyageai.com/docs/embeddings
Modelin ticari ve kapalı kaynak olup yalnızca API ile sunulması üzücü
- Çalışanlara maaş ödemek zorunda olmak üzücü bir şey mi?
Yalnızca API ile sunulan model ise ben almayayım. Yine de tebrikler
- İki kısma da katılıyorum. Elbette insanlardan para almaya çalışmanın dışında da yalnızca API'ye odaklanmak için net nedenler olabilir, ancak başka seçenek sunulmaması bile kişisel olarak değerlendirmemem için yeterli olurdu
Oldukça ilginç görünüyor. Görüntü ve ses gibi çeşitli veri türlerini LLM'lere entegre etmeye yarayan bir framework olan AnyModal üzerinde çalışıyordum: https://github.com/ritabratamaiti/AnyModal
voyage-multimodal-3, multimodal LLM geliştirme için oldukça umut verici görünüyor, ancak bunun amaçlanan kullanım senaryosu olup olmadığından emin değilim
Geleneksel Python API'sinde Voyage motoru metin bloklarını tokenize eder ve string çıktılar. Bu model bunu, görüntüleri uzay içinde vektörleştirerek yapıyor gibi görünüyor
you veya apple gibi kelimeler tek bir token olurken, pikachu gibi daha karmaşık terimler pik-a-chu gibi bölünebilir
[1]: https://docs.voyageai.com/docs/tokenization
Multimodal embedding'lere bakış biçimi ilginç. Girdi bir modaliteden diğerine giderek kayarken oranına göre performans değişimini ölçüyor
https://i0.wp.com/blog.voyageai.com/wp-content/uploads/2024/...
Colab'de nokta çarpım değerleri 0.428 ve 0.498 ölçülüp bunlar “benzerlik değerleri oldukça yüksek” diye açıklanıyor. Bunun gerçekten yüksek bir değer olup olmadığını merak ediyorum
Verileri 0.4 eşiğiyle güvenle etiketleyen bir sistem tasarlanabilir mi?
- Ham benzerlik puanı da önemli olsa da, genellikle daha önemli olan şey diğer belgelerle karşılaştırıldığındaki göreli puandır
  Notebook örneğinde bu değerler göreli olarak en yüksek olanlardı. Bunun neden belirsiz veya kafa karıştırıcı olabileceğini anlıyorum, düzelteceğim
- Ham çıktı değerinin kendisi çoğu zaman önemli değildir. Önemli olan çıktı dağılımı içindeki konumudur
- Kosinüs benzerliğindeki 0.4, sigmoid eşiğindeki 0.4 ile aynı değildir
  Neredeyse aynı kopya veriler olmayan gerçek verilerde 0.4 kosinüs benzerliği oldukça iyi bir değerdir

voyage-multimodal-3: Metin, görüntü ve ekran görüntüleri için hepsi bir arada embedding modeli

voyage-multimodal-3 hangi kullanım alanlarını hedefliyor?

CLIP ailesinden farklı embedding yöntemi

Ekran görüntülerinin karıştığı aramada ortaya çıkan fark

Değerlendirme veri kümeleri ve karşılaştırılan modeller

Arama doğruluğu sonuçları

Kullanıma başlama ve sunulan materyaller

İlgili okumalar

1 yorum

Hacker News yorumları

`voyage-multimodal-3` hangi kullanım alanlarını hedefliyor?