PDF makalelerde RAG için yalnızca metin yeterli mi? - Gemini embedding 002 gömme arama deneyi
(brunch.co.kr/@230kimi)Gemini embedding-2-preview (yerel çok modlu gömme) ile akademik makale PDF’lerinde metin gömmeleri ve görüntü gömmelerini karşılaştıran deney sonuçlarının özeti.
∙ Aynı sayfadaki metin↔görüntü kosinüs benzerliği ortalaması 0.642. SEM fotoğrafları, grafik eğrileri, uzamsal yerleşim gibi görsel bilgilerin yaklaşık %36’sı metin gömmelerine yansımıyor
∙ 18 metin sorgusuyla yapılan aramada görüntü indeksi (MRR 0.719), metin indeksinden (0.631) daha iyi performans gösterdi. Temel terimlerin birden çok sayfada tekrarlandığı makale yapısı nedeniyle, görüntüler sayfaları ayırt etmede daha yüksek ayırt edicilik sağladı
∙ Metin+görüntünün birleştirildiği Multi gömme (MRR 0.650), yalnızca görüntü kullanımından daha düşük çıktı. İki modalitenin özelliklerinin seyrelmesi etkisi
∙ Aynı belge içinde çapraz modal arama (metin→görüntü), Hit@5 %0 ile başarısız oldu. Bunun nedeni, sayfalar arası metin benzerliğinin aynı sayfadaki metin↔görüntü benzerliğinden daha yüksek olması
Figure içeren belgelerde görüntü indeksleme daha avantajlı; bu da “önce metni çıkar, sonra vektörleştir” şeklindeki RAG varsayılanını yeniden düşünmek gerektiği sonucuna varıyor.
2 yorum
ColPali ile karşılaştırıldığında nasıl?
İngilizcede colpali'nin kesinlikle daha iyi olduğu görünüyor. Ancak Korece ya da İngilizce dışındaki dillerde doğruluk ciddi şekilde düşüyor ağlama yüzü ağlama yüzü