PDF makalelerde RAG için yalnızca metin yeterli mi? - Gemini embedding 002 gömme arama deneyi

(brunch.co.kr/@230kimi)

5 puan yazan 230kimi 2026-03-31 | 2 yorum | WhatsApp'ta paylaş

Gemini embedding-2-preview (yerel çok modlu gömme) ile akademik makale PDF’lerinde metin gömmeleri ve görüntü gömmelerini karşılaştıran deney sonuçlarının özeti.

∙	Aynı sayfadaki metin↔görüntü kosinüs benzerliği ortalaması 0.642. SEM fotoğrafları, grafik eğrileri, uzamsal yerleşim gibi görsel bilgilerin yaklaşık %36’sı metin gömmelerine yansımıyor  
∙	18 metin sorgusuyla yapılan aramada görüntü indeksi (MRR 0.719), metin indeksinden (0.631) daha iyi performans gösterdi. Temel terimlerin birden çok sayfada tekrarlandığı makale yapısı nedeniyle, görüntüler sayfaları ayırt etmede daha yüksek ayırt edicilik sağladı  
∙	Metin+görüntünün birleştirildiği Multi gömme (MRR 0.650), yalnızca görüntü kullanımından daha düşük çıktı. İki modalitenin özelliklerinin seyrelmesi etkisi  
∙	Aynı belge içinde çapraz modal arama (metin→görüntü), Hit@5 %0 ile başarısız oldu. Bunun nedeni, sayfalar arası metin benzerliğinin aynı sayfadaki metin↔görüntü benzerliğinden daha yüksek olması

Figure içeren belgelerde görüntü indeksleme daha avantajlı; bu da “önce metni çıkar, sonra vektörleştir” şeklindeki RAG varsayılanını yeniden düşünmek gerektiği sonucuna varıyor.

2 yorum

mammal 2026-03-31

ColPali ile karşılaştırıldığında nasıl?

230kimi 2026-03-31

İngilizcede colpali'nin kesinlikle daha iyi olduğu görünüyor. Ancak Korece ya da İngilizce dışındaki dillerde doğruluk ciddi şekilde düşüyor ağlama yüzü ağlama yüzü

PDF makalelerde RAG için yalnızca metin yeterli mi? - Gemini embedding 002 gömme arama deneyi

İlgili okumalar

2 yorum