5 puan yazan 230kimi 2026-03-31 | 2 yorum | WhatsApp'ta paylaş

Gemini embedding-2-preview (yerel çok modlu gömme) ile akademik makale PDF’lerinde metin gömmeleri ve görüntü gömmelerini karşılaştıran deney sonuçlarının özeti.

∙	Aynı sayfadaki metin↔görüntü kosinüs benzerliği ortalaması 0.642. SEM fotoğrafları, grafik eğrileri, uzamsal yerleşim gibi görsel bilgilerin yaklaşık %36’sı metin gömmelerine yansımıyor  
∙	18 metin sorgusuyla yapılan aramada görüntü indeksi (MRR 0.719), metin indeksinden (0.631) daha iyi performans gösterdi. Temel terimlerin birden çok sayfada tekrarlandığı makale yapısı nedeniyle, görüntüler sayfaları ayırt etmede daha yüksek ayırt edicilik sağladı  
∙	Metin+görüntünün birleştirildiği Multi gömme (MRR 0.650), yalnızca görüntü kullanımından daha düşük çıktı. İki modalitenin özelliklerinin seyrelmesi etkisi  
∙	Aynı belge içinde çapraz modal arama (metin→görüntü), Hit@5 %0 ile başarısız oldu. Bunun nedeni, sayfalar arası metin benzerliğinin aynı sayfadaki metin↔görüntü benzerliğinden daha yüksek olması  

Figure içeren belgelerde görüntü indeksleme daha avantajlı; bu da “önce metni çıkar, sonra vektörleştir” şeklindeki RAG varsayılanını yeniden düşünmek gerektiği sonucuna varıyor.

2 yorum

 
mammal 29 일 전

ColPali ile karşılaştırıldığında nasıl?

 
230kimi 29 일 전

İngilizcede colpali'nin kesinlikle daha iyi olduğu görünüyor. Ancak Korece ya da İngilizce dışındaki dillerde doğruluk ciddi şekilde düşüyor ağlama yüzü ağlama yüzü