Sorun
- Semantik/doğal dil araması ve RAG için vektör gömme yapmak gerekir
- Çoğu gömme modelinin girdi uzunluğu sınırı vardır
- Uygun girdi uzunluğunu ayarlamak, arama kalitesiyle doğrudan bağlantılıdır
- Girdi uzunluğu sınırı nedeniyle çoğu durumda paragraflar bölünerek depolanır
- Orijinal metin bölünerek depolandığında, tek bir belge birden fazla belgeye ayrılmış olur
- Belgelerin çoğu yalnızca tek bir metin verisinden oluşmaz; meta veriler ve diğer uzun alanlar da içerir
- Bölünmüş veriyi depolamak için, bölünmüş orijinal metni ve ek bilgileri ya yinelenmiş şekilde saklamak ya da koleksiyonları (veya tabloları) ayırmak gerekir
- Yinelenmiş depolama, depolama alanını artırarak verimsizlik yaratır; ayrılmış koleksiyonlar ise arama sürecinde join, skor hesaplama, belge sayısı hesaplama gibi karmaşıklıkları artırır
- Bu yaklaşım, çoğu vektör deposu kullanılırken sıkça karşılaşılan bir sorundur
Çözüm
- Orijinal metni bölmeden başka bir yöntem aradık
- Gömme verisinin saklandığı alanın 2 boyutlu veri girdisini kabul edebilmesi için DB'yi ve ilgili kütüphaneleri değiştirdik
- Bu sayede, orijinal metin bölünmeden kalırken belge bazında bir veya daha fazla parçaya ayrılmış, değişken uzunluklu vektör verisi depolanabilir hale geldi
- Bu yöntemle orijinal metin ile ondan ayrılmış vektör verisi, koleksiyonları ayırmaya gerek kalmadan birlikte var olabilir; veri yönetimi ve sorgular da daha sade hale gelir
Henüz yorum yok.