4 puan yazan finnchoi 2024-07-19 | Henüz yorum yok. | WhatsApp'ta paylaş

Sorun

  • Semantik/doğal dil araması ve RAG için vektör gömme yapmak gerekir
  • Çoğu gömme modelinin girdi uzunluğu sınırı vardır
    • Uygun girdi uzunluğunu ayarlamak, arama kalitesiyle doğrudan bağlantılıdır
    • Girdi uzunluğu sınırı nedeniyle çoğu durumda paragraflar bölünerek depolanır
  • Orijinal metin bölünerek depolandığında, tek bir belge birden fazla belgeye ayrılmış olur
    • Belgelerin çoğu yalnızca tek bir metin verisinden oluşmaz; meta veriler ve diğer uzun alanlar da içerir
    • Bölünmüş veriyi depolamak için, bölünmüş orijinal metni ve ek bilgileri ya yinelenmiş şekilde saklamak ya da koleksiyonları (veya tabloları) ayırmak gerekir
      • Yinelenmiş depolama, depolama alanını artırarak verimsizlik yaratır; ayrılmış koleksiyonlar ise arama sürecinde join, skor hesaplama, belge sayısı hesaplama gibi karmaşıklıkları artırır
    • Bu yaklaşım, çoğu vektör deposu kullanılırken sıkça karşılaşılan bir sorundur

Çözüm

  • Orijinal metni bölmeden başka bir yöntem aradık
  • Gömme verisinin saklandığı alanın 2 boyutlu veri girdisini kabul edebilmesi için DB'yi ve ilgili kütüphaneleri değiştirdik
    • Bu sayede, orijinal metin bölünmeden kalırken belge bazında bir veya daha fazla parçaya ayrılmış, değişken uzunluklu vektör verisi depolanabilir hale geldi
    • Bu yöntemle orijinal metin ile ondan ayrılmış vektör verisi, koleksiyonları ayırmaya gerek kalmadan birlikte var olabilir; veri yönetimi ve sorgular da daha sade hale gelir

Henüz yorum yok.

Henüz yorum yok.