VectorDB - Kagi Search tarafından geliştirilen vektör veritabanı

(vectordb.com)

14 puan yazan GN⁺ 2023-11-27 | 1 yorum | WhatsApp'ta paylaş

VectorDB, metin depolama ve arama için chunking, embedding ve vektör arama teknolojilerini kullanan bir Python paketidir.
Kullanıcı dostu bir arayüz sunar ve metadata ile ilişkili metin verilerini depolamak, aramak ve yönetmek için uygundur.
Düşük gecikmenin kritik olduğu kullanım senaryoları için tasarlanmıştır.

Kurulum ve kullanım

VectorDB açık kaynaklıdır; kodu ve tam dokümantasyonu GitHub'da inceleyebilirsiniz.
pip install vectordb2 komutuyla kurulabilir.
Bir bellek nesnesi oluşturup metin ve metadata depoladıktan sonra ilgili chunk'ları arayacak şekilde kullanılır.

Vektör arama ve embedding'in önemi

Büyük dil modelleriyle çalışırken vektör arama ve embedding, verimli ve doğru bilgi erişimini mümkün kılar.
Metni yüksek boyutlu vektörlere dönüştürerek hızlı karşılaştırma ve aramayı destekler, ayrıca anlamsal anlamı yakalayarak arama sonuçlarının kalitesini artırır.

Örnek

Memory nesnesi kullanılarak chunking stratejisi ayarlanır ve makine öğrenimi ile yapay zeka hakkındaki metinler ve metadata saklanır.
Belirli bir sorgu için en alakalı ilk n chunk alınır ve sonuçlar çıktılanır.

GN⁺ görüşü

Bu yazıdaki en önemli nokta, VectorDB'nin metin verilerini verimli biçimde depolayıp arayabilen bir Python paketi olmasıdır. Vektör arama ve embedding teknolojilerini kullanarak büyük veri kümelerinde bilgiye hızlı ve doğru şekilde erişebilir; bu da veri odaklı karar alma, doğal dil işleme ve benzeri birçok alanda uygulanabileceğini gösterir. Veri miktarının sürekli arttığı günümüzde bu teknolojinin önemi daha da artacaktır; bu nedenle yazılım mühendisliği, veri bilimi ve yapay zeka alanlarına ilgi duyanlar için ilgi çekici bir konudur.

1 yorum

GN⁺ 2023-11-27

Hacker News görüşleri

Geliştiricinin görüşü:
- Bu ürün gerçek bir veritabanı değil; yerelde çalışan embedding’ler ile FAISS/mrpt tabanlı bir wrapper.
- Gecikmeyi en aza indirmek için kapsamlı benchmark’larla makul varsayılan ayarlar sunuyor.
- Kullanıcının ilgi alanlarına göre Kagi Small Web RSS akışının içeriğini filtreleyen örnek bir Colab not defteri paylaşıyor.
FAISS hakkındaki görüş:
- FAISS, basit bir API sunan bir vektör arama kütüphanesi.
- VectorDB’nin gerektirdiği PyTorch, Tensorflow, Transformers gibi ağır kütüphanelere ihtiyaç yoksa FAISS daha uygun olabilir.
Postgres ile entegrasyon hakkındaki görüş:
- Hâlihazırda Postgres’i operasyonel depo olarak kullanan ekipler için PGVector eklentisini kullanmak daha iyi.
- Veri ile vektör arama yeteneklerinin birlikte olması, teknoloji yığınında yönetilmesi gereken parçaları azaltıyor.
Kagi Search hakkında olumlu geri bildirim:
- Kagi Search’ü birkaç aydır kullanmanın sonucu etkileyici bulunuyor.
- Bu teknoloji Kagi Search’ün arkasındaki itici güçse umut verici olduğu düşünülüyor.
Veri depolama ve sınırlamalar hakkındaki soru:
- Verinin nerede tutulduğu ve nasıl kalıcı hâle getirildiği merak ediliyor.
- Bu teknolojinin hangi sınırlamalara sahip olduğu, 500-1000 kelimelik metinlerde ve cümle olmayan metin koleksiyonlarında da iyi çalışıp çalışmadığı soruluyor.
Crystal dili kullanımı hakkındaki merak:
- Crystal dilinin neden kullanılmadığı merak ediliyor.
Vektör veritabanı karşılaştırmaları hakkındaki soru:
- Farklı vektör DB’lerini karşılaştıran bir kaynak olup olmadığı, farklı kullanım senaryolarında hangisinin seçileceği ve aralarındaki farkların ne olduğu soruluyor.
"minimum düzeyde" framework’e ilgi:
- HF Transformers bağımlılığını kaldırmak ve chunking’i özelleştirmek ilgi çekici bulunuyor.
- Bunun projeye yönelik bir eleştiri değil, yardımcı olabilecek noktaları görme amacı taşıdığı belirtiliyor.
Embedding üretimi hakkındaki soru:
- Embedding’leri gerçekte neyin ürettiği soruluyor.
Vektör veritabanları hakkında blog bağlantısı paylaşımı:
- Vektör veritabanına ihtiyaç olmadığını savunan bir blog bağlantısı paylaşılıyor.