BM25 tam metin arama algoritmasını anlamak
(emschwartz.me)-
BM25 algoritmasını anlamak
- BM25, Lucene/Elasticsearch ve SQLite gibi sistemlerde varsayılan olarak kullanılan, yaygın bir tam metin arama algoritmasıdır.
- Son dönemde tam metin arama ile vektör benzerlik aramasını birleştirerek "hibrit arama" uygulamak yaygın hale gelmiştir.
- Konu, BM25 puanlarının birden fazla sorgu arasında karşılaştırılıp karşılaştırılamayacağı sorusuyla başlar.
-
Belgeleri sıralama
- Tam metin arama algoritmalarının temel amacı, sorguyla en ilgili belgeleri bulmaktır.
- BM25, bir belgenin sorguyla ilgili olma olasılığına dayanarak belgeleri sıralar.
-
BM25'in bileşenleri
- Sorgu terimleri: Birden fazla terimden oluşan sorgularda, her terim için ayrı bir puan hesaplanır ve ardından bunlar toplanır.
- Ters belge sıklığı (IDF): Tüm belge koleksiyonunda belirli bir arama teriminin ne kadar nadir olduğunu hesaplar.
- Belge içi terim sıklığı: Belirli bir belgede arama teriminin ne sıklıkla geçtiğini hesaplar.
- Belge uzunluğu normalizasyonu: Belgenin uzunluğunu diğer belgelerle karşılaştırarak normalize eder.
-
BM25'in matematiksel ifadesi
- BM25 algoritması matematiksel olarak karmaşık görünebilir, ancak her bileşen anlaşıldığında kavraması kolaydır.
- Temel formül, her sorgu teriminin puanını toplayarak hesaplanır.
-
BM25'in özgünlüğü
- Olasılık hesaplamadan olasılığa dayalı sıralama: BM25, olasılıksal ilgi çerçevesine dayanarak belgeleri sıralar.
- Belgelerin çoğunun ilgili olmadığını varsayma: BM25, belgelerin büyük kısmının sorguyla ilgili olmadığını varsayarak, ilgi bilgisi olmadan da kullanışlı olmasını sağlar.
-
Sonuç
- BM25 puanları, aynı koleksiyon içinde farklı sorgular arasında karşılaştırılabilir.
- BM25, bir belgenin ilgililiğini tahmin etmekten çok, sorguya göre ilgililik sıralaması yapmaya odaklanır.
- Aynı koleksiyon içinde aynı belgenin BM25 puanları karşılaştırılabilir.
-
Ek okumalar
- BM25'in teorisi ve tarihi hakkında daha fazla bilgi edinmek isterseniz, Elastic mühendisi Britta Weber'in 2016 konuşması ile Stephen Robertson ve Hugo Zaragoza'nın "The Probabilistic Relevance Framework: BM25 and Beyond" eserini öneririz.
Henüz yorum yok.