1 puan yazan GN⁺ 2024-11-21 | Henüz yorum yok. | WhatsApp'ta paylaş
  • BM25 algoritmasını anlamak

    • BM25, Lucene/Elasticsearch ve SQLite gibi sistemlerde varsayılan olarak kullanılan, yaygın bir tam metin arama algoritmasıdır.
    • Son dönemde tam metin arama ile vektör benzerlik aramasını birleştirerek "hibrit arama" uygulamak yaygın hale gelmiştir.
    • Konu, BM25 puanlarının birden fazla sorgu arasında karşılaştırılıp karşılaştırılamayacağı sorusuyla başlar.
  • Belgeleri sıralama

    • Tam metin arama algoritmalarının temel amacı, sorguyla en ilgili belgeleri bulmaktır.
    • BM25, bir belgenin sorguyla ilgili olma olasılığına dayanarak belgeleri sıralar.
  • BM25'in bileşenleri

    • Sorgu terimleri: Birden fazla terimden oluşan sorgularda, her terim için ayrı bir puan hesaplanır ve ardından bunlar toplanır.
    • Ters belge sıklığı (IDF): Tüm belge koleksiyonunda belirli bir arama teriminin ne kadar nadir olduğunu hesaplar.
    • Belge içi terim sıklığı: Belirli bir belgede arama teriminin ne sıklıkla geçtiğini hesaplar.
    • Belge uzunluğu normalizasyonu: Belgenin uzunluğunu diğer belgelerle karşılaştırarak normalize eder.
  • BM25'in matematiksel ifadesi

    • BM25 algoritması matematiksel olarak karmaşık görünebilir, ancak her bileşen anlaşıldığında kavraması kolaydır.
    • Temel formül, her sorgu teriminin puanını toplayarak hesaplanır.
  • BM25'in özgünlüğü

    • Olasılık hesaplamadan olasılığa dayalı sıralama: BM25, olasılıksal ilgi çerçevesine dayanarak belgeleri sıralar.
    • Belgelerin çoğunun ilgili olmadığını varsayma: BM25, belgelerin büyük kısmının sorguyla ilgili olmadığını varsayarak, ilgi bilgisi olmadan da kullanışlı olmasını sağlar.
  • Sonuç

    • BM25 puanları, aynı koleksiyon içinde farklı sorgular arasında karşılaştırılabilir.
    • BM25, bir belgenin ilgililiğini tahmin etmekten çok, sorguya göre ilgililik sıralaması yapmaya odaklanır.
    • Aynı koleksiyon içinde aynı belgenin BM25 puanları karşılaştırılabilir.
  • Ek okumalar

    • BM25'in teorisi ve tarihi hakkında daha fazla bilgi edinmek isterseniz, Elastic mühendisi Britta Weber'in 2016 konuşması ile Stephen Robertson ve Hugo Zaragoza'nın "The Probabilistic Relevance Framework: BM25 and Beyond" eserini öneririz.

Henüz yorum yok.

Henüz yorum yok.