30 puan yazan xguru 2021-04-05 | 1 yorum | WhatsApp'ta paylaş

İngilizce Wikipedia başlık+özet tam veri setini kullanarak, özel bir teknikten ziyade bir arama motorunun temellerini adım adım anlatan bir yazı

  1. Veri hazırlamak için Abstract nesnesi oluşturma

  2. İndeks oluşturma: token’lara ayırma ve filtreleme

→ küçük harf

→ kök bulma (stemming)

→ İngilizcede en sık kullanılan 25 kelimeyi hariç tutma (the, be, to, of, a..)

  1. Temel aramayı oluşturma

  2. İlgililik özelliği ekleme: Term Frequency (ilgili kelimenin özette ne kadar sık kullanıldığı)

  3. Inverse Document Frequency ekleme: bu belgeye bağlı diğer belgelerin sayısı

Kod: https://github.com/bartdegoede/python-searchengine

1 yorum

 
xguru 2021-04-05

Hangıl ilk ses aramasını da destekleyen bulanık dizge araması https://tr.news.hada.io/topic?id=3631

Bu yazı teknik temel veya uygulama açısından tamamen farklı olsa da, temel kısımları adım adım ayrıntılı biçimde anlattığı için keyifle okudum.

Bu tür full-text search/konu modelleme/doküman indeksleme/benzerlik ile ilgili işlevleri biraz daha kapsamlı biçimde gerçekleştiren birkaç Python kütüphanesi var.

SQLite için ayrı bir Full-Text-Search eklentisi bulunuyor.