19 puan yazan davespark 2026-01-11 | 1 yorum | WhatsApp'ta paylaş

2026'da hâlâ "semantik arama = embedding + vektör veritabanı" diye mi düşünüyorsunuz?

Temel iddia

Semantik aramada önemli olan yalnızca benzerlik (similarity) değil;
gerçekten iyi bir arama için ① temsil (representation) + ② benzerlik (similarity) + ③ eşleştirme kriteri (match criteria) olmak üzere bu üçünün de iyi karşılanması gerektiği savunuluyor.

Embedding tabanlı vektör arama ① ve ②'de başarılı olsa da, ③'te (sonuçların tam olarak kullanıcının istediği kapsam içinde dahil edilmesi/dışarıda bırakılması) oldukça zayıf kaldığı belirtiliyor.

Temel örnek:
Sorgu: "Ağaçta yetişen yuvarlak kırmızı meyve"
İyi bir embedding sistemi sonucu (üst sıralarda sık görünür):

  1. elma
  2. portakal
  3. ⚾️ beyzbol topu

→ Kullanıcı kesinlikle beyzbol topu istemez, ama embedding bunu "yuvarlak ve kırmızı" olduğu için oldukça yakın görüp sonuca dahil eder
Bunu eşik değeriyle çözmek mümkün değildir (alana ve sorguya göre değişir)

Alternatif olarak önerilen şey: iyi yönetilen hiyerarşik sınıflandırma sistemi (Managed Taxonomies)

Wayfair mobilya örneğindeki gibi

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  

Bunu BM25 üzerine hiyerarşik bir tokenizer ile koyduğunuzda

  • daha spesifik (alt) kategoriler = düşük df → BM25 puanı otomatik olarak daha yüksek olur
  • kullanıcıların anladığı dille kapsamı tam olarak ayarlamak mümkün olur (ebeveyn/büyük ebeveyn kategorilere çıkıldıkça giderek genişler)
  • LLM ile sınıflandırma otomatikleştirilirse bakım yükü de ciddi biçimde azalır

Sonuç:
Embedding güçlüdür ama zorunlu değildir.
Bir alanda zaten güçlü olan kategori/sınıflandırma yetkinliği + LLM desteğiyle de,
embedding'den çok daha doğru ve kullanıcı deneyimi daha iyi olan bir semantik arama oluşturulabileceği savunuluyor.

E-ticaret, sağlık, hukuk, kütüphane gibi alana özgü arama yapanlara özellikle önerilir.

1 yorum

 
kaydash 2026-01-12

Hibrit arama ve çoklu sorgu RAG gerekli gibi görünüyor.