1 puan yazan GN⁺ 2023-09-03 | 1 yorum | WhatsApp'ta paylaş
  • Yeni tarayıcı tabanlı Wikipedia arama motoru hakkında bir yazı; çevrimdışı arama mümkün
  • Arama motoru, gerçek zamanlı olarak bir milyon Wikipedia sayfasında arama yapabiliyor; mobil cihazlarda her 10 ms'de bir sonuç döndürüyor
  • Arama motoru veritabanının küçük boyutu; özel bir işlem gerektirmeden bir milyon embedding'i destekleyen gündelik kullanım senaryoları
  • Arama motoru, belge embedding'leri için sentence transformer kullanıyor, embedding sıkıştırma için product quantization uyguluyor ve tarayıcıda mesafe hesaplamalarını çalıştırmak için pq.js kullanıyor
  • Arama motoru, sorgular için tarayıcı içinde sentence transformer çalıştırmak amacıyla transformers.js kullanıyor
  • Arama motoru, embedding'leri sıkıştırılmış sayfa boyutuna göre sıralıyor; bilgi yoğunluğu yüksek sayfalar önce analiz ediliyor ve ilk 10 sırada döndürülüyor
  • Arama motoru, yüksek performans için JSON yerine Arrow kullanıyor; Arrow, 8 bit tamsayı product quantization dizilerini kompakt biçimde saklayabiliyor
  • Arama motoru, WebAssembly üzerinde çalışan ONNX modelleri kullanıyor; henüz GPU hızlandırması yok
  • Arama motoru, tüm Wikipedia'yı sentence transformer ile embedding'e dönüştürüyor, embedding'leri product quantization ile sıkıştırıyor ve ONNX'i elle yazıyor
  • Arama motoru, embedding'leri ve meta veriyi saklamak için numpy'yi Arrow'a aktarıyor; bu yöntem bellek ve disk üzerinde çok daha kompakt
  • Arama motoru, ürün alt kategorilerinde gerçek zamanlı aramaya izin veren faceted search desteği sunuyor
  • Yazar, özellikle farklı quantization seviyeleri ve farklı embedding boyutları desteği konusunda geri bildirim ve iyileştirme önerileri bekliyor

1 yorum

 
GN⁺ 2023-09-03
Hacker News görüşleri
  • Wikipedia'yı çevrimdışı olarak aramaya yönelik yeni bir araç hakkındaki makale
  • Bazı kullanıcılar bu aracın ChatGPT gibi yapay zeka hizmetlerine göre daha düşük doğruluk sunduğunu bildiriyor
  • Arama sorgularını eşleştirmek için metin embedding'lerini kullanan bir araç
  • "Soyut açıklamalara dayalı metin araması" başlıklı yakın tarihli bir makale, daha soyut arama sorgularını mümkün kılıyor
  • Bazı kullanıcılar, bu aracın Google'a kıyasla bekledikleri sonuçları döndürmede daha az etkili olduğunu düşünüyor
  • Bir kullanıcı, aracın tüm Wikipedia makalelerini değil yalnızca tanımlayıcı cümleleri veya paragrafları embedding'e dönüştürmesi halinde geliştirilebileceğini öne sürüyor
  • Doğruluğa yönelik bazı eleştirilere rağmen, aracın çevrimdışı çalışabilmesi ve uygulaması övgü alıyor
  • Bazı kullanıcılar yavaş yüklenme süreleri gibi araçla ilgili teknik sorunlar yaşıyor
  • Kullanıcının herhangi bir uzunlukta metni kopyalayıp yapıştırmasına izin veren ve en benzer segmentleri döndüren benzer bir proje olan SemanticFinder'dan söz ediliyor
  • Bir kullanıcı, aracın etkinliğinin Wikipedia'daki konu anlatımının kalitesiyle sınırlı olabileceğine dikkat çekiyor
  • Bazı kullanıcılar aracın sonuçlarından hayal kırıklığı duyuyor, ancak arkasındaki etkileyici teknolojiyi kabul ediyor
  • Bir kullanıcı, tüm makaleleri embedding'e dönüştürmeye dayanan yaklaşımın bu tür uygulamalar için en iyi yöntem olmayabileceğini öne sürüyor