1 puan yazan GN⁺ 2024-02-26 | 1 yorum | WhatsApp'ta paylaş

Marginalia arama motorunun gelişimi

  • Marginalia Search ilk başladığında küçük bir deneydi, ancak artık tam zamanlı yürütülen bir projeye dönüştü.
  • Arama motoru şimdiye kadarki en iyi halinde çalışıyor ve birçok kilometre taşına ulaştı.
  • Arama motoru artık oturma odasından çıkıp uygun bir kurumsal sunucuya taşındı.

Kod tabanının düzenlenmesi ve uygulamanın sadeleştirilmesi

  • Bu yılın ana teması kod tabanını düzenlemek ve uygulamayı sadeleştirmek oldu.
  • Odak noktası, operasyonel yükü yönetilebilir tutmak ve başkalarının uygulamaya ve kod tabanına daha kolay erişebilmesini sağlamak oldu.
  • Çok iş gerekti, ancak bunun meyveleri görülmeye başlandı.

Operasyonel iyileştirmeler

  • Geçmişte indeksi değiştirirken günler süren kesinti gerekiyordu, ancak artık bu sorun ortadan kalktı.
  • Son dönemde artık sıfır kesintiyle yükseltme de mümkün hale geldi.
  • Operasyon tarafında haftalar süren manuel süreçler artık GUI'de bir düğmeye basmaya indirgenmiş durumda.

Anchor text anahtar kelime desteğinin eklenmesi

  • Anchor text anahtar kelime desteğinin eklenmesi, arama motorunun ilgili sonuçları bulma yeteneği üzerinde büyük etki yarattı.
  • Değişiklik ilk yapıldığında entegrasyon iyi oturmadığı için hemen fark edilmedi, ancak yeni alaka sinyali yerleşince şaşırtıcı anlar yaşandı.

Tam zamanlı çalışmaya geçiş

  • NLnet'in desteği sayesinde yaklaşık 8 ay önce projeye tam zamanlı geçildi.
  • En zor kısım fazla çalışmamak oldu; haftada en az bir gün dinlenmeye çalışılıyor.
  • Yeterince dinlenildiğinde daha akıllı çalışıldığı bilindiği için, teorik olarak işi daha iyi yapmak adına ara sıra dinlenmek önemli.

1 milyar belge indeksleme hedefi

  • 1 milyar belgeyi indeksleme yolculuğu yavaş ama istikrarlı biçimde ilerliyor.
  • Zorluk yazılımın işleyememesinden değil, webdeki sinyal-gürültü oranının düşük olmasından kaynaklandığı için beklenenden daha zor ilerliyor.
  • Arama motorunun nispeten iyi çalışmasının en büyük nedenlerinden biri, indekslemediği içerikler.
  • İndeks bir yıl önce 50 milyon ile 100 milyon arasındaydı; son crawl'da 220 milyona ulaştı ve bir sonraki crawl turu bittiğinde 290 milyon ile 300 milyon arasında olması bekleniyor.

Sorgu ayrıştırma ve yürütme iyileştirmeleri

  • Sorgu ayrıştırma ve yürütme alanında geliştirilecek çok yer var.
  • Asıl çalışma başlamadan önce, etkilenen kodu düzenlemek için hazırlık çalışmalarına başlandı.
  • Projedeki büyük sıçramalar her zaman deneysel oldu; planlanan şeyler de var, ancak asıl büyük etkiyi planlanmamış olanların yaratacağı görülüyor.

Teşekkür

  • NLnet'e, FUTO'ya, Patreon destekçilerine, savunuculara ve kullanıcılara teşekkür ediliyor.
  • Onların desteği olmadan bunların hiçbiri mümkün olmazdı.

GN⁺ görüşü

  • Marginalia Search, küçük bir deney olarak başlayıp sürekli iyileştirmeler ve topluluk desteğiyle tam zamanlı bir projeye dönüşen bir örnek.
  • Anchor text anahtar kelime desteği gibi işlevsel iyileştirmeler, arama motorunun performansını ciddi biçimde artıran önemli değişiklikler olarak öne çıkıyor.
  • Bu proje, açık kaynak topluluğu ve geliştiriciler için iş birliği ve katkı fırsatları sunarken arama motoru teknolojisinin gelişimine de katkı sağlıyor.

1 yorum

 
GN⁺ 2024-02-26
Hacker News görüşleri
  • Bir kullanıcı, sayısal modelleme hakkında çok spesifik materyaller bulmak için bu siteyi yer imlerine eklediğini söyledi. Google'da bulunamayan 80'ler ve 90'lardaki çözücüler, mesh oluşturma ve optimizasyon yöntemleriyle ilgili kaynaklar keşfettiğini; ayrıca uzmanların yazdığı ve Google'da asla bulunamayan siteleri ortaya çıkardığını, bunun da çok değerli olduğunu düşündüğünü belirtti.
  • Web'deki sinyal/gürültü oranı iyi olmadığı için beklenenden daha fazla zorluk yaşanıyor. Bir arama motorunun görece iyi çalışmasının nedenlerinden biri de indekslemediği şeyler.
  • Bir kullanıcı, IPv6 desteği için C&C Tiberian Sun'ı binary patch ile değiştiren rastgele bir web sitesi bulduğunu ve bunun ona eski web'i özlettiğini söyledi. Bunun Fravia'nın Searchlores'unu hatırlattığını, Umberto Eco bilgisayarlarla ilgilenseydi bunun gibi bir his vereceğini belirtti. Sanki "Gülün Adı"ndaki kütüphane labirentinde şaşırtıcı bir şey bulup sonra onu sonsuza dek kaybetmek gibi bir deneyim.
  • Başka bir kullanıcı bunun eski günler gibi hissettirdiğini söyledi. 1998'de AltaVista ile bile "Batı Cephesinde Yeni Bir Şey Yok" kitabı ile filmi arasındaki farkları bulamıyordu; ama şimdi bu konu hakkında konuşan sayısız kişisel blog sayfası, üniversite makalesi, kod sitesi, mailing list tartışması, blog, Rust tartışma grubu, kişisel web sitesi ve uzman tartışması bulunabiliyor.
  • Bir kullanıcı, "transformers intuition" diye arama yaptığında çıkan sonuçlara şaşırdığını söyledi; Google'ın sonuçları SEO için optimize edilmiş siteler (çoğunlukla Medium) ve içerik olarak daha zayıf ama gösterişli siteler sunarken, bu arama motorunun sonuçlarının etkileyici olduğunu belirtti.
  • Bir kullanıcı, Common Crawl'ın faydalı olup olmayacağını merak etti. Şu anda yaklaşık 100TB ve 3,35 milyar sayfadan oluşan veriyle, S3 üzerinde doğrudan işlenmediği sürece indirmenin uzun süreceğini, ayrıca sinyal/gürültü oranının nasıl olacağını bilmediğini söyledi.
  • "Rastgele site" özelliğini sorgulayan bir kullanıcı da var. Eşit dağılımlı örnekleme yapmasını beklediğini, ancak bazı sitelerin tekrar tekrar döndüğünü söyledi.
  • Bir kullanıcı, Google'a alışık olduğu için bunu sık kullanmadığını ama Marginalia'nın harika bir proje olduğunu düşündüğünü; spam SEO siteleri ve yapay zeka tarafından üretilmiş yanıtlar giderek yaygınlaşırken ileride bunu daha sık kullanacağını söyledi.
  • Son olarak bir kullanıcı, bunu yakın zamanda Google arama sonuçlarıyla karşılaştırdığını söyledi: Hindistan Test kriketindeki en düşük skorla ilgili sonuçlar iyi değildi, RAID calculator için sonuçlar fena değildi ama gürültü içeriyordu, "Batı Cephesinde Yeni Bir Şey Yok" filminin kitapla farklarına dair aramada ise hiç sonuç yoktu.