Yapay zeka sayesinde çamaşır odasında Google’a rakip hizmet işleten adam
(fastcompany.com)- Çamaşır odasına yerleştirdiği kişisel sunucuyla Searcha Page/Seek Ninja adlı bir arama motoru kurarak Google’a yakın bir deneyim sunan bir DIY projesi
- Yaklaşık 2 milyar sayfalık bir indeksle başlayıp yarım yıl içinde 4 milyar belgeye ulaşmayı hedefliyor; geleneksel indeksleme yöntemlerini LLM tabanlı anahtar kelime genişletme ve bağlam anlama ile birleştiriyor
- İkinci el sunucu parçalarından oluşturulmuş AMD EPYC 7532(32 çekirdek)·0,5 TB RAM sınıfı bir sisteme toplam 5 bin dolar harcandı; maliyetler yükseltme arbitrajı (upgrade arbitrage) stratejisiyle düşürüldü
- Buluta bağımlılığı en aza indirirken LLM çıkarımı için SambaNova’nın Llama 3 modelini kullanıyor; Seek Ninja ise profil kaydetmeyen ve konum kullanmayan gizlilik odaklı sürüm
- Yapay zekanın devreye girmesiyle düşük maliyetli ölçekleme mümkün hale geldi; 150 bin satırlık kod tabanında LLM, yinelemeli geliştirmeyi hızlandırarak tek kişinin büyük ölçekli bir sistemi kurabilmesini sağladı
- Kişisel ve düşük maliyetli bir kurulum olmasına rağmen yerel aramada doğruluk ve hız sağlandı; ileride trafik artarsa colocation’a taşınma seçeneğini düşünmesi, alternatif aramanın deneysel potansiyelini gösteriyor
Arka plan: küçük donanımla ‘neredeyse Google gibi’ arama deneyimi
- Google’ın Stanford döneminde Duplo kasalı sunucu ile başlamış olmasıyla karşılaştırıldığında, eski bir sunucuyla bile modern arama deneyimine yaklaşılabileceğini gösteren bir örnek
- 30 yıl önce Google, Stanford kampüsünde Backrub olarak başlarken, Duplo bloklardan yapılmış bir kasada 40 GB veri barındıran deneysel bir sunucu kullanıyordu
- Sonradan IBM ve Intel bağışlarıyla küçük bir sunucu rafına yükseltildi; ancak 2025 itibarıyla Google Arama, tek bir veri merkezine sığmayacak kadar büyüdü
- Ryan Pearce’ın Searcha Page projesi, orijinal Google sunucusu boyutlarında bir makineyle modern bir arama deneyimi sunuyor
- Sunucu, ısı ve gürültü sorunlarını azaltmak için yatak odasından çıkarılıp çamaşır makinesi ve kurutucunun yanına taşındı
- Çamaşır odası gibi kısıtlı bir ortamda olmasına rağmen, gerçek arama sonucu kalitesi hissedilir biçimde üst sıralara yakın düzeyde değerlendiriliyor
- İndeksin boyutu şu anda yaklaşık 2 milyar belge ve 6 ay içinde 4 milyar belgeye ulaşması bekleniyor
- Karşılaştırma ölçütleri: 1998’de Google 24 milyon sayfa, 2020’de 400 milyar sayfa
- Mutlak ölçek daha küçük olsa da self-hosted tek bir sunucu için son derece büyük bir seviye
Temel teknoloji: geleneksel indeksleme + LLM desteği
- Genel mimari, geleneksel arama motoru yapısını izliyor; buna ek olarak LLM ile anahtar kelime genişletme ve bağlam değerlendirmesi sağlayan hibrit bir tasarım kullanılıyor
- RankBrain gibi büyük arama motorlarının geçmişte AI’ı içselleştirme sürecini hatırlatarak, LLM’e yönelik tepkilerden bağımsız olarak yapay zekanın zaten aramanın temel öğelerinden biri olduğu vurgulanıyor
- LLM, özellikle veri seti oluşturma ve bağlamsallaştırma süreçlerinde geliştirme hızı ve ölçeklenebilirliği artıran pratik bir araç olarak kullanılıyor
- İşletici, başlangıçta LLM ile uygulayıp sonra bunu geleneksel mantıkla değiştirme şeklinde yinelemeli geliştirme yaptı; kod tabanı yaklaşık 150 bin satıra ulaştı
- Yinelemeli geliştirme de hesaba katıldığında, toplam iş yükünün fiilen 500 bin satıra yakın olduğu tahmin ediliyor
Altyapı: kendi kendine indeksleme ve ikinci el sunucuların ‘yükseltme arbitrajı’
- Donanım, AMD EPYC 7532(32 çekirdek) tabanlı ikinci el bir sunucu; piyasaya çıktığında 3 bin dolar+ seviyesinde olan CPU’nun bugün 200 doların altına inmiş olmasından aktif şekilde yararlanılıyor
- Toplam kurulum maliyeti 5 bin dolar seviyesinde; bunun yaklaşık 3 bin doları depolamaya ayrılmış
- 0,5 TB RAM yapılandırması gibi seçimlerle yüzlerce eşzamanlı oturumu işleyebilecek kapasite elde edildi
- Self-hosting yaklaşımıyla bulut kullanımı minimumda tutulurken, yalnızca LLM çıkarımı için SambaNova (Llama 3) üzerinden düşük maliyetli ve hızlı erişim kullanılıyor
- Common Crawl başta olmak üzere açık web korpuslarından yararlanılarak crawler ve indexer hızlandırılıyor; bu bağımlılığın zamanla azaltılması planlanıyor
Ürünler: Searcha Page ve Seek Ninja
- Searcha Page: Google’a benzer geleneksel SERP UX sunuyor ve yerel aramada da geçerli sonuçlar veriyor
- Meta açıklamaları yerine LLM özetleri kullanarak sorgu-belge ilişkisinin açıklanmasını güçlendiren bir yapıdan söz ediliyor
- Seek Ninja: profil kaydı yok, konum kullanımı yok yaklaşımıyla önce gizlilik anlayışını benimseyen bir varyant
- gizli mod yerine kullanılmaya uygun hafif ve minimalist bir yaklaşım
- Gelir modeli olarak aşırı banner’lar yerine ılımlı iştirak tipi reklamlar test ediliyor; trafik ani şekilde artarsa colocation’a taşınma planlanıyor
Karşılaştırmalı örnek: Wilson Lin’in bulut ve vektör yaklaşımı
- Aynı dönemdeki başka bir bireysel deneyde Wilson Lin, cloud-native strateji ile kendi vektör motorunu (CoreNN) birleştirerek çok düşük maliyetli işletim hedefliyor
- Her belge için LLM özeti üreterek sorgu-belge eşleşmesini farklı bir biçimde ifade ediyor
- Asıl engelin teknoloji değil, pazar ve dağıtım kanalları olduğu yönünde ortak bir görüş paylaşılıyor
- Pearce bir dönem vektör DB denemiş; ancak sonuçların muğlak ve sanatsal olacak kadar isabetsiz olduğunu düşündüğü için, sıralama doğruluğu açısından geleneksel yöntemlere geri dönmüş
Operasyonel meseleler: ısı, gürültü ve çamaşır odasının fiziksel sınırları
- Sunucu önce yatak odasında ısı nedeniyle günlük yaşamı etkileyince servis odasına taşındı; bağlantı için kablolar adına delik açılması gibi çözümler uygulandı
- Kapı uzun süre kapalı kalırsa ısı birikmesi sorun olabildiğinden havalandırma önemli bir unsur
- Bulut şüpheciliği eğilimi olsa da, LLM ve trafik sınırları dikkate alınarak veri merkezi colocation’ına geçiş belirli tetikleyicilere bağlı biçimde değerlendiriliyor
Anlamı: tek kişinin Google’ı yakalama deneyi ve LLM’in gerçekçi rolü
- Yaygın kanının aksine LLM, ‘arama kalitesini bozan bir araç’ değil; bireylere arama motoru kurma kabiliyeti sağlayan, geliştirme ve ölçekleme hızlandırıcısı olarak işlev gören gerçekçi bir araç
- Geleneksel indeksleme + LLM desteği, doğruluk ve açıklanabilirliği birlikte hedefleyen pratik bir orta yol sunuyor
- Düşük maliyetli ikinci el sunucu + açık korpuslar + ucuz LLM API’leri birleşimi, büyük teknoloji şirketlerinin devasa kaynakları olmadan da alternatif arama denenebileceğini kanıtlıyor
- Önünde dil kapsamını genişletme, sürekli crawling maliyeti ve spam’e dayanıklılık gibi zorluklar dursa da, niş arama ve gizlilik odaklı alanlarda deneysel bir rekabet gücü gösteren bir örnek olarak öne çıkıyor
2 yorum
Paywall atlatma bağlantısı https://archive.is/dLEl5
Hacker News yorumu
Kendi alan adı dizinimi oluşturdum. Her alan adının iç sayfalarını taramadım ama amaç da bu değildi. Şu anda 1.542.766 alan adına sahibim. Çok fazla değil ama dürüstçe toplanmış veri. GitHub deposunda herkesin kullanımına açık; taramaya başlamak istiyorsanız referans olarak kullanabilirsiniz: Internet-Places-Database
Gerçekten harika bir proje. İlk başta buna neyin ilham verdiğini merak ediyorum. Ayrıca README'de bozuk bir bağlantı var:
https://rumca-js.github.io/internet full internet searchICANN'den zone file talep edersen günün resmi alan adı listesini elde etmiş olmuyor musun?
2023'te ben de buna benzer bir şey denemek istemiştim! Bir arama motoru yapmanın en zor kısmı aslında "arama"nın kendisi değil; indeks oluşturmak ve (başkalarının da dediği gibi) özellikle IP döndürmeyen tek bir ev tipi sunucuda çalıştırırken oldukça düşmanca bir interneti taramak. Umarım bu kişi başarılı olur da Marginalia'yı yapan kişi gibi topluluk içinde bir referans olarak kalır. Bu yazıyı görünce ben de yeniden denemek istedim
openwebsearch.eu'nun open-webindex'ini yer imlerine eklemek iyi olabilir. Henüz açık kaynak değil ama beta aşaması bitince yayımlanabilir gibi görünüyor. Ayrıntılı planlar hâlâ belirsiz
commoncrawl verisinin böyle projelerde işe yarayıp yaramadığını merak ediyorum
Taramayı crowdsourcing ile yapmak nasıl olur diye düşündüm. Hem IP rotasyonu sorununu çözer hem de yükü dağıtabilir gibi
IP meselesi ilginç. Eskiden CSGO botu yapıp Steam fiyatlarını scrape etmeye çalışmıştım; proxy hizmeti de kiraladım ama Steam yine engelledi. O yüzden insanlar gerçekten IP mi satın alıyor diye merak ediyorum
Bir indekse sahip olmakla olmamak arasında net bir fark var. Ama sonuçları sıralamak ayrı bir mesele. Örneğin 200. sayfada ne çıkmalı ve oradaki sonuçlar da anlamlı mı?
https://searcha.page/ üzerinde rastgele bir arama yaptım ve "Arama sonuçları oluşturulurken hata oluştu" mesajını aldım
Umarım ölümcül ilgi akınına uğramamıştır. Çamaşırhanenin sıcaklığı çok yükselmiş olmalı
Bu hafta kullanımım geçen haftaya göre 20 kat arttı. Asıl darboğazın arama hizmetinin kendisi değil, bağlam genişletme olduğunu fark ettim. Kullanım grafiği neredeyse dikey. Bunun iyi bir hafta mı kötü bir hafta mı olduğunu pek bilmiyorum
https://seek.ninja/s?q=beatles üzerinde de aynı şeyi yaşadım
Bu durumdan önce ilk arama sonuç sayfası (SERP) oldukça etkileyiciydi
Makale limitine ulaştığıma dair uyarı aldım. En son bir fastcompany bağlantısına bakmam herhâlde 10 yıl önceydi! Uzun zaman sonra yazılarını tekrar okuyabileceğimi ummuştum ama hayal kırıklığı oldu. İlgili içeriği archive üzerinden gördüm:
Son zamanlarda Wilson Lin'in blog yazılarını gerçekten art arda okudum; arama motorları ve LLM'lerle ilgilenen amatörler için çok faydalı ve kaliteli blog
Firefox okuyucu moduyla, bazen bir yenileme daha ekleyerek, çoğu paywall aşılabiliyor; buna bu makale de dahil
"32 çekirdekli AMD EPYC 7532 işlemci, çıktığı dönemde 3.000 doların üzerindeydi ama şimdi eBay'de 200 doların altında bulunabiliyor." Böyle fırsatlar neden ben homelab parçası ararken hiç karşıma çıkmıyor diye merak ediyorum
Zaman ayırıp etiketlemesi berbat ilanları da dikkatle incelemek ve itibarı olmayan satıcılardan da alışveriş yapmayı göze almak gerekiyor
'AMD EPYC 7532' diye aratınca 150-200 dolar bandında bir sürü liste çıkıyor. Acaba sen homelab parçaları bakarken durum böyle değildi de ondan mı üzülüyorsun?
CPU değil ama bu yılın başında eBay'den 2020 üretimi bir Thinkpad workstation'ı 500 dolara aldım. Yeniyken 5.700 dolardı. eBay donanım pazarı genel olarak böyle. 5 yıl beklersen fiyat onda bire düşüyor
TheServerStore.com'da bazen iyi fırsatlar oluyor. Bu yılın başında tek seferde 64 çekirdekli bir EPYC 7702 sunucuyu (256 GB RAM, 8 TB NVMe) yaklaşık 3.000 dolara topladım
QC dereceli çip alıp kendin denemek de bir yöntem. Ben de böyle satın alıyorum. Benim için en büyük maliyet disklerdi, sonra RAM geldi. Çipler nispeten ucuz geldi
Projenin çok havalı olduğunu düşünüyorum, umarım keyif alarak yapıyordur. Ben de kişisel olarak defalarca arama motoru yapmayı hayal ettim ama hep bir duvara tosladım. 1999'un internetiyle bugünün interneti çok farklı. Artık dünyanın keşfi başlı başına o kadar anlamlı değil. Mesela dinozorlar hakkında kişisel bir blog bulsan bile 2004'ten beri güncellenmemiş oluyor, görselleri ve bağlantıları bozuk oluyor ve artık Wikipedia ya da Smithsonian gibi yerler çok daha iyi. Böyle özel kişisel siteleri bulmak hâlâ eğlenceli ama eskisi kadar değerli değil. Gerçekçi bakarsak internet, YouTube, TikTok, Medium, Reddit, Mayo Clinic gibi platformların belli içerik türlerini tekelleştirdiği "hub" merkezli bir ağa geri dönüyor. Bu büyük şirketler kişisel tarayıcılara karşı temkinli, Google tarayıcısına karşı ise dostça davranıyor. Çünkü Google kullanıcı trafiği sağlıyor. Benim tarayıcıma niye kolayca izin versinler? Yine de vazgeçmiyorum. Belki de böyle hub tabanlı internet için hub farkındalığı olan bir arama motoru gerekiyordur
'Google rakibi' ifadesi biraz abartı. Bugünün Google'ının yaptığı her şeyi düşününce buna sadece 'arama motoru' demek aslında daha doğru olur
Herkese tek tek yanıt vermek zor ama arama motorunu işleten kişi benim. Evet, bugün yoğun trafik patlaması yüzünden çöktü. Kullanım geçen haftaya göre 20 kat arttı ve buna hiç hazır değildim. Kafamda kullanıcı artışının yavaş ve istikrarlı olacağına dair belirsiz bir varsayım vardı. Kullanan herkese teşekkürler, eğer hizmet düzgün çalışmadıysa özür dilerim. Bugün ilk kez gerçek bir ateş sınavı yaşandı
Harika bir yenilik ile buluta kuşkuyla bakan self-hosting yaklaşımının mükemmel birleşimi. Bunun gibi çok daha fazlasına ihtiyacımız olduğunu düşünüyorum