- 2022'nin sonlarında, Readwise altyapısını ölçeklendirirken makale önerileri ve vektör gömmeleri kullanan anlamsal arama özelliği eklemek istediler
- İlişkisel veritabanı maliyeti aylık 5 bin dolardı, ancak vektör arama maliyeti aylık 20 bin doların üzerindeydi; bu yüksek maliyet nedeniyle özelliği hayata geçirmekten vazgeçtiler
- Mevcut arama motorları pahalı ve işletmesi zor: nesne depolama, NVMe SSD, yapay zeka ve vektör teknolojilerindeki gelişmeler nedeniyle yeni bir arama motoruna ihtiyaç var
- Mevcut vektör veritabanları bellek içi depolama kullandığı için maliyetleri yüksek
- Nesne depolama (S3, GCS) ve SSD önbellekleme kullanılarak maliyetler büyük ölçüde azaltılabilir
- Örnek: bellek içi depolama $2+/GB, nesne depolama ise $0.02/GB
turbopuffer tasarımı
- Günümüz ihtiyaçlarına uygun bir arama motoru geliştirdi
- Nesne depolama ve akıllı önbellekleme kullanarak hem maliyet verimliliği hem de performans elde etti
- Milyarlarca vektörü ve milyonlarca tenant'ı işleyebiliyor
- Nesne depolama tabanlı arama motoru
- Mevcut arama motorları, ilişkisel veritabanlarının çoğaltılmış disk mimarisini kullanıyor
- Arama motorları yüksek yazma işleme kapasitesi ve gevşek yazma gecikmesi gerektirir
- Nesne depolama ile SSD/bellek önbelleklemesi sayesinde maliyet düşerken performans korunur
- Nesne depolama native veritabanı uygulaması
- Temelinde nesne depolama olan bir veritabanı kurdu
- Yüksek güvenilirlik ve sınırsız ölçeklenebilirlik sunuyor
- Multi-tenancy ve sharding ile yüksek erişilebilirliği koruyor
- Müşteri örnekleri
- Cursor: yapay zeka kod editörü; milyarlarca vektörü yönetiyor ve maliyeti 10 kat azaltıyor
- Suno: radyo özelliği
- Dot: hafıza özelliği
- Shapes: hafıza özelliği
GN⁺ Özeti
- turbopuffer, nesne depolama ve akıllı önbellekleme kullanarak arama motorlarının maliyet verimliliğini ve performansını büyük ölçüde iyileştiriyor
- Mevcut arama motorlarının yüksek maliyet ve zor işletim sorunlarını çözmeyi hedefliyor
- Yapay zeka ve vektör teknolojilerindeki ilerlemeye uygun yeni bir arama motoru tasarlıyor
- Cursor gibi ilk müşteri örnekleriyle maliyet düşüşünü ve performans artışını kanıtlıyor
- Benzer işlevlere sahip diğer projeler arasında ElasticSearch ve Vector DBs bulunuyor
1 yorum
Hacker News yorumu
Simon'la birlikte çalışma deneyimim oldu ve o kendi alanında son derece yetkin
Turbopuffer'ın, Polars veri çerçevesi gibi çalışarak arama API'sinde sıralamayı ifade edebilmesini umuyor
Fixie.ai'nin web sitesi tasarımını da çok beğeniyorum
Hetzner'da RAM maliyeti aylık $200/TB, bu da diğer yerlere göre 18 kat daha ucuz
pg_vector, 2022'den önce de vardı ve in-memory depolama gerektirmiyor
Lucene kullanarak, obje depolamanın önüne SSD cache düğümleri koyan bir yaklaşım kurmanın mümkün olup olmadığını merak ediyorum
Quickwit'in kaynak kodu kapalı bir sürümü gibi geliyor
Büyük, salt okunur bir veritabanını S3'te tutup doğrudan sorgulayabilen genel bir çözüm olup olmadığını merak ediyorum
ClickHouse'ta okuma gecikmesi 100 ms'nin altında, yazma gecikmesi ise 1 saniyenin altında
Vektör veritabanları hakkında çok bilgim yok ama bunların çoğunlukla RAG ve diğer yapay zeka işleri için kullanıldığını düşünüyorum
Obje depolama öncelikli yaklaşımın bulut için doğal bir uyum sağladığını düşünüyorum