- Görsel, PDF, video gibi çok modlu verileri birleşik biçimde arayıp yönetmeyi sağlayan açık kaynaklı bir araç
- Mevcut RAG yaklaşımlarına kıyasla teknik ve görsel dokümanları işlemeye daha uygun
- ColPali embedding'lerini kullanarak sayfanın tamamını bir görsel gibi işler; düzen, tipografi ve görsel bağlamı da anlayan anlamsal arama özelliği sunar
- Birden fazla doküman arasında varlık bağlantısı kurabilen alan odaklı bilgi grafikleri oluşturabilir; özel veya önceden eğitilmiş sistem prompt'ları kullanılabilir
- PDF, görsel, video gibi çeşitli dokümanlarda tek bir API ile arama yapar ve MCP desteği sunar
- Meta veri çıkarma özelliği hızlı ve ölçeklenebilirdir; bounding box, sınıflandırma gibi özellikleri de destekler
- Google Suite, Slack, Confluence gibi araçlarla iş akışı entegrasyonu yapılabilir
- Doküman tabanlı üretim hızını artıran KV cache tabanlı üretim (Cache-Augmented-Generation) özelliği de içerir
- Temel özellikler MIT lisansı ile açık kaynak olarak sunulur, bu sayede ücretsiz başlanabilir; bazı gelişmiş özellikler ise ücretlidir ve
ee namespace'i altında sunulur
Temel kavramlar ve özellikler
-
Çok modlu arama (ColPali)
- Her PDF sayfasını bir görsel olarak işler, tek bir metin token'ı düzeyi yerine sayfa düzeyinde çoklu vektör temsili oluşturur
- Görsel, PDF, video ve görsel yapıların (tablo, diyagram, biçimlendirme vb.) anlamını kavrayıp arama yapabilir
- Tek bir endpoint üzerinden birleşik çok modlu sorgu desteği
-
- Tek satır kodla alan odaklı bilgi grafiği oluşturulabilir
- Önceden yapılandırılmış prompt'lar kullanılabilir veya kullanıcı tarafından özelleştirilebilir
-
Hızlı ve ölçeklenebilir meta veri çıkarma (Rules Processing)
- Doküman içindeki bounding box, etiket, sınıflandırma bilgileri gibi verileri otomatik çıkarır
- Büyük hacimli dokümanları da hızlı ve kararlı şekilde işler
-
Çeşitli entegrasyon özellikleri (Integrations)
- Google Workspace, Slack, Confluence ile doğrudan entegrasyon desteği
-
- Her doküman için KV cache oluşturup üretim hızını artırır
- Tekrarlayan sorguların yoğun olduğu ortamlarda faydalıdır
2 yorum
Bunu birkaç ay önce kullanmak için test etmiştim ama düşündüğümden daha fazla GPU kaynağı gerektiriyordu ve hızı da epey düşüktü; bu yüzden küçük ölçekli şirketlerin benimsemesi zor görünüyor. İki adet A10 GPU ile bile arama yapmak 30 saniye ile 1 dakika kadar sürüyordu, vay be,,