20 puan yazan xguru 2025-05-29 | 2 yorum | WhatsApp'ta paylaş
  • Görsel, PDF, video gibi çok modlu verileri birleşik biçimde arayıp yönetmeyi sağlayan açık kaynaklı bir araç
    • Mevcut RAG yaklaşımlarına kıyasla teknik ve görsel dokümanları işlemeye daha uygun
  • ColPali embedding'lerini kullanarak sayfanın tamamını bir görsel gibi işler; düzen, tipografi ve görsel bağlamı da anlayan anlamsal arama özelliği sunar
  • Birden fazla doküman arasında varlık bağlantısı kurabilen alan odaklı bilgi grafikleri oluşturabilir; özel veya önceden eğitilmiş sistem prompt'ları kullanılabilir
  • PDF, görsel, video gibi çeşitli dokümanlarda tek bir API ile arama yapar ve MCP desteği sunar
  • Meta veri çıkarma özelliği hızlı ve ölçeklenebilirdir; bounding box, sınıflandırma gibi özellikleri de destekler
  • Google Suite, Slack, Confluence gibi araçlarla iş akışı entegrasyonu yapılabilir
  • Doküman tabanlı üretim hızını artıran KV cache tabanlı üretim (Cache-Augmented-Generation) özelliği de içerir
  • Temel özellikler MIT lisansı ile açık kaynak olarak sunulur, bu sayede ücretsiz başlanabilir; bazı gelişmiş özellikler ise ücretlidir ve ee namespace'i altında sunulur

Temel kavramlar ve özellikler

  • Çok modlu arama (ColPali)

    • Her PDF sayfasını bir görsel olarak işler, tek bir metin token'ı düzeyi yerine sayfa düzeyinde çoklu vektör temsili oluşturur
    • Görsel, PDF, video ve görsel yapıların (tablo, diyagram, biçimlendirme vb.) anlamını kavrayıp arama yapabilir
    • Tek bir endpoint üzerinden birleşik çok modlu sorgu desteği
  • Bilgi grafikleri (Knowledge Graphs)

    • Tek satır kodla alan odaklı bilgi grafiği oluşturulabilir
    • Önceden yapılandırılmış prompt'lar kullanılabilir veya kullanıcı tarafından özelleştirilebilir
  • Hızlı ve ölçeklenebilir meta veri çıkarma (Rules Processing)

    • Doküman içindeki bounding box, etiket, sınıflandırma bilgileri gibi verileri otomatik çıkarır
    • Büyük hacimli dokümanları da hızlı ve kararlı şekilde işler
  • Çeşitli entegrasyon özellikleri (Integrations)

    • Google Workspace, Slack, Confluence ile doğrudan entegrasyon desteği
  • Cache tabanlı üretim (Cache-Augmented-Generation)

    • Her doküman için KV cache oluşturup üretim hızını artırır
    • Tekrarlayan sorguların yoğun olduğu ortamlarda faydalıdır

2 yorum

 
blizard4479 2025-05-29

Bunu birkaç ay önce kullanmak için test etmiştim ama düşündüğümden daha fazla GPU kaynağı gerektiriyordu ve hızı da epey düşüktü; bu yüzden küçük ölçekli şirketlerin benimsemesi zor görünüyor. İki adet A10 GPU ile bile arama yapmak 30 saniye ile 1 dakika kadar sürüyordu, vay be,,

 
[Bu yorum gizlendi.]