- PDF tablo çıkarma için Rust tabanlı açık kaynaklı motor
- Mevcut Python araçları (Camelot, Tabula, pdfplumber), OpenCV, Ghostscript, Java gibi ağır çalışma zamanı bağımlılıkları gerektirdiğinden sunucusuz ortamlarda bellek kısıtları büyük sorun yaratıyor
- TREX, dış bağımlılık olmadan tek bir binary olarak çalışır ve yaklaşık 30MB bellekle Cloud Run/Lambda üzerinde OOM olmadan çalışabilir
- Lattice (ızgara çizgisi tabanlı) / Stream (koordinat çıkarımı) olmak üzere iki ayrıştırma stratejisini yerleşik sunar; DL Router ile sayfa bazında en uygun strateji otomatik seçilebilir
- Derin öğrenme tabanlı DL Router, sayfa özelliklerini analiz ederek en uygun ayrıştırma stratejisini (Lattice/Stream/Blend) otomatik seçer. Operasyonda çıkarma başarısızlığı olayları toplanıp ONNX modeli yeniden eğitilirse doğruluk sürekli iyileştirilebilir
- Node.js tarafında
npm i @dreamyoungs/trex (CLI wrapper) veya npm i @dreamyoungs/trex-node (NAPI-RS native binding) ile doğrudan kullanılabilir
- Docker REST API ve Python binding de desteklenir; MIT / Apache-2.0 çift lisanslıdır
Henüz yorum yok.