- PDF ve JPG/PNG belgelerini doğal okuma sırasını koruyarak düz metne dönüştüren açık kaynak bir araç
- Büyük miktardaki belgeyi hızlıca işleyebilecek şekilde tasarlanmıştır; tabloları, formülleri, el yazısını vb. destekler
- Akademik makaleler, teknik belgeler ve diğer referans materyalleri temel alınarak eğitilmiştir
- Doğruluğu artırmak ve halüsinasyonu azaltmak için kendine özgü prompting teknikleri kullanır
- Mevcut model İngilizce belgelere optimize edilmiştir; diğer dillerin düzgün desteklenmeme olasılığı yüksektir
- Demo sayfasında belgeleri doğrudan test edebilirsiniz
- 1 milyon sayfayı dönüştürme maliyeti yaklaşık $190 USD olduğundan ekonomik şekilde çalıştırılabilir
- Güncel bir NVIDIA GPU gerekir (RTX 4090, L40S, A100, H100 ile test edilmiştir)
- Çevrimiçi demo üzerinden test edin (PDF, JPG, PNG)
Araç setinin açık kaynak sürümüne dahil olan kodlar
- ChatGPT 4o tabanlı prompting stratejisi (
buildsilver.py) : doğal metin ayrıştırma performansını en üst düzeye çıkaran teknikler içerir
- Pipeline karşılaştırmalı değerlendirme aracı (
runeval.py)
- Dil filtreleme ve SEO spam temizleme özelliği (
filter.py)
- Qwen2-VL ve Molmo-O fine-tuning kodu (
train.py)
- Büyük hacimli PDF işleme pipeline'ı (
pipeline.py) : Sglang kullanarak milyonlarca PDF işlenebilir
- Dolma belge görüntüleyicisi (
dolmaviewer.py) : PDF'den dönüştürülen Dolma formatındaki belgeler görsel olarak incelenebilir
2 yorum
Şu an için Windows'ta çalışmıyor gibi görünüyor..
GPU olmadan çalışan kütüphaneler şimdilik hâlâ işe yarıyor gibi görünüyor.