OlmOCR - PDF'den metin çıkaran açık kaynak araç

xguru · 2025-03-03T09:51:15+09:00

PDF ve JPG/PNG belgelerini doğal okuma sırasını koruyarak düz metne dönüştüren açık kaynak bir araç Büyük miktardaki belgeyi hızlıca işleyebilecek şekilde tasarlanmıştır; tabloları, formülleri, el yazısını vb. destekler Akademik makaleler, teknik belgeler ve diğer referans materyalleri temel alınarak eğitilmiştir Doğruluğu artırmak ve halüsinasyonu azaltmak için kendine özgü prompting teknikleri kullanır Mevcut model İngilizce belgelere optimize edilmiştir; diğer dillerin düzgün desteklenmeme olasılığı yüksektir Demo sayfasında belgeleri doğrudan test edebilirsiniz 1 milyon sayfayı dönüştürme maliyeti yaklaşık $190 USD olduğundan ekonomik şekilde çalıştırılabilir Güncel bir NVIDIA GPU gerekir (RTX 4090, L40S, A100, H100 ile test edilmiştir) Çevrimiçi demo üzerinden test edin (PDF, JPG, PNG) Araç setinin açık kaynak sürümüne dahil olan kodlar ChatGPT 4o tabanlı prompting stratejisi (buildsilver.py) : doğal metin ayrıştırma performansını en üst düzeye çıkaran teknikler içerir Pipeline karşılaştırmalı değerlendirme aracı (runeval.py) Dil filtreleme ve SEO spam temizleme özelliği (filter.py) Qwen2-VL ve Molmo-O fine-tuning kodu (train.py) Büyük hacimli PDF işleme pipeline'ı (pipeline.py) : Sglang kullanarak milyonlarca PDF işlenebilir Dolma belge görüntüleyicisi (dolmaviewer.py) : PDF'den dönüştürülen Dolma formatındaki belgeler görsel olarak incelenebilir

(github.com/allenai)

25 puan yazan xguru 2025-03-03 | 2 yorum | WhatsApp'ta paylaş

PDF ve JPG/PNG belgelerini doğal okuma sırasını koruyarak düz metne dönüştüren açık kaynak bir araç
Büyük miktardaki belgeyi hızlıca işleyebilecek şekilde tasarlanmıştır; tabloları, formülleri, el yazısını vb. destekler
Akademik makaleler, teknik belgeler ve diğer referans materyalleri temel alınarak eğitilmiştir
Doğruluğu artırmak ve halüsinasyonu azaltmak için kendine özgü prompting teknikleri kullanır
Mevcut model İngilizce belgelere optimize edilmiştir; diğer dillerin düzgün desteklenmeme olasılığı yüksektir
Demo sayfasında belgeleri doğrudan test edebilirsiniz
1 milyon sayfayı dönüştürme maliyeti yaklaşık $190 USD olduğundan ekonomik şekilde çalıştırılabilir
Güncel bir NVIDIA GPU gerekir (RTX 4090, L40S, A100, H100 ile test edilmiştir)
Çevrimiçi demo üzerinden test edin (PDF, JPG, PNG)

Araç setinin açık kaynak sürümüne dahil olan kodlar

ChatGPT 4o tabanlı prompting stratejisi (buildsilver.py) : doğal metin ayrıştırma performansını en üst düzeye çıkaran teknikler içerir
Pipeline karşılaştırmalı değerlendirme aracı (runeval.py)
Dil filtreleme ve SEO spam temizleme özelliği (filter.py)
Qwen2-VL ve Molmo-O fine-tuning kodu (train.py)
Büyük hacimli PDF işleme pipeline'ı (pipeline.py) : Sglang kullanarak milyonlarca PDF işlenebilir
Dolma belge görüntüleyicisi (dolmaviewer.py) : PDF'den dönüştürülen Dolma formatındaki belgeler görsel olarak incelenebilir

2 yorum

kleinstein 2025-03-06

Şu an için Windows'ta çalışmıyor gibi görünüyor..

kaydash 2025-03-03

GPU olmadan çalışan kütüphaneler şimdilik hâlâ işe yarıyor gibi görünüyor.

OlmOCR - PDF'den metin çıkaran açık kaynak araç

Araç setinin açık kaynak sürümüne dahil olan kodlar

İlgili okumalar

2 yorum