Marker - PDF'yi Markdown'a dönüştüren açık kaynak
(github.com/VikParuchuri)- PDF, EPUB, MOBI'yi Markdown'a dönüştürür
- Facebook Research'ün geliştirdiği Nougat'dan 10 kattan fazla daha hızlıdır ve daha doğru dönüştürür
- Kitap ve makale formatları için optimize edilmiştir
- Üst bilgi, alt bilgi ve diğer artifaktlar kaldırılır
- Çoğu formül LaTeX'e dönüştürülür
- Kod blokları ve tablolar biçimlendirilir
- Çoklu dil desteği
6 yorum
Vay canına….
İngilizce yayın yapan yayınevlerini zor günler bekliyor galiba.
Daha çok teknoloji odaklı bazı yayınevleri, kitap satın alındığında PDF dosyasını da doğrudan veriyor; bunu nasıl yöneteceklerini merak ediyorum.
PDF'nin OCR'lı olması mı gerekiyor?? Hemen denemem lazım
Sadece README'ye baktığımda OCR işlemi de yaptığını düşünüyorum... belki de yanlış okumuş olabilirim...
Evet... İngilizceye pek hakim olmayanlar için biraz zor bir ifade kullanılmış.
Gerekirse metni çıkar, OCR uygula??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Hıza odaklandığı için, çok fazla OCR gerektiren PDF'ler için pek uygun görünmüyor.
OCR çalışıyor gibi görünüyor ama garanti edilemiyor diye anlayabilirsiniz.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
Ek olarak CJK desteklenmiyor.
Teşekkür ederim!