-
PDF veya görsellerden tablo verilerini çıkarıp CSV'ye dönüştüren açık kaynak proje
-
Python + OpenCV + Tesseract kodu
-
PDF içindeki görseller, Poppler + ImageMagick ile ayrı ayrı görsel dosyaları olarak çıkarılıp tek seferde işlenebiliyor (toplu iş betiği)
1 yorum
Tabloda yalnızca sayılar varsa, aşağıdaki kod alanları da seçip çıkarabildiği için daha kullanışlı olabilir.
image2csv - sayısal tablo görsellerini CSV'ye dönüştüren açık kaynak
https://github.com/artperrin/image2csv
Python + OpenCV + Tesseract kodu
otomatik grid (tablo) algılama
manuel algılamada Windows'ta fareyle alan seçimi