- PDF dosyasının iç yapısını inceleyen ve dönüştüren bir Python kütüphanesi
- PDF standardının 7. bölümünü ("Syntax") odağa alarak uygular
- Belge yapısını bayt düzeyinde yöneterek meta verilere erişim, döndürme gibi çeşitli dönüştürme işlemlerini gerçekleştirebilir
Başlıca özellikler
- PDF okuma/yazma işlemleri için API araç takımı sunar
- Belirli işlevlerin terminalde veya tarayıcıda kullanılabilmesi için CLI (Command Line Interface) desteği sağlar
- Bağımlılığı olmayan hafif bir kütüphanedir; saf Python ile yazılmıştır
- Basitlik ve değişmezlik öncelenerek tasarlanmıştır
- PDF standardının izin verdiği tahribatsız düzenlemeyi destekler ve varsayılan olarak özgün dosyanın sonuna artımlı güncellemeler ekler
- Tüm değişiklik geçmişi geri alınabilir veya tek bir sürümde birleştirilebilir
Canlı demo
- Tarayıcıda PDFSyntax'ın statik HTML çıktısını gezebileceğiniz bir canlı demo sunulur.
- Demo, PDF spesifikasyonundaki Simple Text String örnek dosyasının çıktısıdır.
1 yorum
Hacker News görüşü
Hacker News yorum derlemesi özeti
Geçmişte PDF’lerden veri çıkarma işi yapmış biri, o zamanlar yapay zeka teknolojisi olmadığını ancak bugün LLMs kullanarak veri çıkarmanın mümkün olabileceğini söylüyor.
Başka biri, önceki iş yerinde PDF veri çıkarma aracı olsaydı onu çok kullanacağını belirtiyor. İdeal aracın, dosyayı sürükleyip bıraktığınızda tüm işlemleri yerelde yapan bir çözüm olması gerektiğini ekliyor.
Bir kullanıcı, PDF hata ayıklamak için ücretsiz iText RUPS aracını kullandığını ve yeni aracın daha güçlü özellikler sunacak gibi göründüğünü söylüyor.
Bir yorumda, PDF’nin neden XPS, DjVu, XHTML (EPUB) gibi formatlarla yer değiştirmediği sorgulanıyor. Basit bir belge biçimine ihtiyaç olduğu, sayfa içi hyperlink’leri ve yazı tipi boyutu değiştirmeyi desteklemesi gerektiği savunuluyor.
Bunun adli inceleme ve watermark bulma açısından yararlı olacağı söyleniyor.
Bir yorumcu, PDF’nin tüm baytlarını göstermesinin iyi olacağını söylüyor ve
endobjilexrefifadelerinin görünmediğine dikkat çekiyor.GitHub’da benzer bir proje gördüğünü, özellikle TCP/IP örneğini hatırladığını söyleyen bir yorum da var.
Bunun bir tarayıcı kütüphanesi olarak da faydalı olabileceği, dosyayı sürükleyip bırakarak iç yapısını görebilmenin etkileyici olduğu belirtiliyor.
Aracın arayüzünün aynı zamanda bir kütüphane olup olmadığı soruluyor. CSS’in iyi kullanıldığı sade bir UI olması beğeniliyor.
Son olarak bir kullanıcı, görsel medya formatlarındaki içeriği bayt düzeyinde açıklayan araçlar aradığını, JPEG, PNG, AVI, MP4 gibi formatları ele alan bildikleri bir araç olup olmadığını soruyor.