2 puan yazan GN⁺ 2025-02-11 | 1 yorum | WhatsApp'ta paylaş
  • PDF dosyasının iç yapısını inceleyen ve dönüştüren bir Python kütüphanesi
  • PDF standardının 7. bölümünü ("Syntax") odağa alarak uygular
  • Belge yapısını bayt düzeyinde yöneterek meta verilere erişim, döndürme gibi çeşitli dönüştürme işlemlerini gerçekleştirebilir

Başlıca özellikler

  • PDF okuma/yazma işlemleri için API araç takımı sunar
  • Belirli işlevlerin terminalde veya tarayıcıda kullanılabilmesi için CLI (Command Line Interface) desteği sağlar
  • Bağımlılığı olmayan hafif bir kütüphanedir; saf Python ile yazılmıştır
  • Basitlik ve değişmezlik öncelenerek tasarlanmıştır
  • PDF standardının izin verdiği tahribatsız düzenlemeyi destekler ve varsayılan olarak özgün dosyanın sonuna artımlı güncellemeler ekler
    • Tüm değişiklik geçmişi geri alınabilir veya tek bir sürümde birleştirilebilir

Canlı demo

  • Tarayıcıda PDFSyntax'ın statik HTML çıktısını gezebileceğiniz bir canlı demo sunulur.
  • Demo, PDF spesifikasyonundaki Simple Text String örnek dosyasının çıktısıdır.

1 yorum

 
GN⁺ 2025-02-11
Hacker News görüşü

Hacker News yorum derlemesi özeti

  • Geçmişte PDF’lerden veri çıkarma işi yapmış biri, o zamanlar yapay zeka teknolojisi olmadığını ancak bugün LLMs kullanarak veri çıkarmanın mümkün olabileceğini söylüyor.

  • Başka biri, önceki iş yerinde PDF veri çıkarma aracı olsaydı onu çok kullanacağını belirtiyor. İdeal aracın, dosyayı sürükleyip bıraktığınızda tüm işlemleri yerelde yapan bir çözüm olması gerektiğini ekliyor.

  • Bir kullanıcı, PDF hata ayıklamak için ücretsiz iText RUPS aracını kullandığını ve yeni aracın daha güçlü özellikler sunacak gibi göründüğünü söylüyor.

  • Bir yorumda, PDF’nin neden XPS, DjVu, XHTML (EPUB) gibi formatlarla yer değiştirmediği sorgulanıyor. Basit bir belge biçimine ihtiyaç olduğu, sayfa içi hyperlink’leri ve yazı tipi boyutu değiştirmeyi desteklemesi gerektiği savunuluyor.

  • Bunun adli inceleme ve watermark bulma açısından yararlı olacağı söyleniyor.

  • Bir yorumcu, PDF’nin tüm baytlarını göstermesinin iyi olacağını söylüyor ve endobj ile xref ifadelerinin görünmediğine dikkat çekiyor.

  • GitHub’da benzer bir proje gördüğünü, özellikle TCP/IP örneğini hatırladığını söyleyen bir yorum da var.

  • Bunun bir tarayıcı kütüphanesi olarak da faydalı olabileceği, dosyayı sürükleyip bırakarak iç yapısını görebilmenin etkileyici olduğu belirtiliyor.

  • Aracın arayüzünün aynı zamanda bir kütüphane olup olmadığı soruluyor. CSS’in iyi kullanıldığı sade bir UI olması beğeniliyor.

  • Son olarak bir kullanıcı, görsel medya formatlarındaki içeriği bayt düzeyinde açıklayan araçlar aradığını, JPEG, PNG, AVI, MP4 gibi formatları ele alan bildikleri bir araç olup olmadığını soruyor.