6 puan yazan GN⁺ 2025-02-26 | 4 yorum | WhatsApp'ta paylaş
  • Açık belge formatı HWPX'in yapısını ve verileri depolama ile yönetme biçimini açıklıyor
  • HWPX ile mevcut HWP formatı arasındaki farkları açıklarken, HWPX formatının başlıca bileşenlerini ve her dosyanın rolünü inceliyor

Giriş

  • En büyük fark, HWP'nin ikili bir format olması; HWPX'in ise ZIP yapısı içinde XML dosyalarından oluşmasıdır
  • HWP formatında akışlar kayıt biçiminde düzenlendiğinden verileri çıkarmak için ayrı bir analiz sürecinden geçmek gerekir
    • Buna karşılık HWPX formatında ana dosyalar XML olduğu için veri çıkarmak kolaydır

HWPX nedir

  • Hancom tarafından geliştirilen, XML tabanlı açık bir belge formatıdır ve ulusal standart (KS X 6101) olan OWPML'yi izler
  • OWPML, XML tabanlı 'Açık Kelime İşlemci İşaretleme Dili (Open Word-Processor Markup Language)' anlamına gelir
    • 30 Aralık 2011'de yürürlüğe giren bir Kore Endüstri Standardıdır (KS); standardın geliştirilmesi yaklaşık 2 yıl boyunca yerel belge standardizasyon komitesi üzerinden yürütülmüştür
    • Yerel standart geliştirme sürecine doğrudan katılan uzmanlarla birlikte ortaklaşa geliştirilen bir ulusal standarttır
  • HWP biçiminin ikili formatı için açıklık, uyumluluk ve korunabilirlik sağlamak amacıyla geliştirilmiş bir dosya biçimidir
    • Bu amaçla XML tabanlı paket formatı olarak yapılandırılmıştır

HWPX dosya yapısı

  • HWPX, ZIP dosya yapısına sahip XML tabanlı bir formattır
  • Sıkıştırma açıldığında birden fazla XML dosyası ve klasörden oluşur
  • Başlıca bileşenler:
    • mimetype: Dosya türü bilgisini içerir; HWPX formatı olduğunu doğrulayan imza bilgisidir
    • settings.xml: İmleç konumu gibi harici ayar öğelerine ilişkin bilgileri içerir
    • version.xml: OWPML dosya biçimi sürüm bilgisini ve belgenin kaydedildiği ortama ilişkin bilgileri içerir
    • BinData/: Belgede yer alan görseller, OLE nesneleri gibi ikili dosyalar burada saklanır
    • Contents/: Belgenin biçim bilgileri ve gövde içeriğini içerir; content.hpf, header.xml, section0.xml gibi dosyalardan oluşur
      • content.hpf : Paketlemedeki ana dosya listesi. PF (Open Packaging Format) standardına göre tanımlanmıştır ve metadata, manifest, spine olmak üzere üç bölümden oluşur
      • header.xml : Belge içeriğiyle ilgili tüm ayarları içerir; karakter biçimi, paragraf biçimi gibi eşleme bilgilerini barındırır
      • section0.xml : Bölüm bazlı gövde içeriğini saklar; belgenin her bölümü ayrı bir dosyada tutulur
    • META-INF/: manifest.xml, container.rdf, container.xml dosyalarını içerir; şifreli belgelerde her dosyaya ait şifreleme bilgileri burada saklanır
    • Scripts/: Belgede saklanan betik bilgileri headerScripts, sourceScripts dosyalarında tutulur
    • Preview/: Önizleme görseli ve metin dosyalarını içerir. Dosya gezgininde önizleme penceresi açıldığında gösterilen bilgiler burada yer alır. Şifreli belgelerde güvenlik nedeniyle bu dosyalar kaydedilmez

Kapanış

  • HWPX'i kullanmaya başlamadan önce genel yapıyı ve içeriği oluşturan her dosyanın rolünü açıklıyor
  • Sonraki seride, gerçek HWPX belgelerinden istenen verileri çıkarmaya yönelik örnekler paylaşılacak
  • HWPX'in bileşenlerini ve verilerini kullanırken bunun faydalı olması umuluyor

4 yorum

 
penguin5 2025-02-26

Güzel yazı için teşekkürler. AWS’de oluşturulan dosyaları (rapor gibi) HWP olarak üretmek istiyorum ancak ilgili referansların az olması nedeniyle zorlanıyorum. Şu anda Word kullanıyoruz. Eğer bu konuda faydalı olabilecek kaynaklar varsa, link paylaşmanızı rica ederim.

 
regentag 2025-02-26

Daha önce duyduğuma göre hwpx, hwp’nin ikili biçiminin basitçe XML olarak açılıp ardından ZIP ile paketlenmiş haliymiş.
Yine de en azından okunabiliyor...

 
molla 2025-02-26

Bunun doğrudan docx'i takip ederek yapıldığını söylüyorlar.
Zaten MS de doc'tan docx'e geçerken bunu yapmıştı.