- Açık belge formatı HWPX'in yapısını ve verileri depolama ile yönetme biçimini açıklıyor
- HWPX ile mevcut HWP formatı arasındaki farkları açıklarken, HWPX formatının başlıca bileşenlerini ve her dosyanın rolünü inceliyor
Giriş
- En büyük fark, HWP'nin ikili bir format olması; HWPX'in ise ZIP yapısı içinde XML dosyalarından oluşmasıdır
- HWP formatında akışlar kayıt biçiminde düzenlendiğinden verileri çıkarmak için ayrı bir analiz sürecinden geçmek gerekir
- Buna karşılık HWPX formatında ana dosyalar XML olduğu için veri çıkarmak kolaydır
HWPX nedir
- Hancom tarafından geliştirilen, XML tabanlı açık bir belge formatıdır ve ulusal standart (KS X 6101) olan OWPML'yi izler
- OWPML, XML tabanlı 'Açık Kelime İşlemci İşaretleme Dili (Open Word-Processor Markup Language)' anlamına gelir
- 30 Aralık 2011'de yürürlüğe giren bir Kore Endüstri Standardıdır (KS); standardın geliştirilmesi yaklaşık 2 yıl boyunca yerel belge standardizasyon komitesi üzerinden yürütülmüştür
- Yerel standart geliştirme sürecine doğrudan katılan uzmanlarla birlikte ortaklaşa geliştirilen bir ulusal standarttır
- HWP biçiminin ikili formatı için açıklık, uyumluluk ve korunabilirlik sağlamak amacıyla geliştirilmiş bir dosya biçimidir
- Bu amaçla XML tabanlı paket formatı olarak yapılandırılmıştır
HWPX dosya yapısı
- HWPX, ZIP dosya yapısına sahip XML tabanlı bir formattır
- Sıkıştırma açıldığında birden fazla XML dosyası ve klasörden oluşur
- Başlıca bileşenler:
mimetype: Dosya türü bilgisini içerir; HWPX formatı olduğunu doğrulayan imza bilgisidir
settings.xml: İmleç konumu gibi harici ayar öğelerine ilişkin bilgileri içerir
version.xml: OWPML dosya biçimi sürüm bilgisini ve belgenin kaydedildiği ortama ilişkin bilgileri içerir
BinData/: Belgede yer alan görseller, OLE nesneleri gibi ikili dosyalar burada saklanır
Contents/: Belgenin biçim bilgileri ve gövde içeriğini içerir; content.hpf, header.xml, section0.xml gibi dosyalardan oluşur
content.hpf : Paketlemedeki ana dosya listesi. PF (Open Packaging Format) standardına göre tanımlanmıştır ve metadata, manifest, spine olmak üzere üç bölümden oluşur
header.xml : Belge içeriğiyle ilgili tüm ayarları içerir; karakter biçimi, paragraf biçimi gibi eşleme bilgilerini barındırır
section0.xml : Bölüm bazlı gövde içeriğini saklar; belgenin her bölümü ayrı bir dosyada tutulur
META-INF/: manifest.xml, container.rdf, container.xml dosyalarını içerir; şifreli belgelerde her dosyaya ait şifreleme bilgileri burada saklanır
Scripts/: Belgede saklanan betik bilgileri headerScripts, sourceScripts dosyalarında tutulur
Preview/: Önizleme görseli ve metin dosyalarını içerir. Dosya gezgininde önizleme penceresi açıldığında gösterilen bilgiler burada yer alır. Şifreli belgelerde güvenlik nedeniyle bu dosyalar kaydedilmez
Kapanış
- HWPX'i kullanmaya başlamadan önce genel yapıyı ve içeriği oluşturan her dosyanın rolünü açıklıyor
- Sonraki seride, gerçek HWPX belgelerinden istenen verileri çıkarmaya yönelik örnekler paylaşılacak
- HWPX'in bileşenlerini ve verilerini kullanırken bunun faydalı olması umuluyor
4 yorum
Güzel yazı için teşekkürler. AWS’de oluşturulan dosyaları (rapor gibi) HWP olarak üretmek istiyorum ancak ilgili referansların az olması nedeniyle zorlanıyorum. Şu anda Word kullanıyoruz. Eğer bu konuda faydalı olabilecek kaynaklar varsa, link paylaşmanızı rica ederim.
Daha önce duyduğuma göre hwpx, hwp’nin ikili biçiminin basitçe XML olarak açılıp ardından ZIP ile paketlenmiş haliymiş.
Yine de en azından okunabiliyor...
Bunun doğrudan
docx'i takip ederek yapıldığını söylüyorlar.Zaten MS de
doc'tandocx'e geçerken bunu yapmıştı.Han/geul belge dosya biçimi: HWP biçim yapısına göz atma