Giriş
- Modern toplumda yapay zeka teknolojileri çeşitli alanlarda yeniliğe öncülük ediyor ve verinin önemi giderek artıyor.
- HWP formatı, yapay zeka eğitimi açısından avantajlı bazı unsurlar barındırıyor.
- Yalnızca basit metinden ibaret olmayıp görsel, tablo, grafik gibi çeşitli ögelerden oluştuğu için zengin bilgi sunuyor.
- Başlık, paragraf, tablo gibi farklı biçimlerde yapılandırıldığı için yapay zeka modellerinin belgeleri anlamasına ve analiz etmesine yardımcı olabilir.
- Bu yazıda HWP formatının yapısını ve belge bilgilerinin nasıl saklandığını inceleyeceğiz.
HWP formatı nedir?
- HWP formatı, Hancom tarafından geliştirilen bir belge formatıdır ve ilk kez 1997'de yayımlandı.
- Bu format, CFB (Compound File Binary File Format) yapısından oluşur ve birden fazla veri akışını tek bir dosyada saklama yöntemini kullanır.
- HWP dosyalarında File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, PrvText gibi bilgiler bulunur.
1. File Header
- HWP dosyasının dosya başlığında Hangul belge tanıma bilgileri yer alır.
- İmza bilgisi, belge sürümü, dosya tanıma bilgisi gibi veriler bulunur ve bunlar üzerinden HWP dosyasının belge türü belirlenir.
2. DocInfo
- Belgede kullanılan yazı tipleri, karakter özellikleri, paragraf özellikleri gibi ortak bilgileri içeren akıştır.
- DocInfo, zlib ile sıkıştırılmış olarak saklanır; sıkıştırma açıldığında özgün veri görülebilir.
- Çeşitli türlerde bilgiler kayıt biçiminde saklanır.
3. DocOptions
- Bağlantılı belge, dağıtım amaçlı belge, dijital sertifika gibi bilgiler akış olarak saklanır.
4. BodyText (Section)
- Belgenin gövdesine karşılık gelen gerçek içerik burada saklanır.
- Metin gövdesindeki bölüm sayısına göre birden fazla Section akışından oluşur.
5. Script
- Betik makro işlevinde tanımlanan betik bilgilerinin kaydedildiği depolama alanıdır.
6. HwpSummaryInformation
- Belge özet bilgileri burada saklanır ve Microsoft'un PropertySet yapısını kullanır.
7. PrvImage
- Belgenin önizleme görselidir; ilk sayfanın görüntüsü saklanır.
8. PrvText
- Belgenin önizleme metnidir; ilk sayfanın içeriği Unicode dizgesi olarak saklanır.
Sonuç
- HWP formatı ikili biçimde saklandığı için insanların doğrudan okuması zordur ve yalnızca belirli yazılımlarda açılıp düzenlenebilecek şekilde tasarlanmıştır.
- Buna karşılık HWPX formatı, açık XML tabanlı bir format olduğundan veriler yapılandırılmıştır ve insanların içeriği kolayca anlayabilmesi için tasarlanmıştır.
- Bir sonraki yazıda HWPX formatının, HWP formatından farklı olarak bilgiyi nasıl sakladığını inceleyeceğiz.
13 yorum
hwp.js'i (https://github.com/hahnlee/hwp.js) geliştirmiş olan kişi olarak ben hahnlee'yim :)
Bu projeyi geliştirirken de, şimdi de HWP'yi pek sevdiğim söylenemez. Özellikle de açıklık düzeyi konusunda.
Ancak "HWP formatı, yapay zeka eğitimi için avantajlı unsurlar taşıyor" kısmına belli ölçüde katılıyorum.
RAG kurduğumda yaşadığım deneyime dayanarak söyleyeyim: Kore'de özellikle tablolar çok kullanılıyor. PDF ise baskı hedeflenerek yapılmış bir format olduğu için PDF'de "tablo" diye bir şey yok. Sadece çizgiler ve metin var.
Bu yüzden karmaşık tablo bilgilerinden veri çıkarmak, PDF belgeleri temel alındığında zordu. Özellikle de tablo sayfayı aştığında.
Kaba bir benzetmeyle, HWP bir tür zengin metin belgesiyse PDF de txt belgesi gibi hissettiriyordu. Elbette bu yalnızca "tablo" ile sınırlı bir hikâye.
Ama bu HWP formatının kendine özgü büyük bir avantajı mı? Bence değil. Basit şeyler için Markdown yeterli, biraz daha karmaşıksa HTML ile tanımlamanın daha iyi olduğunu düşünüyorum.
Ve en önemlisi, docx ya da odt de aynı avantajlara sahip.
Netscape, IE karşısında fena dağıldıktan sonra kaynak kodunu açıp falan epey geç kalmış bir çabayla durumu toparlamaya çalışmıştı.
HWP'den hoşlanmıyorum ve bugünkü Hancom adlı şirketin ürünleri hakkında da iyi şeyler söyleyemem, ama geçmişte ürünün kendisinin Word'den çok daha üstün bir yazılım olduğunu düşünüyorum.
Bence de Hangeul 97 çıkana kadar mükemmel bir yazılımdı.
Igjajjing-ing?
Dünya standardı hâline gelememiş talihsiz bir varlık
Kelime işlemciyi Hangul Word Processor ile öğrenmiştim ama artık bunun Güney Kore’nin gelişimi için ortadan kalkması gereken bir fosil olduğunu düşünüyorum.
MS Word veya LibreOffice ile kıyaslandığında, Hangeul ile istediğim biçimde belgeler oluşturmak benim için çok daha rahattı. Dağıtım da zaten PDF olarak yapılabiliyor.
Elbette, Hangeul'e alışkın olduğum için bana böyle geliyor olabilir.
"HWP formatı, yapay zeka eğitimi için elverişli unsurlar barındırıyor"
Bu gerçekten doğru mu..?
Bence yapay zekanın eğitimi doğrudan PDF’e odaklansa ve Hangul için de iyi bir PDF dönüştürücü yapılsa daha iyi olmaz mı? haha
Ben de o kısmı okuyup şaşırmıştım ama kaynak alan adını görünce ikna oldum lol
Aha.. anladım.. hahahahaha
Pek katıldığımı söyleyemem. Metinde de bahsedilen
hwpxolsaydı belki ama...