23 puan yazan GN⁺ 2025-02-25 | 13 yorum | WhatsApp'ta paylaş

Giriş

  • Modern toplumda yapay zeka teknolojileri çeşitli alanlarda yeniliğe öncülük ediyor ve verinin önemi giderek artıyor.
  • HWP formatı, yapay zeka eğitimi açısından avantajlı bazı unsurlar barındırıyor.
    • Yalnızca basit metinden ibaret olmayıp görsel, tablo, grafik gibi çeşitli ögelerden oluştuğu için zengin bilgi sunuyor.
    • Başlık, paragraf, tablo gibi farklı biçimlerde yapılandırıldığı için yapay zeka modellerinin belgeleri anlamasına ve analiz etmesine yardımcı olabilir.
  • Bu yazıda HWP formatının yapısını ve belge bilgilerinin nasıl saklandığını inceleyeceğiz.

HWP formatı nedir?

  • HWP formatı, Hancom tarafından geliştirilen bir belge formatıdır ve ilk kez 1997'de yayımlandı.
  • Bu format, CFB (Compound File Binary File Format) yapısından oluşur ve birden fazla veri akışını tek bir dosyada saklama yöntemini kullanır.
  • HWP dosyalarında File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage, PrvText gibi bilgiler bulunur.

1. File Header

  • HWP dosyasının dosya başlığında Hangul belge tanıma bilgileri yer alır.
  • İmza bilgisi, belge sürümü, dosya tanıma bilgisi gibi veriler bulunur ve bunlar üzerinden HWP dosyasının belge türü belirlenir.

2. DocInfo

  • Belgede kullanılan yazı tipleri, karakter özellikleri, paragraf özellikleri gibi ortak bilgileri içeren akıştır.
  • DocInfo, zlib ile sıkıştırılmış olarak saklanır; sıkıştırma açıldığında özgün veri görülebilir.
  • Çeşitli türlerde bilgiler kayıt biçiminde saklanır.

3. DocOptions

  • Bağlantılı belge, dağıtım amaçlı belge, dijital sertifika gibi bilgiler akış olarak saklanır.

4. BodyText (Section)

  • Belgenin gövdesine karşılık gelen gerçek içerik burada saklanır.
  • Metin gövdesindeki bölüm sayısına göre birden fazla Section akışından oluşur.

5. Script

  • Betik makro işlevinde tanımlanan betik bilgilerinin kaydedildiği depolama alanıdır.

6. HwpSummaryInformation

  • Belge özet bilgileri burada saklanır ve Microsoft'un PropertySet yapısını kullanır.

7. PrvImage

  • Belgenin önizleme görselidir; ilk sayfanın görüntüsü saklanır.

8. PrvText

  • Belgenin önizleme metnidir; ilk sayfanın içeriği Unicode dizgesi olarak saklanır.

Sonuç

  • HWP formatı ikili biçimde saklandığı için insanların doğrudan okuması zordur ve yalnızca belirli yazılımlarda açılıp düzenlenebilecek şekilde tasarlanmıştır.
  • Buna karşılık HWPX formatı, açık XML tabanlı bir format olduğundan veriler yapılandırılmıştır ve insanların içeriği kolayca anlayabilmesi için tasarlanmıştır.
  • Bir sonraki yazıda HWPX formatının, HWP formatından farklı olarak bilgiyi nasıl sakladığını inceleyeceğiz.

13 yorum

 
hahnlee 2025-02-25

hwp.js'i (https://github.com/hahnlee/hwp.js) geliştirmiş olan kişi olarak ben hahnlee'yim :)
Bu projeyi geliştirirken de, şimdi de HWP'yi pek sevdiğim söylenemez. Özellikle de açıklık düzeyi konusunda.

Ancak "HWP formatı, yapay zeka eğitimi için avantajlı unsurlar taşıyor" kısmına belli ölçüde katılıyorum.

RAG kurduğumda yaşadığım deneyime dayanarak söyleyeyim: Kore'de özellikle tablolar çok kullanılıyor. PDF ise baskı hedeflenerek yapılmış bir format olduğu için PDF'de "tablo" diye bir şey yok. Sadece çizgiler ve metin var.

Bu yüzden karmaşık tablo bilgilerinden veri çıkarmak, PDF belgeleri temel alındığında zordu. Özellikle de tablo sayfayı aştığında.

Kaba bir benzetmeyle, HWP bir tür zengin metin belgesiyse PDF de txt belgesi gibi hissettiriyordu. Elbette bu yalnızca "tablo" ile sınırlı bir hikâye.

Ama bu HWP formatının kendine özgü büyük bir avantajı mı? Bence değil. Basit şeyler için Markdown yeterli, biraz daha karmaşıksa HTML ile tanımlamanın daha iyi olduğunu düşünüyorum.

Ve en önemlisi, docx ya da odt de aynı avantajlara sahip.

 
iolothebard 2025-02-25

Netscape, IE karşısında fena dağıldıktan sonra kaynak kodunu açıp falan epey geç kalmış bir çabayla durumu toparlamaya çalışmıştı.

 
riki3 2025-02-25

HWP'den hoşlanmıyorum ve bugünkü Hancom adlı şirketin ürünleri hakkında da iyi şeyler söyleyemem, ama geçmişte ürünün kendisinin Word'den çok daha üstün bir yazılım olduğunu düşünüyorum.

 
kuthia 2025-02-26

Bence de Hangeul 97 çıkana kadar mükemmel bir yazılımdı.

 
jwh926 2025-02-25

Igjajjing-ing?

 
carnoxen 2025-02-25

Dünya standardı hâline gelememiş talihsiz bir varlık

 
wook3910 2025-02-25

Kelime işlemciyi Hangul Word Processor ile öğrenmiştim ama artık bunun Güney Kore’nin gelişimi için ortadan kalkması gereken bir fosil olduğunu düşünüyorum.

 
regentag 2025-02-26

MS Word veya LibreOffice ile kıyaslandığında, Hangeul ile istediğim biçimde belgeler oluşturmak benim için çok daha rahattı. Dağıtım da zaten PDF olarak yapılabiliyor.

Elbette, Hangeul'e alışkın olduğum için bana böyle geliyor olabilir.

 
yeorinhieut 2025-02-25

"HWP formatı, yapay zeka eğitimi için elverişli unsurlar barındırıyor"

Bu gerçekten doğru mu..?

 
regentag 2025-02-26

Bence yapay zekanın eğitimi doğrudan PDF’e odaklansa ve Hangul için de iyi bir PDF dönüştürücü yapılsa daha iyi olmaz mı? haha

 
iamchp 2025-02-25

Ben de o kısmı okuyup şaşırmıştım ama kaynak alan adını görünce ikna oldum lol

 
jic5760 2025-02-25

Aha.. anladım.. hahahahaha

 
doolayer 2025-02-25

Pek katıldığımı söyleyemem. Metinde de bahsedilen hwpx olsaydı belki ama...