AI-readable Resmî Gazete - Güney Kore Resmî Gazetesi'nin 128 bin kaydını PDF'den Markdown korpusuna

(github.com/hosungseo)

16 puan yazan hosungseo2026 2026-04-19 | 2 yorum | WhatsApp'ta paylaş

Ülkemizin resmî gazetesi zaten kamuya açık. Kamu Veri Portalı'ndan PDF olarak indirilebiliyor ve sansür de yok. Peki araştırmacılar, gazeteciler, geliştiriciler, sivil toplum kuruluşları ve kamu görevlileri neden aynı resmî gazeteyi her seferinde yeniden kendi başlarına parse ediyor?
Güney Kore Resmî Gazetesi'nin yaklaşık 128 bin kaydını (2020.01.02 ~ 2026.04.07, 1.474 tarih grubu) Markdown olarak yeniden indeksleyen ve OCR'ı sözlük tabanlı olarak kümülatif biçimde düzelten, insanların ve yapay zekanın birlikte okuyabildiği türetilmiş bir resmî gazete korpusu
Hazırlayan kişi bir merkezî bakanlıkta idari memur
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

İnsanlar için açıklığın sınırları

"Kamuya açık" olmak ile "yapay zeka ajanlarının kullanabileceği durumda" olmak arasındaki fark sanılandan daha büyük
PDF'de madde bazında karşılaştırma yapılamıyor, kurum/tarih/olay bazında filtreleme zor, OCR bozuluyor ve tablo yapıları zarar görüyor
Sonuç olarak ön işleme maliyeti sürekli kullanıcı tarafına (ajana) yükleniyor. Gazeteciler, araştırmacılar ve kamu görevlileri aynı PDF'yi tekrar tekrar söküyor
Şeffaflığın bir sonraki aşaması "daha fazla açıklık" değil, "aynı şeyi makinenin okuyabileceği hale getirmek"

Neler içeriyor

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 düzeltilmiş Markdown dosyası
Frontmatter içinde title / publisher / date / source_raw_md — doğrudan chunk → embedding → RAG akışına verilebilir
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — statik JSON indeksleri. CORS kısıtı olmadan harici sitelerden fetch edilebilir
Live Reader, build tool gerektirmeden açılan saf HTML'dir (arama, heatmap, TOC, dark mode, klavye kısayolları dahil)
Kurum kapsamı: merkezî bakanlıklar ~108.800 kayıt, yargı ~7.700, eğitim ~4.100, yerel yönetimler ~3.300 vb.; toplam yaklaşık 1.600 kurum

OCR: yerli açık kaynak üzerinde

PDF metin çıkarma OCR'ı için Hancom'un açık kaynak aracı opendataloader kullanılıyor
Başka bir araç yerine bunun seçilmesi bilinçli bir tercih. Resmî gazete gibi kamusal verilerle çalışılan bir iş olduğundan, aracın da yerli açık kaynak üzerinde çalışmasının doğru olduğu düşünülmüş
opendataloader geliştikçe bozuk karakterler azalacak, düzeltme sözlüğü de doğal olarak hafifleyecek
Araç iyileştikçe korpus da birlikte iyileşen bir yapı

PDF'nin üstüne bir katman daha

PDF olarak yayımlamak, tahrifatın önlenmesi açısından meşru bir tercih. Asıl kaynağın PDF olması başlı başına bir sorun değil
Çözüm, "PDF yayımlamayı kaldıralım" değil, "PDF'yi kaynak olarak bırakalım ve üstüne AI-readable türev bir katman ekleyelim"
Bu depo, özgün metni silmiyor ya da baştan yazmıyor. Özgün PDF olduğu gibi kalıyor; üstüne yalnızca türetilmiş okuma korpusu eklenen iki katmanlı bir yapı

2 yorum

meta1001 6 일 전

Harika. Gerçekten de politika brifinglerinde öne çıkarılan politikaların ulusal politika ve mevzuatta nasıl değiştiğini gerçek zamanlı olarak yapay zekaya analiz ettirip sonuç üretebiliriz.

limhasic 2026-04-20

Hehe, bununla ne yapılır ki?

AI-readable Resmî Gazete - Güney Kore Resmî Gazetesi'nin 128 bin kaydını PDF'den Markdown korpusuna

İlgili okumalar

2 yorum