AI-readable Resmî Gazete - Güney Kore Resmî Gazetesi'nin 128 bin kaydını PDF'den Markdown korpusuna
(github.com/hosungseo)Ülkemizin resmî gazetesi zaten kamuya açık. Kamu Veri Portalı'ndan PDF olarak indirilebiliyor ve sansür de yok. Peki araştırmacılar, gazeteciler, geliştiriciler, sivil toplum kuruluşları ve kamu görevlileri neden aynı resmî gazeteyi her seferinde yeniden kendi başlarına parse ediyor?
Güney Kore Resmî Gazetesi'nin yaklaşık 128 bin kaydını (2020.01.02 ~ 2026.04.07, 1.474 tarih grubu) Markdown olarak yeniden indeksleyen ve OCR'ı sözlük tabanlı olarak kümülatif biçimde düzelten, insanların ve yapay zekanın birlikte okuyabildiği türetilmiş bir resmî gazete korpusu
Hazırlayan kişi bir merkezî bakanlıkta idari memur
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
İnsanlar için açıklığın sınırları
- "Kamuya açık" olmak ile "yapay zeka ajanlarının kullanabileceği durumda" olmak arasındaki fark sanılandan daha büyük
- PDF'de madde bazında karşılaştırma yapılamıyor, kurum/tarih/olay bazında filtreleme zor, OCR bozuluyor ve tablo yapıları zarar görüyor
- Sonuç olarak ön işleme maliyeti sürekli kullanıcı tarafına (ajana) yükleniyor. Gazeteciler, araştırmacılar ve kamu görevlileri aynı PDF'yi tekrar tekrar söküyor
- Şeffaflığın bir sonraki aşaması "daha fazla açıklık" değil, "aynı şeyi makinenin okuyabileceği hale getirmek"
Neler içeriyor
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128.403 düzeltilmiş Markdown dosyası- Frontmatter içinde
title / publisher / date / source_raw_md— doğrudan chunk → embedding → RAG akışına verilebilir docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— statik JSON indeksleri. CORS kısıtı olmadan harici sitelerden fetch edilebilir- Live Reader, build tool gerektirmeden açılan saf HTML'dir (arama, heatmap, TOC, dark mode, klavye kısayolları dahil)
- Kurum kapsamı: merkezî bakanlıklar ~108.800 kayıt, yargı ~7.700, eğitim ~4.100, yerel yönetimler ~3.300 vb.; toplam yaklaşık 1.600 kurum
OCR: yerli açık kaynak üzerinde
- PDF metin çıkarma OCR'ı için Hancom'un açık kaynak aracı opendataloader kullanılıyor
- Başka bir araç yerine bunun seçilmesi bilinçli bir tercih. Resmî gazete gibi kamusal verilerle çalışılan bir iş olduğundan, aracın da yerli açık kaynak üzerinde çalışmasının doğru olduğu düşünülmüş
- opendataloader geliştikçe bozuk karakterler azalacak, düzeltme sözlüğü de doğal olarak hafifleyecek
- Araç iyileştikçe korpus da birlikte iyileşen bir yapı
PDF'nin üstüne bir katman daha
- PDF olarak yayımlamak, tahrifatın önlenmesi açısından meşru bir tercih. Asıl kaynağın PDF olması başlı başına bir sorun değil
- Çözüm, "PDF yayımlamayı kaldıralım" değil, "PDF'yi kaynak olarak bırakalım ve üstüne AI-readable türev bir katman ekleyelim"
- Bu depo, özgün metni silmiyor ya da baştan yazmıyor. Özgün PDF olduğu gibi kalıyor; üstüne yalnızca türetilmiş okuma korpusu eklenen iki katmanlı bir yapı
2 yorum
Harika. Gerçekten de politika brifinglerinde öne çıkarılan politikaların ulusal politika ve mevzuatta nasıl değiştiğini gerçek zamanlı olarak yapay zekaya analiz ettirip sonuç üretebiliriz.
Hehe, bununla ne yapılır ki?