16 puan yazan hosungseo2026 2026-04-19 | 2 yorum | WhatsApp'ta paylaş

Ülkemizin resmî gazetesi zaten kamuya açık. Kamu Veri Portalı'ndan PDF olarak indirilebiliyor ve sansür de yok. Peki araştırmacılar, gazeteciler, geliştiriciler, sivil toplum kuruluşları ve kamu görevlileri neden aynı resmî gazeteyi her seferinde yeniden kendi başlarına parse ediyor?
Güney Kore Resmî Gazetesi'nin yaklaşık 128 bin kaydını (2020.01.02 ~ 2026.04.07, 1.474 tarih grubu) Markdown olarak yeniden indeksleyen ve OCR'ı sözlük tabanlı olarak kümülatif biçimde düzelten, insanların ve yapay zekanın birlikte okuyabildiği türetilmiş bir resmî gazete korpusu
Hazırlayan kişi bir merkezî bakanlıkta idari memur
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/


İnsanlar için açıklığın sınırları

Reklam
  • "Kamuya açık" olmak ile "yapay zeka ajanlarının kullanabileceği durumda" olmak arasındaki fark sanılandan daha büyük
  • PDF'de madde bazında karşılaştırma yapılamıyor, kurum/tarih/olay bazında filtreleme zor, OCR bozuluyor ve tablo yapıları zarar görüyor
  • Sonuç olarak ön işleme maliyeti sürekli kullanıcı tarafına (ajana) yükleniyor. Gazeteciler, araştırmacılar ve kamu görevlileri aynı PDF'yi tekrar tekrar söküyor
  • Şeffaflığın bir sonraki aşaması "daha fazla açıklık" değil, "aynı şeyi makinenin okuyabileceği hale getirmek"

Neler içeriyor

  • derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 düzeltilmiş Markdown dosyası
  • Frontmatter içinde title / publisher / date / source_raw_md — doğrudan chunk → embedding → RAG akışına verilebilir
  • docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — statik JSON indeksleri. CORS kısıtı olmadan harici sitelerden fetch edilebilir
  • Live Reader, build tool gerektirmeden açılan saf HTML'dir (arama, heatmap, TOC, dark mode, klavye kısayolları dahil)
  • Kurum kapsamı: merkezî bakanlıklar ~108.800 kayıt, yargı ~7.700, eğitim ~4.100, yerel yönetimler ~3.300 vb.; toplam yaklaşık 1.600 kurum

OCR: yerli açık kaynak üzerinde

Reklam
  • PDF metin çıkarma OCR'ı için Hancom'un açık kaynak aracı opendataloader kullanılıyor
  • Başka bir araç yerine bunun seçilmesi bilinçli bir tercih. Resmî gazete gibi kamusal verilerle çalışılan bir iş olduğundan, aracın da yerli açık kaynak üzerinde çalışmasının doğru olduğu düşünülmüş
  • opendataloader geliştikçe bozuk karakterler azalacak, düzeltme sözlüğü de doğal olarak hafifleyecek
  • Araç iyileştikçe korpus da birlikte iyileşen bir yapı

PDF'nin üstüne bir katman daha

  • PDF olarak yayımlamak, tahrifatın önlenmesi açısından meşru bir tercih. Asıl kaynağın PDF olması başlı başına bir sorun değil
  • Çözüm, "PDF yayımlamayı kaldıralım" değil, "PDF'yi kaynak olarak bırakalım ve üstüne AI-readable türev bir katman ekleyelim"
  • Bu depo, özgün metni silmiyor ya da baştan yazmıyor. Özgün PDF olduğu gibi kalıyor; üstüne yalnızca türetilmiş okuma korpusu eklenen iki katmanlı bir yapı

2 yorum

 
meta1001 6 일 전

Harika. Gerçekten de politika brifinglerinde öne çıkarılan politikaların ulusal politika ve mevzuatta nasıl değiştiğini gerçek zamanlı olarak yapay zekaya analiz ettirip sonuç üretebiliriz.

 
limhasic 2026-04-20

Hehe, bununla ne yapılır ki?