PDF'lerden veri çıkarmak neden hâlâ zor

(arstechnica.com)

3 puan yazan GN⁺ 2025-03-20 | 1 yorum | WhatsApp'ta paylaş

OCR'nin (optik karakter tanıma) sınırlamaları

PDF dosyaları bilimsel araştırmalar, devlet kayıtları gibi önemli veriler içerir; ancak biçimleri sabit olduğu için makinelerin bunları okuyup analiz etmesi zordur
PDF, baskı yerleşimine uygun olarak tasarlanmış bir format olduğundan dijital analiz için elverişli değildir
Birçok PDF bilgi görüntüleri içerir; bunları veriye dönüştürmek için OCR yazılımı gerekir
Eski belgelerde veya el yazısıyla yazılmış belgelerde OCR performansı daha da düşer

Yapısız veri sorunu

Dünya genelinde kurumsal verilerin yaklaşık %80-90'ı yapısız veri olarak depolanır ve bunların önemli bir kısmı PDF'lerde yer alır
İki sütunlu yerleşimler, tablolar, grafikler ve düşük kaliteli taramalarda veri çıkarmak özellikle zordur
Bu durum özellikle bilimsel araştırmalarda, tarihî belge korumada, müşteri hizmetlerinde ve yapay zeka sistemlerinde teknik literatüre erişim sağlanmasında büyük sorun yaratır

Alanlara göre etkisi

Devlet kayıtları, mahkemeler, polis ve sosyal hizmetler gibi kamu kurumlarının işleyişini etkiler
Sigorta ve bankacılık gibi bilgiye bağımlı sektörlerde PDF verisini dönüştürmek için zaman ve kaynak harcanır

OCR teknolojisinin tarihi

1970'lerde Ray Kurzweil, örüntü eşleştirme algoritmalarına dayalı ticari bir OCR sistemi geliştirdi
Kurzweil Reading Machine, görme engelliler için metin tanıma işlevi sundu
Geleneksel OCR sistemleri, açık-koyu desenleri tanıyıp karakterlere dönüştürerek çalışır
Karmaşık yazı tiplerinde, çok sütunlu yerleşimlerde ve tablolarda performans düşüşü yaşanır
Geleneksel OCR'de hatalar daha öngörülebilirdir ve düzeltilmesi daha kolaydır, ancak yine de sınırları vardır

Yapay zeka tabanlı OCR'nin yükselişi

Çok modlu LLM'ler (büyük dil modelleri), görüntü ve metni birleştirerek veri çıkarımı yapar
OpenAI, Google ve Meta'nın modelleri, bir belgenin görsel öğelerini ve metin bağlamını aynı anda algılayabilir
Geleneksel OCR karakter düzeyinde örüntü eşleştirmeye dayanırken, yapay zeka belge yerleşimini ve bağlamı anlayarak işler
Amazon'un Textract'ı geleneksel OCR yaklaşımını kullanırken, LLM'ler belgeleri daha geniş bağlam içinde analiz edebilir
Karmaşık yerleşimleri, tabloları ve görsel açıklamaları daha iyi işler

LLM tabanlı OCR için yeni girişimler

Fransız yapay zeka şirketi Mistral, LLM tabanlı belge işleme API'si Mistral OCR'yi duyurdu
Amaç, karmaşık yerleşime sahip belgelerden metin ve görsel çıkarmaktır
Performans sorunları görüldü: eski belgelerde tablo işleme başarısız oldu ve sayısal hatalar oluştu
El yazısı tanımada sorunlar yaşandı → yapay zeka olmayan içerikler üretti (halüsinasyon)
Google'ın Gemini 2.0 modeli şu anda en iyi performansı gösteriyor → karmaşık belgelerde daha az hata yapıyor

LLM tabanlı OCR'nin sorunları

LLM'ler olasılıksal modeller olduğu için hata üretme olasılıkları yüksektir
Belge yerleşimi tekrar ettiğinde satır atlama sorunu görülebilir
LLM'ler kullanıcı istemi ile belge içeriğini ayırt etmekte zorlanabilir ve bu da yanlış yorumlara yol açabilir
Tablolarda yanlış değer eşleştirmeleri kritik hatalara neden olabilir → finans, hukuk ve sağlık alanlarında büyük sorun yaratır
Olmayan metin üretme sorunu nedeniyle insan incelemesi gerekir

Önümüzdeki zorluklar

Hâlâ kusursuz bir OCR çözümü yok
Google, OpenAI ve diğerleri bağlam farkındalığı olan yapay zeka ürünleriyle performansı iyileştirmeye çalışıyor
Yapay zeka şirketleri, PDF'lerden veri çıkararak yapay zeka eğitimi için veri elde etmeyi umuyor
Yapay zeka PDF verilerini kusursuz biçimde işleyebilirse, veri analizinde yeni bir çağ başlayabilir

1 yorum

sixmen 2025-03-20

"PDF, baskı düzenine göre hazırlanmış bir format olduğu için dijital analiz için uygun değil."

HWP'nin de benzer bir sorunu olduğunu düşünüyorum. HWP'nin hâlâ harika bir yazılım olduğunu düşünüyorum, ancak temelde yayıncılık amaçlı olduğu için analiz etmesi zor.

Öte yandan Word, çıktıya yönelik belge üretiminde berbat olsa da içeriğe odaklanmayı o kadar mümkün kılıyor ki, bu yüzden web/yapay zeka çağına aslında daha iyi uyum sağlamış gibi görünüyor.