3 puan yazan GN⁺ 2025-03-20 | 1 yorum | WhatsApp'ta paylaş

OCR'nin (optik karakter tanıma) sınırlamaları

  • PDF dosyaları bilimsel araştırmalar, devlet kayıtları gibi önemli veriler içerir; ancak biçimleri sabit olduğu için makinelerin bunları okuyup analiz etmesi zordur
  • PDF, baskı yerleşimine uygun olarak tasarlanmış bir format olduğundan dijital analiz için elverişli değildir
  • Birçok PDF bilgi görüntüleri içerir; bunları veriye dönüştürmek için OCR yazılımı gerekir
  • Eski belgelerde veya el yazısıyla yazılmış belgelerde OCR performansı daha da düşer

Yapısız veri sorunu

  • Dünya genelinde kurumsal verilerin yaklaşık %80-90'ı yapısız veri olarak depolanır ve bunların önemli bir kısmı PDF'lerde yer alır
  • İki sütunlu yerleşimler, tablolar, grafikler ve düşük kaliteli taramalarda veri çıkarmak özellikle zordur
  • Bu durum özellikle bilimsel araştırmalarda, tarihî belge korumada, müşteri hizmetlerinde ve yapay zeka sistemlerinde teknik literatüre erişim sağlanmasında büyük sorun yaratır

Alanlara göre etkisi

  • Devlet kayıtları, mahkemeler, polis ve sosyal hizmetler gibi kamu kurumlarının işleyişini etkiler
  • Sigorta ve bankacılık gibi bilgiye bağımlı sektörlerde PDF verisini dönüştürmek için zaman ve kaynak harcanır

OCR teknolojisinin tarihi

  • 1970'lerde Ray Kurzweil, örüntü eşleştirme algoritmalarına dayalı ticari bir OCR sistemi geliştirdi
  • Kurzweil Reading Machine, görme engelliler için metin tanıma işlevi sundu
  • Geleneksel OCR sistemleri, açık-koyu desenleri tanıyıp karakterlere dönüştürerek çalışır
  • Karmaşık yazı tiplerinde, çok sütunlu yerleşimlerde ve tablolarda performans düşüşü yaşanır
  • Geleneksel OCR'de hatalar daha öngörülebilirdir ve düzeltilmesi daha kolaydır, ancak yine de sınırları vardır

Yapay zeka tabanlı OCR'nin yükselişi

  • Çok modlu LLM'ler (büyük dil modelleri), görüntü ve metni birleştirerek veri çıkarımı yapar
  • OpenAI, Google ve Meta'nın modelleri, bir belgenin görsel öğelerini ve metin bağlamını aynı anda algılayabilir
  • Geleneksel OCR karakter düzeyinde örüntü eşleştirmeye dayanırken, yapay zeka belge yerleşimini ve bağlamı anlayarak işler
  • Amazon'un Textract'ı geleneksel OCR yaklaşımını kullanırken, LLM'ler belgeleri daha geniş bağlam içinde analiz edebilir
  • Karmaşık yerleşimleri, tabloları ve görsel açıklamaları daha iyi işler

LLM tabanlı OCR için yeni girişimler

  • Fransız yapay zeka şirketi Mistral, LLM tabanlı belge işleme API'si Mistral OCR'yi duyurdu
  • Amaç, karmaşık yerleşime sahip belgelerden metin ve görsel çıkarmaktır
  • Performans sorunları görüldü: eski belgelerde tablo işleme başarısız oldu ve sayısal hatalar oluştu
  • El yazısı tanımada sorunlar yaşandı → yapay zeka olmayan içerikler üretti (halüsinasyon)
  • Google'ın Gemini 2.0 modeli şu anda en iyi performansı gösteriyor → karmaşık belgelerde daha az hata yapıyor

LLM tabanlı OCR'nin sorunları

  • LLM'ler olasılıksal modeller olduğu için hata üretme olasılıkları yüksektir
  • Belge yerleşimi tekrar ettiğinde satır atlama sorunu görülebilir
  • LLM'ler kullanıcı istemi ile belge içeriğini ayırt etmekte zorlanabilir ve bu da yanlış yorumlara yol açabilir
  • Tablolarda yanlış değer eşleştirmeleri kritik hatalara neden olabilir → finans, hukuk ve sağlık alanlarında büyük sorun yaratır
  • Olmayan metin üretme sorunu nedeniyle insan incelemesi gerekir

Önümüzdeki zorluklar

  • Hâlâ kusursuz bir OCR çözümü yok
  • Google, OpenAI ve diğerleri bağlam farkındalığı olan yapay zeka ürünleriyle performansı iyileştirmeye çalışıyor
  • Yapay zeka şirketleri, PDF'lerden veri çıkararak yapay zeka eğitimi için veri elde etmeyi umuyor
  • Yapay zeka PDF verilerini kusursuz biçimde işleyebilirse, veri analizinde yeni bir çağ başlayabilir

1 yorum

 
sixmen 2025-03-20

"PDF, baskı düzenine göre hazırlanmış bir format olduğu için dijital analiz için uygun değil."

HWP'nin de benzer bir sorunu olduğunu düşünüyorum. HWP'nin hâlâ harika bir yazılım olduğunu düşünüyorum, ancak temelde yayıncılık amaçlı olduğu için analiz etmesi zor.

Öte yandan Word, çıktıya yönelik belge üretiminde berbat olsa da içeriğe odaklanmayı o kadar mümkün kılıyor ki, bu yüzden web/yapay zeka çağına aslında daha iyi uyum sağlamış gibi görünüyor.