OCR4all - Herkes için OCR

(ocr4all.org)

39 puan yazan GN⁺ 2025-02-15 | 1 yorum | WhatsApp'ta paylaş

Tamamen ücretsiz ve açık kaynak. Abonelik/ücretli özellik/gizli kod yok
Zorlu el yazmalarının yüksek kaliteli işlenmesinden basılı materyallerin büyük ölçekte tam metin tanınmasına kadar esnek biçimde uygulanabilir
Güçlü yerleşim ve metin anotasyonu desteği
- LAREX editörünü kullanarak yerleşim ve metin öğelerine manuel olarak açıklama ekleyebilir, düzeltebilir veya karşılaştırabilirsiniz
OCR-D ekosistemiyle tamamen uyumludur
Kullanılabilirlik odaklı tasarım: kod/CLI kullanmadan da UI üzerinden karmaşık OCR iş akışları oluşturabilirsiniz
Kolay çapraz platform geliştirme: işletim sistemi türünden bağımsız olarak Docker ve tek bir komutla çalıştırılabilir

1 yorum

GN⁺ 2025-02-15

Hacker News görüşleri

Karmaşık segmentasyon pipeline'ları birkaç yıl önce gerekliydi ama artık çok hataya açık ve modelden önemli bağlamı alıp götürüyor. El yazısına geçmek için bağlam gerekiyor
- Tarihsel el yazılarını çözmek için uzmanlar tüm belgeye ihtiyaç olduğunu söyleyecektir
- Sonuna kadar karakter tanıma değil, metin tanıma yapılmalı
- Modelleri CER ile değerlendirmek iyi değil
- Metin tanıma, makine çevirisinin 15 yıl önce yaptığı hataları tekrarlıyor
OCR4all, erken modern dönem basılı materyallerindeki dijital metni geri kazanmak ve tanımak için bir yazılım
- Karmaşık baskı türleri ve düzensiz yerleşimler, genel metin tanıma yazılımlarının sınırlarını zorluyor
- Calamari-OCR tabanlı olarak geliştirilmiş gibi görünüyor
OCR4all, teknik olmayan kullanıcıların ihtiyaçlarını açık ve sezgisel biçimde ele alıyor
- Linux'ta terminal açıp komut girmenizi söyleyen yönergeler var
- Bunun teknik olmayan kullanıcılara nasıl yardımcı olduğu sorgulanıyor
Apple'ın Vision Framework'ü, Tesseract'tan daha hızlı ve daha doğru bir metin tanıma kütüphanesi sunuyor
- Neredeyse tüm görüntü formatlarını işleyebiliyor
- Basit bir CLI aracı ve Python wrapper'ı yazılmış
Tesseract ile LLM'i birleştirip hataları düzeltmek ve biçimlendirmeyi iyileştirmek, şu anda hız/verimlilik/doğruluk açısından en iyi denge noktası
- İngilizce prompt metni düzenlenerek giriş belgesine özgü belirli yönler önceliklendirilebiliyor
Yapay zeka destekli bir OCR API geliştirildi
- Tesseract ve Poppler-utils birleştirilerek belge segmentleri akıllıca çıkarılıyor
- Birden fazla Vision LLM modeline kolayca ölçeklenebiliyor
- Tüm yapay zeka agent API'si Dockerized container olarak çıktı veriyor
Bu iş akışı, tarihsel basılı belgeleri dijitalleştirmeye yönelik
- Blackletter yazı tipiyle basılmış eski duyuruları korumakla ilgili
OCR4all, otomatik metin tanıma iş akışı sunmak için çeşitli açık kaynak çözümleri bir araya getiriyor
- OCR-D tabanlı görünüyor; bu da Tesseract, Kraken, DUP-ocropy ve Calamari-OCR üzerine kurulu
- Transkribus'a açık kaynaklı bir alternatif gibi görünüyor
- eScriptorium da başka bir alternatif
Bunun yeni bir SOTA OCR motoru mu, yoksa bilinen başka motorları kullanan bir araç mı olduğu merak ediliyor
- Keşke landing page daha net olsaydı
OCR'nin büyük ölçüde Tesseract ile çözülmüş olduğunu sanıyordum, ancak sonuç PDF'sinde MRC sıkıştırması için bir kütüphane ya da uygulama aranıyor
- Ticari ürünler pahalı ve görüntü katmanlarını ayırıp sıkıştırarak yeniden birleştirmek zor bir problem

OCR4all - Herkes için OCR

İlgili okumalar

1 yorum

Hacker News görüşleri