39 puan yazan GN⁺ 2025-02-15 | 1 yorum | WhatsApp'ta paylaş
  • Tamamen ücretsiz ve açık kaynak. Abonelik/ücretli özellik/gizli kod yok
  • Zorlu el yazmalarının yüksek kaliteli işlenmesinden basılı materyallerin büyük ölçekte tam metin tanınmasına kadar esnek biçimde uygulanabilir
  • Güçlü yerleşim ve metin anotasyonu desteği
    • LAREX editörünü kullanarak yerleşim ve metin öğelerine manuel olarak açıklama ekleyebilir, düzeltebilir veya karşılaştırabilirsiniz
  • OCR-D ekosistemiyle tamamen uyumludur
  • Kullanılabilirlik odaklı tasarım: kod/CLI kullanmadan da UI üzerinden karmaşık OCR iş akışları oluşturabilirsiniz
  • Kolay çapraz platform geliştirme: işletim sistemi türünden bağımsız olarak Docker ve tek bir komutla çalıştırılabilir

1 yorum

 
GN⁺ 2025-02-15
Hacker News görüşleri
  • Karmaşık segmentasyon pipeline'ları birkaç yıl önce gerekliydi ama artık çok hataya açık ve modelden önemli bağlamı alıp götürüyor. El yazısına geçmek için bağlam gerekiyor

    • Tarihsel el yazılarını çözmek için uzmanlar tüm belgeye ihtiyaç olduğunu söyleyecektir
    • Sonuna kadar karakter tanıma değil, metin tanıma yapılmalı
    • Modelleri CER ile değerlendirmek iyi değil
    • Metin tanıma, makine çevirisinin 15 yıl önce yaptığı hataları tekrarlıyor
  • OCR4all, erken modern dönem basılı materyallerindeki dijital metni geri kazanmak ve tanımak için bir yazılım

    • Karmaşık baskı türleri ve düzensiz yerleşimler, genel metin tanıma yazılımlarının sınırlarını zorluyor
    • Calamari-OCR tabanlı olarak geliştirilmiş gibi görünüyor
  • OCR4all, teknik olmayan kullanıcıların ihtiyaçlarını açık ve sezgisel biçimde ele alıyor

    • Linux'ta terminal açıp komut girmenizi söyleyen yönergeler var
    • Bunun teknik olmayan kullanıcılara nasıl yardımcı olduğu sorgulanıyor
  • Apple'ın Vision Framework'ü, Tesseract'tan daha hızlı ve daha doğru bir metin tanıma kütüphanesi sunuyor

    • Neredeyse tüm görüntü formatlarını işleyebiliyor
    • Basit bir CLI aracı ve Python wrapper'ı yazılmış
  • Tesseract ile LLM'i birleştirip hataları düzeltmek ve biçimlendirmeyi iyileştirmek, şu anda hız/verimlilik/doğruluk açısından en iyi denge noktası

    • İngilizce prompt metni düzenlenerek giriş belgesine özgü belirli yönler önceliklendirilebiliyor
  • Yapay zeka destekli bir OCR API geliştirildi

    • Tesseract ve Poppler-utils birleştirilerek belge segmentleri akıllıca çıkarılıyor
    • Birden fazla Vision LLM modeline kolayca ölçeklenebiliyor
    • Tüm yapay zeka agent API'si Dockerized container olarak çıktı veriyor
  • Bu iş akışı, tarihsel basılı belgeleri dijitalleştirmeye yönelik

    • Blackletter yazı tipiyle basılmış eski duyuruları korumakla ilgili
  • OCR4all, otomatik metin tanıma iş akışı sunmak için çeşitli açık kaynak çözümleri bir araya getiriyor

    • OCR-D tabanlı görünüyor; bu da Tesseract, Kraken, DUP-ocropy ve Calamari-OCR üzerine kurulu
    • Transkribus'a açık kaynaklı bir alternatif gibi görünüyor
    • eScriptorium da başka bir alternatif
  • Bunun yeni bir SOTA OCR motoru mu, yoksa bilinen başka motorları kullanan bir araç mı olduğu merak ediliyor

    • Keşke landing page daha net olsaydı
  • OCR'nin büyük ölçüde Tesseract ile çözülmüş olduğunu sanıyordum, ancak sonuç PDF'sinde MRC sıkıştırması için bir kütüphane ya da uygulama aranıyor

    • Ticari ürünler pahalı ve görüntü katmanlarını ayırıp sıkıştırarak yeniden birleştirmek zor bir problem