Llama-OCR: Belgeleri Markdown'a Dönüştüren Teknoloji
(llamaocr.com)-
Proje tanıtımı
- Bu proje, görüntüleri yapılandırılmış Markdown'a dönüştürmek için
llama-ocrveTogether AIOCRkullanan bir araçtır. - Kullanıcılar görüntü yükleyerek metni çıkarabilir ve Markdown biçimine dönüştürebilir.
- Bu proje, görüntüleri yapılandırılmış Markdown'a dönüştürmek için
-
Başlıca özellikler
- Görüntü yükleme özelliği sunar
- Görüntüden metin çıkarıp Markdown'a dönüştürür
- Kullanıcıların işlevleri test edebilmesi için örnek görüntüler sunar
-
Kod örneği
llama-ocrkütüphanesini kullanarak görüntüden metin çıkaran bir kod örneği sunulurocrfonksiyonuna görüntü dosyası yolu ve API anahtarı verilerek Markdown üretilir
-
Projenin önemi
- Bu proje, görüntülerden kolayca metin çıkarma ve bunu Markdown'a dönüştürme olanağı sağlayarak belge çalışmalarının verimliliğini artırır.
- Mevcut OCR araçlarıyla karşılaştırıldığında kullanım kolaylığı ve Markdown'a dönüştürme işlevi sunar.
1 yorum
Hacker News görüşleri
llama-ocr'ın yazarı, basit bir API ile görüntüleri yapılandırılmış Markdown'a dönüştüren bir araç geliştirdi. Gelecekte PDF ayrıştırma ve JSON çıktı özelliklerini eklemeyi planlıyor.
Hayır amaçlı bir müzayededeki teklif formlarını işlemek için llama3.2-vision kullanıldı; el yazısı kötü olsa da oldukça doğruydu.
Genel OCR modelleri, aile fotoğraflarındaki metni dijitalleştirmek için uygun değil; Gemini Flash en iyi sonucu verdi.
Bunun bir "Show HN" gönderisi için uygun olup olmadığı sorgulandı; Llama adıyla bağlantısı zayıf görünüyor.
Genetik algoritmayla üretilen cümleler gerçek bir daire üzerine çizildi, ancak metin olarak algılanmadı.
Çok sayfalı bir PDF yüklendi, ancak desteklenmediği bildirildi.
HN ekran görüntüsü yüklendi, ancak Markdown kodu üretilmedi.
Japonca OCR, ChatGPT API üzerinden iyi çalışıyor.
Walmart fişinde 9 rakamı 0 olarak yanlış tanındı.