3 puan yazan GN⁺ 2024-11-17 | 1 yorum | WhatsApp'ta paylaş
  • Proje tanıtımı

    • Bu proje, görüntüleri yapılandırılmış Markdown'a dönüştürmek için llama-ocr ve Together AIOCR kullanan bir araçtır.
    • Kullanıcılar görüntü yükleyerek metni çıkarabilir ve Markdown biçimine dönüştürebilir.
  • Başlıca özellikler

    • Görüntü yükleme özelliği sunar
    • Görüntüden metin çıkarıp Markdown'a dönüştürür
    • Kullanıcıların işlevleri test edebilmesi için örnek görüntüler sunar
  • Kod örneği

    • llama-ocr kütüphanesini kullanarak görüntüden metin çıkaran bir kod örneği sunulur
    • ocr fonksiyonuna görüntü dosyası yolu ve API anahtarı verilerek Markdown üretilir
  • Projenin önemi

    • Bu proje, görüntülerden kolayca metin çıkarma ve bunu Markdown'a dönüştürme olanağı sağlayarak belge çalışmalarının verimliliğini artırır.
    • Mevcut OCR araçlarıyla karşılaştırıldığında kullanım kolaylığı ve Markdown'a dönüştürme işlevi sunar.

1 yorum

 
GN⁺ 2024-11-17
Hacker News görüşleri
  • llama-ocr'ın yazarı, basit bir API ile görüntüleri yapılandırılmış Markdown'a dönüştüren bir araç geliştirdi. Gelecekte PDF ayrıştırma ve JSON çıktı özelliklerini eklemeyi planlıyor.

    • Webtoon örneğinde, büyük harfli diyalogların her panelde farklı şekilde çıktığı bir sorun fark edildi.
    • Eski slaytları dijitalleştirmek için kullanıldı; slaytlardaki sarı tonun aslında beyaz dengesi sorunu olduğu görüldü.
    • Modelin önyargısını gösteren bir örnekte, slaytı antika sanarak yanlış bir başlık üretti.
    • API'nin dosya boyutu veya çözünürlük sınırları belgelenmemiş.
  • Hayır amaçlı bir müzayededeki teklif formlarını işlemek için llama3.2-vision kullanıldı; el yazısı kötü olsa da oldukça doğruydu.

    • CSV olarak tutarlı çıktı vermemesi rahatsız ediciydi.
    • Sorunun ölçeği yaklaşık 100 sayfa olduğundan elle düzenleme yapılabiliyordu.
  • Genel OCR modelleri, aile fotoğraflarındaki metni dijitalleştirmek için uygun değil; Gemini Flash en iyi sonucu verdi.

    • Yine de hata çok olduğundan elle yapmak daha hızlı.
  • Bunun bir "Show HN" gönderisi için uygun olup olmadığı sorgulandı; Llama adıyla bağlantısı zayıf görünüyor.

  • Genetik algoritmayla üretilen cümleler gerçek bir daire üzerine çizildi, ancak metin olarak algılanmadı.

  • Çok sayfalı bir PDF yüklendi, ancak desteklenmediği bildirildi.

  • HN ekran görüntüsü yüklendi, ancak Markdown kodu üretilmedi.

  • Japonca OCR, ChatGPT API üzerinden iyi çalışıyor.

  • Walmart fişinde 9 rakamı 0 olarak yanlış tanındı.