Vision Language Model ile OCR'nin Yerini Almak

(github.com/vlm-run)

14 puan yazan GN⁺ 2025-02-28 | 1 yorum | WhatsApp'ta paylaş

Bu cookbook, çeşitli vaka incelemeleri ve uygulamalar aracılığıyla video ve görüntü işleme algoritmalarını inceleyen açık kaynaklı bir projedir
Video çıkarımı, görüntü kataloğu, moda görselleri için hibrit arama gibi çeşitli uygulama alanlarını ele alır
Diğer projelerle karşılaştırıldığında, çeşitli gerçek dünya örnekleri üzerinden algoritmaları öğrenme avantajı sunar
Ana dosyalar ve not defterleri
- 00_quickstart.ipynb: Projeye hızlı başlangıç için kılavuz
- 01_schema_showcase.ipynb: Çeşitli veri şemalarını gösteren vaka incelemeleri içerir
- 02_case_study_drivers_license.ipynb: Sürücü belgesi tanıma
- 03_case_study_tv_news.ipynb: TV haber ekranını anlama
- 04_visual_grounding.ipynb: Görsel grounding algoritmasını inceleme. Görüntü kutuları içinden JSON çıkarma
- 05_case_study_image_catalogue.ipynb: Moda ürün kataloğunu analiz ederek ürün açıklaması, kategori, hedef cinsiyet ve mevsimi tanıma
- 06_fashion_images_hybrid_search.ipynb: Moda görselleri için hibrit arama vaka incelemesi
- advanced_finetuning_video_inference.ipynb: Video çıkarımı için gelişmiş ince ayar teknikleri

1 yorum

GN⁺ 2025-02-28

Hacker News yorumu

İlginç bir fikir, ancak henüz üretim ortamında kullanmak için yeterince güvenilir değil. Geleneksel OCR modelleri metni okuyamadığında düşük güvenle anlamsız sonuçlar üretir. Buna karşılık VLM, okuyamadığında da kendinden emin biçimde uydurduğu sonuçlar üretir ve güven düzeyini raporlamanın bir yolu yoktur. El yazısı tanıma denemelerinde VLM, belgenin havasına uyan sahte isimler ve tarihler uydurdu. Modeli kaynak metne dayandırmanın bir yolu yok
Yakın zamanda VLM ve OCR'yi değerlendirmek için açık kaynaklı bir benchmark yayımlandı ve genel olarak VLM'ler geleneksel OCR modellerinden daha iyi performans gösterdi
VLM'nin avantajları:
- El yazısı tanıma. Bağlam farkındalığı yardımcı oluyor. Yani karakterleri tek tek değil, tüm kelimeyi/cümleyi yorumluyor
- Grafikler/infografikler. VLM, grafik veya akış şemasını metin biçiminde yorumlayabiliyor. Renk kodlu çizgiler de buna dahil
Geleneksel OCR'nin avantajları:
- Standartlaştırılmış belgeler (ör. ABD vergi formları)
- Yoğun metin. Ders kitaplarını ve çok sütunlu araştırma makalelerini düşünün. Bu, OCR'nin en kolay kullanım senaryosu, ancak VLM çıktı token sayısı arttıkça zorlanıyor
- Sınır kutuları. Henüz çok hassas sınır kutuları sağlayan bir model yok. Gemini ve Qwen bu konuda eğitildi, ancak geleneksel modeller kadar iyi performans göstermiyor
Geliştirme için çok alan var, ancak özellikle Gemini gibi modeller doğruluk/maliyet açısından oldukça rekabetçi
Neden tüm OCR servislerinin sadece dijital belgelerin kusursuz ekran görüntülerini gösterdiğini merak ediyorum. Dijital veriye OCR uygulamak isteyen bu kadar çok insan mı var? HTML'yi kopyalamak yetmez mi? Dijital olmayan belgeler söz konusuysa, kat izi, kaymış satırlar, ışık gradyanı, parmaklar vb. içeren ekran görüntüleri nerede?
vlm-run ve özel form tanımlarıyla denemeler yaptım; Gemini 2.0 Flash ile şaşırtıcı derecede iyi çalışıyor. Maliyetinin de düşük olduğunu anlıyorum. En iyi sonuçlar basit ile orta karmaşıklıktaki formlarda alınıyor. 10 dakikadan kısa eğitimle, bir insanın işleyebileceğine benzer formlar
OCR araçları, kutunun üzerinde yazdığı şeyi iyi yapar; yani kağıt üzerindeki karakterleri tanır. Görsel-dil modeli kullanmanın avantajı, "Bu bir string ama bir zaman damgasına benziyor mu?" gibi mantık katmanları ekleyebilmektir
Benim istediğim şu: bir belgeyi (tam kitaplar dahil) tarayıp/fotoğraflayıp bir dil modeline vermek ve karşılığında orijinal belgeyle tam olarak eşleşen bir Latex belgesi almak. Fotokopi/kamera kusurları ve açı hariç. Bunun için bir pekiştirmeli öğrenme modeli mümkün gibi görünüyor. Piksel düzeyinde görüntüyü yeniden üreten Latex üretmeyi öğrenebilmelidir
İkisini de kullanmalısınız. OCR ve LLM kullandıktan sonra iki sonucu birbiriyle ilişkilendirmek kaliteyi ciddi biçimde artırıyor. Sadece belge anlama ve bağlam değil, sınır kutuları gibi şeyleri de elde ediyorsunuz. "Asla form doldurma" uygulaması geliştiriyorum; ilgilenen kişilerle konuşmak isterim
Sebep prompt'um olabilir ama görüntü gömüldükten sonra fazla yorumlama var gibi görünüyor. Benim örneğimde metnin bir kısmını özetlemeye başladı ve ne yazık ki yanlış yaptı. Basılı metin içeren bir faturada, aslında Cuma günü saat 14:00'ten sonra gönderilirse bir sonraki Pazartesi'ye kadar işlenmeyeceği yazıyordu, ama bunu 2-3 iş günü boyunca işlenmeyecek diye özetledi. Bu oldukça farklı. Bu katmanları bir şekilde kaldırmanın mümkün olup olmadığını merak ediyorum. Tek seferlik yapılandırılmış metin algılama/tanıma, temel OCR'den çok daha iyiydi
Daha fazla çalışma yapıldığını görmek güzel, ama bunun neden birinin özel API'sine bağlı olduğunu anlayamıyorum. Model sağlayıcısını değiştirmek ve temel loglama eklemek, başka bir sağlayıcıyı sisteme almak kadar acı verici olmamalı. Özellikle LLM prompt'ları gibi hassas şeylerle uğraşıyorsanız
En hızlı ve en doğru CLI OCR aracı hangisi? Benim kullanım senaryom basit: ekranın bir bölümünü yakalayıp (Flameshot bunun için iyi) OCR yapmak istiyorum. Zoom'da pair programming sırasında not almak için buna ihtiyacım var. Şu anda tesseract kullanıyorum; hızlı ve iyi çalışıyor ama hata yapıyor. Tablo düzenini ayırt edip bunu ASCII ya da Markdown tabloya dönüştürebilse harika olurdu. docling denedim ama biraz fazla ağır geldi. Yavaş görünüyor — ekran görüntüsünden metni çok hızlı almam gerekiyor. Sadece varsayılan ayarları denedim; ince ayarla iyileşebilir gibi geliyor. Bu konuda düşüncesini paylaşabilecek biri var mı? Teşekkürler!

Vision Language Model ile OCR'nin Yerini Almak

İlgili okumalar

1 yorum

Hacker News yorumu