- Bu cookbook, çeşitli vaka incelemeleri ve uygulamalar aracılığıyla video ve görüntü işleme algoritmalarını inceleyen açık kaynaklı bir projedir
- Video çıkarımı, görüntü kataloğu, moda görselleri için hibrit arama gibi çeşitli uygulama alanlarını ele alır
- Diğer projelerle karşılaştırıldığında, çeşitli gerçek dünya örnekleri üzerinden algoritmaları öğrenme avantajı sunar
- Ana dosyalar ve not defterleri
00_quickstart.ipynb: Projeye hızlı başlangıç için kılavuz
01_schema_showcase.ipynb: Çeşitli veri şemalarını gösteren vaka incelemeleri içerir
02_case_study_drivers_license.ipynb: Sürücü belgesi tanıma
03_case_study_tv_news.ipynb: TV haber ekranını anlama
04_visual_grounding.ipynb: Görsel grounding algoritmasını inceleme. Görüntü kutuları içinden JSON çıkarma
05_case_study_image_catalogue.ipynb: Moda ürün kataloğunu analiz ederek ürün açıklaması, kategori, hedef cinsiyet ve mevsimi tanıma
06_fashion_images_hybrid_search.ipynb: Moda görselleri için hibrit arama vaka incelemesi
advanced_finetuning_video_inference.ipynb: Video çıkarımı için gelişmiş ince ayar teknikleri
1 yorum
Hacker News yorumu
İlginç bir fikir, ancak henüz üretim ortamında kullanmak için yeterince güvenilir değil. Geleneksel OCR modelleri metni okuyamadığında düşük güvenle anlamsız sonuçlar üretir. Buna karşılık VLM, okuyamadığında da kendinden emin biçimde uydurduğu sonuçlar üretir ve güven düzeyini raporlamanın bir yolu yoktur. El yazısı tanıma denemelerinde VLM, belgenin havasına uyan sahte isimler ve tarihler uydurdu. Modeli kaynak metne dayandırmanın bir yolu yok
Yakın zamanda VLM ve OCR'yi değerlendirmek için açık kaynaklı bir benchmark yayımlandı ve genel olarak VLM'ler geleneksel OCR modellerinden daha iyi performans gösterdi
VLM'nin avantajları:
Geleneksel OCR'nin avantajları:
Geliştirme için çok alan var, ancak özellikle Gemini gibi modeller doğruluk/maliyet açısından oldukça rekabetçi
Neden tüm OCR servislerinin sadece dijital belgelerin kusursuz ekran görüntülerini gösterdiğini merak ediyorum. Dijital veriye OCR uygulamak isteyen bu kadar çok insan mı var? HTML'yi kopyalamak yetmez mi? Dijital olmayan belgeler söz konusuysa, kat izi, kaymış satırlar, ışık gradyanı, parmaklar vb. içeren ekran görüntüleri nerede?
vlm-runve özel form tanımlarıyla denemeler yaptım; Gemini 2.0 Flash ile şaşırtıcı derecede iyi çalışıyor. Maliyetinin de düşük olduğunu anlıyorum. En iyi sonuçlar basit ile orta karmaşıklıktaki formlarda alınıyor. 10 dakikadan kısa eğitimle, bir insanın işleyebileceğine benzer formlarOCR araçları, kutunun üzerinde yazdığı şeyi iyi yapar; yani kağıt üzerindeki karakterleri tanır. Görsel-dil modeli kullanmanın avantajı, "Bu bir string ama bir zaman damgasına benziyor mu?" gibi mantık katmanları ekleyebilmektir
Benim istediğim şu: bir belgeyi (tam kitaplar dahil) tarayıp/fotoğraflayıp bir dil modeline vermek ve karşılığında orijinal belgeyle tam olarak eşleşen bir Latex belgesi almak. Fotokopi/kamera kusurları ve açı hariç. Bunun için bir pekiştirmeli öğrenme modeli mümkün gibi görünüyor. Piksel düzeyinde görüntüyü yeniden üreten Latex üretmeyi öğrenebilmelidir
İkisini de kullanmalısınız. OCR ve LLM kullandıktan sonra iki sonucu birbiriyle ilişkilendirmek kaliteyi ciddi biçimde artırıyor. Sadece belge anlama ve bağlam değil, sınır kutuları gibi şeyleri de elde ediyorsunuz. "Asla form doldurma" uygulaması geliştiriyorum; ilgilenen kişilerle konuşmak isterim
Sebep prompt'um olabilir ama görüntü gömüldükten sonra fazla yorumlama var gibi görünüyor. Benim örneğimde metnin bir kısmını özetlemeye başladı ve ne yazık ki yanlış yaptı. Basılı metin içeren bir faturada, aslında Cuma günü saat 14:00'ten sonra gönderilirse bir sonraki Pazartesi'ye kadar işlenmeyeceği yazıyordu, ama bunu 2-3 iş günü boyunca işlenmeyecek diye özetledi. Bu oldukça farklı. Bu katmanları bir şekilde kaldırmanın mümkün olup olmadığını merak ediyorum. Tek seferlik yapılandırılmış metin algılama/tanıma, temel OCR'den çok daha iyiydi
Daha fazla çalışma yapıldığını görmek güzel, ama bunun neden birinin özel API'sine bağlı olduğunu anlayamıyorum. Model sağlayıcısını değiştirmek ve temel loglama eklemek, başka bir sağlayıcıyı sisteme almak kadar acı verici olmamalı. Özellikle LLM prompt'ları gibi hassas şeylerle uğraşıyorsanız
En hızlı ve en doğru CLI OCR aracı hangisi? Benim kullanım senaryom basit: ekranın bir bölümünü yakalayıp (Flameshot bunun için iyi) OCR yapmak istiyorum. Zoom'da pair programming sırasında not almak için buna ihtiyacım var. Şu anda
tesseractkullanıyorum; hızlı ve iyi çalışıyor ama hata yapıyor. Tablo düzenini ayırt edip bunu ASCII ya da Markdown tabloya dönüştürebilse harika olurdu.doclingdenedim ama biraz fazla ağır geldi. Yavaş görünüyor — ekran görüntüsünden metni çok hızlı almam gerekiyor. Sadece varsayılan ayarları denedim; ince ayarla iyileşebilir gibi geliyor. Bu konuda düşüncesini paylaşabilecek biri var mı? Teşekkürler!