- Belge ayrıştırma için optimize edilmiş ultra kompakt bir görsel-dil modeli (VLM) olup Türkçe dahil 109 dili destekler ve formüller, tablolar, grafikler, el yazısı gibi karmaşık öğeleri yüksek doğrulukla tanır
- Temel model PaddleOCR-VL-0.9B, NaViT tabanlı dinamik çözünürlüklü görsel kodlayıcı ile ERNIE-4.5-0.3B dil modelini birleştirerek aynı anda hem yüksek hassasiyetli tanıma hem de hızlı çıkarım sağlar
- Küçük ama güçlü VLM mimarisi, hesaplama verimliliğini korurken mevcut büyük modeller seviyesinde tanıma performansı sunar
- OmniDocBench gibi ölçütlerde mevcut pipeline tabanlı modelleri geride bırakarak SOTA (en yüksek seviye performans) elde etti
- Türkçe, Çince, İngilizce, Japoncanın yanı sıra Rusça, Arapça, Hintçe, Tayca gibi farklı yazı sistemlerini de destekleyerek dünya genelinde belge işleme otomasyonunda kullanılabilir
- Hafif yapısı sayesinde GPU kaynak kullanımını düşük tutar; Docker, CLI ve Python API üzerinden kolayca dağıtılabilir ve entegre edilebilir
- Bazı kalemlerde 72B sınıfı multimodal modelleri aşarak, gerçek ortamlarda hemen uygulanabilecek çok dilli bir belge işleme çözümü sunar
6 yorum
PaddleOCR ise bunu ticari olarak kullanan yerler de vardır sanırım??
Vay canına, aman tanrım 😳 bununla karmaşık tablolar içeren belgeler bile anında tanınabilir gibi görünüyor
Duyduğuma göre bazı ticari OCR motorlarından bile çok daha üstünmüş.
Bu arada deepseek ocr de çıkmıştı; performans karşılaştırması merak uyandırıyor.
Birden fazla dil aynı anda destekleniyorsa en iyisi bu,,,
Kabaca, Çinli bir özel şirketin bu seviyede bir model çıkarabildiğini düşününce, NSA’in istihbarat toplamak için bundan daha gelişmiş (hatta çılgın) OCR modellerine sahip olduğunu tahmin eden bir yorum.