PaddleOCR-VL - Baidu'nun yayımladığı 0.9B ultra kompakt görsel-dil modeliyle çok dilli OCR

xguru · 2025-10-21T09:31:02+09:00

Belge ayrıştırma için optimize edilmiş ultra kompakt bir görsel-dil modeli (VLM) olup Türkçe dahil 109 dili destekler ve formüller, tablolar, grafikler, el yazısı gibi karmaşık öğeleri yüksek doğrulukla tanır Temel model PaddleOCR-VL-0.9B, NaViT tabanlı dinamik çözünürlüklü görsel kodlayıcı ile ERNIE-4.5-0.3B dil modelini birleştirerek aynı anda hem yüksek hassasiyetli tanıma hem de hızlı çıkarım sağlar Küçük ama güçlü VLM mimarisi, hesaplama verimliliğini korurken mevcut büyük modeller seviyesinde tanıma performansı sunar OmniDocBench gibi ölçütlerde mevcut pipeline tabanlı modelleri geride bırakarak SOTA (en yüksek seviye performans) elde etti Türkçe, Çince, İngilizce, Japoncanın yanı sıra Rusça, Arapça, Hintçe, Tayca gibi farklı yazı sistemlerini de destekleyerek dünya genelinde belge işleme otomasyonunda kullanılabilir Hafif yapısı sayesinde GPU kaynak kullanımını düşük tutar; Docker, CLI ve Python API üzerinden kolayca dağıtılabilir ve entegre edilebilir Bazı kalemlerde 72B sınıfı multimodal modelleri aşarak, gerçek ortamlarda hemen uygulanabilecek çok dilli bir belge işleme çözümü sunar

(huggingface.co)

43 puan yazan xguru 2025-10-21 | 6 yorum | WhatsApp'ta paylaş

Belge ayrıştırma için optimize edilmiş ultra kompakt bir görsel-dil modeli (VLM) olup Türkçe dahil 109 dili destekler ve formüller, tablolar, grafikler, el yazısı gibi karmaşık öğeleri yüksek doğrulukla tanır
Temel model PaddleOCR-VL-0.9B, NaViT tabanlı dinamik çözünürlüklü görsel kodlayıcı ile ERNIE-4.5-0.3B dil modelini birleştirerek aynı anda hem yüksek hassasiyetli tanıma hem de hızlı çıkarım sağlar
Küçük ama güçlü VLM mimarisi, hesaplama verimliliğini korurken mevcut büyük modeller seviyesinde tanıma performansı sunar
OmniDocBench gibi ölçütlerde mevcut pipeline tabanlı modelleri geride bırakarak SOTA (en yüksek seviye performans) elde etti
Türkçe, Çince, İngilizce, Japoncanın yanı sıra Rusça, Arapça, Hintçe, Tayca gibi farklı yazı sistemlerini de destekleyerek dünya genelinde belge işleme otomasyonunda kullanılabilir
Hafif yapısı sayesinde GPU kaynak kullanımını düşük tutar; Docker, CLI ve Python API üzerinden kolayca dağıtılabilir ve entegre edilebilir
Bazı kalemlerde 72B sınıfı multimodal modelleri aşarak, gerçek ortamlarda hemen uygulanabilecek çok dilli bir belge işleme çözümü sunar

6 yorum

helio 2025-10-21

PaddleOCR ise bunu ticari olarak kullanan yerler de vardır sanırım??

tsboard 2025-10-21

Vay canına, aman tanrım 😳 bununla karmaşık tablolar içeren belgeler bile anında tanınabilir gibi görünüyor

xguru 2025-10-21

Duyduğuma göre bazı ticari OCR motorlarından bile çok daha üstünmüş.

yeorinhieut 2025-10-21

Bu arada deepseek ocr de çıkmıştı; performans karşılaştırması merak uyandırıyor.

yangeok 2025-10-21

Birden fazla dil aynı anda destekleniyorsa en iyisi bu,,,

forgotdonkey456 2025-10-21

Kabaca, Çinli bir özel şirketin bu seviyede bir model çıkarabildiğini düşününce, NSA’in istihbarat toplamak için bundan daha gelişmiş (hatta çılgın) OCR modellerine sahip olduğunu tahmin eden bir yorum.

PaddleOCR-VL - Baidu'nun yayımladığı 0.9B ultra kompakt görsel-dil modeliyle çok dilli OCR

İlgili okumalar

6 yorum