43 puan yazan xguru 2025-10-21 | 6 yorum | WhatsApp'ta paylaş
  • Belge ayrıştırma için optimize edilmiş ultra kompakt bir görsel-dil modeli (VLM) olup Türkçe dahil 109 dili destekler ve formüller, tablolar, grafikler, el yazısı gibi karmaşık öğeleri yüksek doğrulukla tanır
  • Temel model PaddleOCR-VL-0.9B, NaViT tabanlı dinamik çözünürlüklü görsel kodlayıcı ile ERNIE-4.5-0.3B dil modelini birleştirerek aynı anda hem yüksek hassasiyetli tanıma hem de hızlı çıkarım sağlar
  • Küçük ama güçlü VLM mimarisi, hesaplama verimliliğini korurken mevcut büyük modeller seviyesinde tanıma performansı sunar
  • OmniDocBench gibi ölçütlerde mevcut pipeline tabanlı modelleri geride bırakarak SOTA (en yüksek seviye performans) elde etti
  • Türkçe, Çince, İngilizce, Japoncanın yanı sıra Rusça, Arapça, Hintçe, Tayca gibi farklı yazı sistemlerini de destekleyerek dünya genelinde belge işleme otomasyonunda kullanılabilir
  • Hafif yapısı sayesinde GPU kaynak kullanımını düşük tutar; Docker, CLI ve Python API üzerinden kolayca dağıtılabilir ve entegre edilebilir
  • Bazı kalemlerde 72B sınıfı multimodal modelleri aşarak, gerçek ortamlarda hemen uygulanabilecek çok dilli bir belge işleme çözümü sunar

6 yorum

 
helio 2025-10-21

PaddleOCR ise bunu ticari olarak kullanan yerler de vardır sanırım??

 
tsboard 2025-10-21

Vay canına, aman tanrım 😳 bununla karmaşık tablolar içeren belgeler bile anında tanınabilir gibi görünüyor

 
xguru 2025-10-21

Duyduğuma göre bazı ticari OCR motorlarından bile çok daha üstünmüş.

 
yeorinhieut 2025-10-21

Bu arada deepseek ocr de çıkmıştı; performans karşılaştırması merak uyandırıyor.

 
yangeok 2025-10-21

Birden fazla dil aynı anda destekleniyorsa en iyisi bu,,,

 
forgotdonkey456 2025-10-21

Kabaca, Çinli bir özel şirketin bu seviyede bir model çıkarabildiğini düşününce, NSA’in istihbarat toplamak için bundan daha gelişmiş (hatta çılgın) OCR modellerine sahip olduğunu tahmin eden bir yorum.