DeepSeek OCR - Görsel bağlam sıkıştırmasıyla ultra verimli OCR modeli

(github.com/deepseek-ai)

16 puan yazan GN⁺ 2025-10-21 | 1 yorum | WhatsApp'ta paylaş

"Metni görüntü olarak ifade ederseniz, aynı bilgiyi çok daha az token ile taşıyabilirsiniz" içgörüsünden yola çıkıyor
Metin bilgisini 2D görsel gösterime sıkıştıran yeni bir yaklaşım öneren bu model, uzun bağlamı verimli biçimde işlemek için görme tabanlı sıkıştırma (Optical Compression) kavramını deneysel olarak doğruluyor
Model, DeepEncoder (encoder) ve DeepSeek3B-MoE-A570M (decoder) bileşenlerinden oluşuyor; yüksek çözünürlüklü girdilerde bile düşük aktif bellek kullanımı ve 10~20 kat düzeyinde token sıkıştırma oranı sağlıyor
10 kat sıkıştırmada %97 OCR doğruluğu, 20 kat sıkıştırmada da %60'ın üzerinde doğruluk koruyor; bu da uzun metin bağlamı sıkıştırma ve bellek unutma mekanizmaları araştırmaları için pratik bir potansiyel sunuyor
OmniDocBench'te GOT-OCR2.0'a (sayfa başına 256 token) kıyasla yalnızca 100 görsel token ile daha iyi performans, MinerU2.0'a (ortalama sayfa başına 6000+ token) kıyasla ise 800 token'ın altında üstün performans gösteriyor
Tek bir A100-40G GPU ile günde 200 binden fazla sayfa veri üretimi mümkün; bu da onu LLM/VLM için büyük ölçekli eğitim veri motoru olarak oldukça değerli kılıyor

1. Araştırma arka planı

Mevcut LLM'ler, dizi uzunluğu arttıkça hesaplama maliyetinin karesel olarak artması gibi yapısal bir sınıra sahip
Makale, "Metni görüntü olarak ifade ederseniz, aynı bilgiyi çok daha az token ile taşıyabilirsiniz" içgörüsünden hareket ediyor
Bunu görsel token tabanlı uzun bağlam sıkıştırması (Context Optical Compression) olarak tanımlıyor ve OCR'ı bunun deneysel sahnesi olarak konumluyor
Sonuç olarak, görsel gösterimin LLM'lerin bağlam işleme verimliliğini iyileştirebilecek yeni bir yol sunduğunu gösteriyor

2. Model mimarisi

DeepSeek-OCR = DeepEncoder + DeepSeek3B-MoE decoder
- DeepEncoder: SAM (Window Attention) + CLIP (Global Attention) + 16 kat token sıkıştırıcı
- DeepSeek3B-MoE: 64 uzmandan 6'sı etkin, toplam 570M aktif parametre
Çoklu çözünürlük modu desteği (Tiny~Gundam)
- 512~1280 çözünürlük girdilerini destekliyor ve en fazla 9 tile'ı birleştirerek işleyebiliyor
- Gundam modu, gazete gibi ultra yüksek çözünürlüklü belgeleri hedefliyor ve en fazla 800 görsel token kullanıyor

3. Veri motoru

Toplam 3 tür veri bileşimi:
- OCR 1.0 verisi: 30M sayfa (100 dil) belge tabanlı, ayrıntılı yerleşim ve metin açıklamaları içeriyor
- OCR 2.0 verisi: grafikler, kimyasal formüller (SMILES), geometrik şekiller gibi karmaşık tanıma görevleri için 16M veri
- Genel görsel veri: CLIP tabanlı görsel anlama yetisini korumak için toplamın %20'si
- Yalnızca metin verisi: dil yeteneklerini desteklemek için %10 pay
Toplam eğitim veri oranı
- OCR %70 / görsel %20 / metin %10

4. Eğitim hattı

Eğitim iki aşamada yapılıyor: DeepEncoder → DeepSeek-OCR
Toplam 20 düğümde (8×A100 GPU) veri paralelliği DP=40, global batch 640
Eğitim hızı: metin verisinde günde 90B token, çok modlu veride günde 70B token

5. Değerlendirme sonuçları

(1) Sıkıştırma deneyi (Fox benchmark)

10 kat sıkıştırmada %97 doğruluk, 20 kat sıkıştırmada bile %60'ın üzerinde koruma
Belge uzadıkça veya karmaşıklaştıkça performans düşüşü görülüyor; ancak bu, "unutma mekanizması" simülasyonu olasılığı olarak yorumlanıyor
10× ve altındaki sıkıştırma oranlarında neredeyse kayıpsız bağlam geri kazanımı mümkün

(2) Gerçek belge tanıma (OmniDocBench)

Tiny (64 token) ~ Gundam (800 token) modları karşılaştırıldı
- GOT-OCR2.0'a (256 token) kıyasla Small (100 token) modunda daha iyi
- MinerU2.0'a (7.000 token) kıyasla Gundam (800 token) ile daha yüksek performans
Gerekli token sayısı belge türüne göre değişiyor
- Sunumlar, raporlar: 64~100 token yeterli
- Gazeteler, akademik makaleler: 400~800 token gerekli

6. Nitel analiz (Qualitative Study)

Deep Parsing modu
- Grafikler, şekiller, kimyasal formüller ve doğal görüntüler için tek bir prompt ile yapısal çıkarım yapılabiliyor
Çok dilli tanıma
- Yaklaşık 100 dilde PDF desteği, Arapça ve Sinhala gibi az kullanılan diller dahil
Genel görsel anlama
- Görüntü açıklama, nesne tespiti ve grounding yapabiliyor
- LLM ile birlikte kullanıldığında görsel-dil birleşik akıl yürütme için temel model olarak değerlendirilebilir

7. Tartışma ve çıkarımlar

DeepSeek-OCR, görsel token tabanlı uzun bağlam sıkıştırmasının sınırlarını araştıran ilk deney olarak,
"Bir görüntü bin kelime taşır" fikrini nicel hale getiriyor
10× sıkıştırmada bile neredeyse kayıpsız geri kazanım mümkün → sohbet geçmişi sıkıştırma, uzun süreli bellek optimizasyonu gibi alanlara genişletilebilir
"Zaman geçtikçe görüntü çözünürlüğünü düşürme" yaklaşımıyla biyolojik unutma eğrisine benzer token zayıflaması simülasyonu öneriliyor

8. Sonuç

DeepSeek-OCR, metin-görsel arasında 10~20 kat sıkıştırma eşlemesini deneysel olarak gösteren bir model olarak,
LLM'lerin uzun bağlam işleme sınırlarını aşmak için yeni bir paradigma sunuyor
OCR'ın ötesinde, gelecekte dijital-optik hibrit pretraining ve
'Optical Context Memory' tabanlı ultra uzun bağlam modellerine genişlemesi bekleniyor
Kod açık durumda ve hem araştırma hem de ticari veri motoru olarak kullanılabiliyor

Repo içeriği özeti : https://github.com/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR, mevcut açık kaynak OCR projelerine kıyasla, görsel bilgiyi etkili biçimde encode eden büyük dil modeli (LLM) tabanlı yapısıyla öne çıkıyor
Çeşitli çözünürlük desteği (512×512~1280×1280) ve dinamik çözünürlük için Gundam modu sayesinde farklı ortamlara güçlü uyum sağlıyor
Net prompt tasarımı ile genel görüntü açıklama, Markdown dönüşümü, yerleşimi yok sayan OCR, tablo ayrıştırma gibi çeşitli çalışma modlarını destekliyor
Fox, OminiDocBench gibi sektör benchmark'larıyla performansı doğrulanmış, gerçek belge işleme deneyleriyle test edilmiş
GOT-OCR2.0, PaddleOCR gibi diğer popüler projelerin güçlü yönleri ve fikirleri de uygulanarak sisteme dahil edilmiş
Desteklenen çözünürlükler
- Tiny: 512×512 (64 vision tokens)
- Small: 640×640 (100 vision tokens)
- Base: 1024×1024 (256 vision tokens)
- Large: 1280×1280 (400 vision tokens)
- Dynamic mode(=Gundam): serbest çözünürlük (n×640×640 + 1×1024×1024)
PDF ve görüntüler için paralel inference ve yüksek işleme hızı
- A100 GPU'da PDF işleme hızının ~2.500 token/s düzeyine çıkabildiği belirtiliyor
Teknik arka plan ve ekosistem bağlantıları
- %100 Python ile uygulanmış
- vLLM ve Transformers olmak üzere iki ana inference ortamını da destekliyor
- OpenChart, Fox, OminiDocBench gibi başlıca benchmark ve değerlendirme framework'lerinden yararlanıyor
- GOT-OCR2.0, PaddleOCR, Vary gibi önceki modellerle entegrasyon, fikir devralma ve performans güçlendirme sağlanmış

1 yorum

GN⁺ 2025-10-21

Hacker News yorumu

Bu makale, yalnızca OCR için bir başka VLM olmanın ötesine geçip sıkıştırma gibi daha ilginç konulara uzanıyor
Örneğin şu alıntı var: "Görsel-metin sıkıştırmasının sınırlarını keşfetmek için öncü bir çalışma yürüttük; metin tokenlarını çözmek için kaç görsel token gerektiğini inceledik. Ön sonuçlara göre DeepSeek-OCR, yaklaşık 10x oranında neredeyse kayıpsız OCR sıkıştırması sağladı ve 20x sıkıştırmada bile %60 doğruluğu korudu"
Sezgisel olarak bu, bir görsel tokenın 10 metin tokenı kadar bilgi taşıdığı anlamına geliyor
Bunun neden böyle çıktığını, bilgi kuramı açısından yeni başlayanların anlayabileceği şekilde açıklayabilecek biri var mı?
Acaba bunun nedeni metin tokenlarının hâlâ fazla parçalı olması mı (ya da fazlalık içermesi ve entropi kodlamasına yeterince yaklaşamaması mı), yoksa görsel token yaklaşımına geçince “kelime birimi” sınırını aşıp entropiye daha çok yaklaşabilmek mi söz konusu (aritmetik kodlama ile Huffman kodları arasındaki fark gibi)?
Makalede ayrıca büyük bağlamlarla çalışırken görüntülerin gerçekten downscale edilmesinden ve metin alanındaki bilgi kaybıyla görüntü alanındaki bilgi kaybı arasındaki eşleşmeden de söz ediliyor
- Metin tokenları nicemlenmiş alt birimlerdir (subword), görsel tokenlar ise yalnızca embedding uzayında bulunur
  LLM’lerde metin tokenizasyonu, (küçük) token ID’leri ile (büyük) vektör embedding’lerinden oluşan bir lookup table yapısıdır
  Metni LLM’e verirken önce dize token sınırlarından bölünür, token ID’lerine dönüştürülür, sonra lookup table’dan vektörler çekilip bir matris (context matrix) oluşturulur
  Gerçek metin token dizisini iletmek verimlidir; çünkü yalnızca bir sayı dizisi (ID’ler) göndermeniz yeterlidir (genelde yaklaşık 100 bin benzersiz token ID’si)
  Buna karşılık embedding matrisinin kendisini iletmek verimsizdir; çünkü embedding’ler binlerce float sayıdan oluşur
  Görseller farklı biçimde kodlanır. Görüntü verisi ön işlenir ve doğrudan sinir ağı tabanlı bir görüntü kodlayıcısına verilerek vektörlere dönüştürülür; bu vektörler de bağlama eklenir
  Yani görüntü tokenlarında token ID de yoktur, lookup table da yoktur; veriden doğrudan embedding’e geçilir
  Sonuç olarak görüntü tokenlarını iletmek için embedding’in kendisini göndermek gerekir ve bu verimsizdir
  Görüntü daha az tokenla kodlansa bile her tokenın kapasitesi çok daha büyüktür
  Özetle, metin tokenları tam olarak vektörlere eşlenen tamsayılardır (0~n), dolayısıyla ‘n’ adet seçenek vardır
  Görüntü tokenları ise m boyutlu float dizileridir (vektörler), bu yüzden token uzayı çok daha büyüktür
  Desenler açısından da metin tokenları ardışık UTF-8 baytlarına doğrudan karşılık gelir ve çoğu zaman kelime sınırlarının ötesine geçmez; bu yüzden küresel desenler (“bu replik Hamlet’ten”, “bu bölüm İspanyolca” gibi) tek bir tokenla ifade edilemez
- Çok kipli LLM’lerde görüntü girdisinin nasıl embedding’e dönüştürüldüğünü tam olarak bilmiyorum ama temelde görüntünün bir ızgaraya bölünüp her bölgenin kodlandığını anlıyorum
  DeepSeek’in deneylerinde bilgi kuramsal bir özellikten çok, çözünürlüğü ne kadar düşürebileceğiniz ya da ızgara (patch) boyutunu ne kadar küçültebileceğiniz ve buna rağmen doğru OCR için yeterli ayrıntıyı hâlâ koruyup koruyamadığınız belirleyici gibi görünüyor
  Keşke Karpathy, NanoChat’i multimodal hâle getirip bu tür kodlama süreci bilgilerini paylaşsa
- Uygun sıkıştırma oranı sonuçta bir karakterin çözünürlüğü ile her görsel token patch’inin göreli boyutuna bağlı olmak zorunda
  Ancak bu şekilde OCR ile çıkarılan metin tokenlarının sayısı görüntü çözünürlüğünden bağımsız kalabilir
- Her metin tokenı çoğunlukla subword düzeyindeyken, VLM’nin görsel tokenları anlamsal uzayda (semantic space) yer alır
  Anlamsal uzay, subword bölmeye kıyasla bilgiyi çok daha güçlü biçimde sıkıştırabilir
  Not: Uzman değilim, aklıma geleni yazdım
- LLM’lerde hesaplama maliyeti token sayısına göre karesel artar
  Bu yüzden VLM’lerde metin tokenlarını görsel tokenlara sıkıştırmaya çalışıyorlar
  Muhtemelen metni önce görüntü olarak render edip sonra tokenize ederek hesaplama maliyetini düşürmeyi deniyorlar
NVIDIA Spark’ta (ARM64) PyTorch biraz uğraştırıcıydı ama Claude Code’u root yetkisiyle yeni bir Docker konteynerinde çalıştırınca bunu çalıştırabildim
Ayrıntılı notlar burada
Gerçek çıktıyı bu bağlantıda görebilirsiniz; test için OCR görselinin aslı da burada
- OCR çıktısı genel olarak oldukça sağlam
  Ama alıntının hemen altındaki paragrafta gereksiz şeyler ekleyerek halüsinasyon üretmiş ve bunu bir sonraki sütunla birleştirmiş
  Hızlı testi yaptığın için teşekkürler
- Metnin başındaki "A" harfini kaçırmasını anlayabiliyorum (muhtemelen veri kümesinde haber makaleleri çok fazla değildi)
  Ama "Hallucination is a risk and..." kısmının tamamını, yazarın yanındaki konu başlığını ("theme") ve en sondaki e-posta bölümünü de tamamen atlaması daha ilginç geldi
- Bu deney tek başına ayrı bir gönderi olmayı hak ediyor bence
- "Claude Code’u yeni bir Docker konteynerinde root olarak çalıştırmak"
  Bunu root yetkisiyle çalıştıracak şekilde tam olarak nasıl ayarladığını merak ediyorum
  (Eğer açıklanmışsa yazının içinde bakarım)
Makalede Anna’s Archive’tan hiç söz edilmiyor
DeepSeek’in, OCR araştırmacılarına 7,5 milyon kitaplık (350 TB) Çince kurgu dışı koleksiyon erişimi sağlama yönündeki Anna teklifini gerçekten kullanmış olabileceğini düşünüyorum
Bu hacim Library Genesis’ten bile büyük
İlgili blog yazısı
- DeepSeek’in önceki makalelerinde Anna’s Archive doğrudan anılıyor
  "Anna’s Archive’tan 860 bin İngilizce, 180 bin Çince e-kitap ve K-12 eğitim sınav sorularından milyonlarcası ayıklandı"
  Bkz. DeepSeek-VL makalesi
- Başkalarının kitaplarını barındırıyor diye neden özellikle erişim izni almak gereksin ki diye düşünüyorum
- Benim de aklıma hemen Anna’s Archive geldi; OCR ile işlenmiş veri kümesinin ne zaman yayınlanacağını merak ediyorum
- Bu aynı zamanda veri kümesinin hiç yayınlanmayacağı anlamına da gelebilir
- Böyle giderse Anna’s Archive da sonunda LLM şirketleri tarafından kötüye kullanılıp yok mu olacak diye endişeleniyorum
  META’nın Library Genesis’ten 70 TB veriyi torrent ile çekmiş olması yetmiyormuş gibi
Mevcut ve farklı benchmark’ların gerçek düzeyiyle ilgili deneyim paylaşımı
- OmniAI benchmark’ı pek iyi değil
- Onun yerine OmniDocBench öneririm
- Mistral OCR, açık kaynak OCR modellerine ve Gemini’ye kıyasla belirgin şekilde geride
- Uçtan uca OCR hâlâ çok zor
- Pipeline yaklaşımı (yerleşim algılama → okuma sırası belirleme → her öğe için OCR) daha iyi çalışıyor
- Karmaşık tablo ayrıştırma hâlâ büyük bir sorun
- Apple Vision Framework’ün de bu modellerle benchmark karşılaştırmalarını merak ediyorum
  Neredeyse tüm Apple cihazlarında yerleşik geliyor ve pratikte yüksek kaliteli, hızlı OCR veriyor (özellikle PDF dönüştürmede) ama insanların bundan pek haberi yok gibi
  Benchmark’larda nereye düştüğünü gerçekten merak ediyorum
- OmniAI benchmark’ına göre en iyi performansı Omni OCR gösteriyor
  İnsanların bu tür sonuçları hiç sorgulamaması muhtemel
LLM tabanlı OCR’ın Azure AI Document Intelligence(bağlantı), Google Vision API(bağlantı) gibi servislerle karşılaştırıldığında ne gibi avantajları ve farkları olduğunu merak ediyorum
- OmniAI’da kendi LLM’lerini ve bulut OCR’ı karşılaştırmalı benchmark’a sokuyorlar
  OmniAI blog benchmark’ı (Şubat 2025 itibarıyla)
  O tarihten sonra LLM’ler çok hızlı gelişti
  Son dönemde en iyi sonuçlar Qwen3-VL ailesinden, özellikle Qwen3-VL-235B-A22B-Instruct’tan geliyor
- Benim tahminim, ticari/kapalı OCR modelleri gerçek belgelerde üstünlüğünü koruyacaktır
  Çünkü ellerinde çok sayıda kaliteli özel eğitim veri kümesi var
  Kamusal LLM’ler arXiv, e-kitap vb. akademik odaklı verilerle eğitildiği için gerçek iş belgelerinde geri kalmaları kaçınılmaz
  LLM yaklaşımı karakter ikame hatalarını (yazım hataları, varyasyonlar) azaltıyor ama tüm sayfa düzeyindeki tutarlılık bazen daha da kötü olabiliyor
  OCR olmayan LLM’ler gibi tamamen alakasız şeyler de üretebiliyor
- CJK karakterlerinde geleneksel OCR hâlâ çok sayıda uygunsuz ikame üretiyor
  Birbirine çok benzeyen çok fazla karakter var; bazıları ancak mikroskop düzeyinde ya da ikili seviyede ayırt edilebiliyor
  LLM’ler olası karakter dizilerine daha fazla kısıt getirdiği için daha doğru sonuçlar beklenebilir
  En azından bu kaygı bile LLM tabanlı OCR’a yönelmek için bir motivasyon yaratıyor
- Diğer modelleri bilmiyorum ama bizim şirket özgeçmiş ayrıştırma sistemini Azure AI Document Intelligence ile çalıştırıyor ve oldukça memnunuz
  Başta biraz ayar yapmak gerekiyor, sonra son 1 yıldır neredeyse hiç dokunmadık
Birçok VLM’i denedim (Granite, Qwen gibi küçük modellerden büyük modellere kadar) ve klasik OCR’ın tam yerine geçme konusunda hayal kırıklığı yarattıkları sonucuna vardım
Bizim sistem müşterilerden belgeler alıyor ve istenildiği şekilde işaretlenmiş standart belgeler döndürüyor (raster tarzı çok sayfalı bitmap’ler)
Bizim için veriden tekil karakter veya kelime düzeyine kadar koordinat çıkarma hassasiyeti önemli; fakat VLM’lerin konum bilgisi pratikte aşırı tutarsız, tamamen uydurma (hallucinated) ya da istenen doğruluk/ayrıntı düzeyini garanti edemeyecek kadar belirsiz oluyor
Şimdilik Tesseract tabanlı çözüme ve sonuç temizleme rutinlerine devam ediyoruz; yalnızca yapılandırılmış veri kümesi olmadığında bazen VLM’nin metin çıktısını yardımcı olarak kullanıyoruz
Bizim kullanım durumu çok niş olabilir; çoğu insan için yalnızca metin dökümü ya da Markdown/HTML dönüşümü yeterliyse sorun olmayacaktır
Ama bu modellerin “OCR’ı tamamen çözdüğü” iddialarıyla gerçek deneyim arasında bence ciddi bir fark var
- moondream 3 preview modelini denemeyi öneririm
  Blog yazısına göre birçok VLM’in performansını geçiyor ve hafif bir model
  Bkz. ana sayfa, model, blog
- Müşteri belgelerinde el yazısı metin olmuyor mu diye merak ettim
- Önce CNN ile metin bounding box’larını bulup sonra her kutu için ayrı ayrı VLM çalıştırmak da mümkün olabilir
Benim kişisel izlenimim OCR’ın büyük ölçüde çözülmüş bir problem olduğu yönünde
OmniAI benchmark’ı da en yeni modellerle güncellenmedi; bence bunun nedeni genel amaçlı LLM’lerin ilgili benchmark’taki özel OCR’dan daha iyi hâle gelmiş olması
Gerçekten de her sayfa görselini Gemini 2.5 Flash Lite’a verip Markdown olarak çıkarmasını istediğimde, yaklaşık 1000 sayfa başına 20 sent maliyetle oldukça iyi sonuçlar aldım
Bugünlerde OCR’ın zor tarafı tam olarak ne?
- Çoğu OCR/LLM (özellikle Gemini Pro 2.5 bile) karmaşık tabloları Markdown/HTML’e dönüştürmede hâlâ zorlanıyor
  Çoklu başlıklar, birleşik hücreler, onay kutusu içeren sütunlar gibi sorunlar sık çıkıyor; birden fazla sayfaya yayılan tabloları da düzgün anlayamıyorlar
  Llamaindex de aynı şekilde çok kötü başarısız oluyor
  Bu tür sorunlarda hangi OCR/LLM’in daha iyi olduğunu merak ediyorum
  Örnek karmaşık tablo,
  Tam ICAO kontrol listesi örneği
- Aslında mesele OCR değil, HTR (el yazısı transkripsiyonu/tanıma) hâlâ zor
  LLM’ler sayesinde doğruluk çok arttı ama hataları insanların yakalaması da çok zorlaştı (okuyamadığı yeri tamamen uyduruyor)
- Tanıyamadığı kısım için “bilmiyorum” demeyip onun yerine kafasına göre bir şeyler doldurmasını kabul ediyorsanız, evet çözülmüş sayılır
  (Bunu alay etmek için söylemiyorum; bazı durumlarda gerçekten kabul edilebilir)
- OmniAI benchmark’ının yazarı benim
  Yeni modellerle güncellenmemesinin nedeni, ürün tarafında OCR API’sini küçültmüş olmamız
  İçeride hâlâ kullanıyoruz ama benchmark’ı güncellemeye üşendik
  Gemini OCR konusunda en iyisi
  Ancak eğitim verisine fazla benzeyen sonuçlarda çıktının yaklaşık %10’unda bir anda kesilme yaratan ‘recitation’ hatası sık oluyor
  PDF karışımlarında boş sayfa girerse komik halüsinasyonlarla bambaşka içerikler de uydurabiliyor
  OpenAI da kötü değil ama GPT5’in GPT-4o ya da 4.1’e karşı belirgin bir üstünlüğü yok
  Header/footer gibi bazı içerikler sık sık kayboluyor ve sayfa yana dönükse model tamamen saçmalayabiliyor
  Kimlikler, tıbbi belgeler, PII riski yüksek içerikler gibi şeyleri kendi kendine reddetmesi de sık görülüyor
- Bunun kesinlikle çözülmüş bir problem olduğunu düşünmüyorum
  Alışılmadık yerleşime sahip dergileri OCR’dan geçirmeyi deneyin; imkânsız oluyor
  Eski dergiler biriktiriyorum ve sürekli en yeni teknolojiyle OCR deniyorum ama sonuç her zaman çok ciddi insan emeği gerektiriyor
Daha küçük bir ‘OCR modeli’ var mı diye merak ediyorum
Üretim sahasındaki fotoğraflardan yalnızca seri numaralarını çıkarmam gerekiyor; tüm belgeyi ayrıştırmama gerek yok
3 milyar parametreli bir modeli bunun için kullanmak fazla ağır kaçıyor
DeepSeek-OCR’ın Tesseract(bağlantı) ile karşılaştırıldığında nasıl olduğunu merak ediyorum
Ben ocrmypdf(bağlantı) kullanmayı seviyorum ve yerelde bana çok iyi hizmet ediyor
- Son dönemde benchmark’ların çoğunda yalnızca LLM/VLM tabanlı alternatiflerden söz ediliyor
  Gerçekte Tesseract %80 iş görüyorsa ve yeni model %95’e çıkıyorsa bile
  bunun karşılığında 100 kat disk, Kubernetes/Docker, GPU üzerinde 16 GB VRAM gibi altyapı gereksinimleri geliyorsa, bunu ayrıca değerlendirmek gerekir
En güncel araştırmaları takip etmeyen biri olarak bunun ne olduğunu ve neden önemli olduğunu ELI5 (5 yaşındaki bir çocuğa anlatır gibi) düzeyinde açıklayabilecek biri var mı?
GitHub’da ya da makale başlığında OCR yazıyor ama özet ve readme.md bağlam sıkıştırmasından söz ediyor; bu yüzden kafam karıştı
Bu ikisinin nasıl bağlandığını, daha üst düzey bağlamda açıklayabilecek birini arıyorum
- Örneğin bir görüntüde 1000 kelime olduğunu varsayalım (her kelime 1 token olsun)
  Görüntü “1000 token”lık bilgi taşıyor demektir
  Gerçekte görüntüyü feature/embedding’e dönüştürmeniz gerekir (decode etmeniz gerekir)
  Eğer görüntü 100 “görüntü tokenı” olarak işleniyor ve bu görüntü tokenları 1000 “metin tokenı”na dönüştürülüyorsa
  sırf decode açısından bakıldığında, çıktıyı 10 kat sıkıştırılmış biçimde iletmiş oluyorsunuz
  LLM açısından bu, eğer 10 kat daha küçük bir latent gösterimle önceden sıkıştırma yapabiliyorsanız, 1000 token/embedding olmadan da aynı ya da daha iyi sonucu üretebileceğiniz anlamına gelir

DeepSeek OCR - Görsel bağlam sıkıştırmasıyla ultra verimli OCR modeli

1. Araştırma arka planı

2. Model mimarisi

3. Veri motoru

4. Eğitim hattı

5. Değerlendirme sonuçları

(1) Sıkıştırma deneyi (Fox benchmark)

(2) Gerçek belge tanıma (OmniDocBench)

6. Nitel analiz (Qualitative Study)

7. Tartışma ve çıkarımlar

8. Sonuç

Repo içeriği özeti : https://github.com/deepseek-ai/DeepSeek-OCR

İlgili okumalar

1 yorum

Hacker News yorumu