Mistral OCR 3 tanıtıldı

(mistral.ai)

2 puan yazan GN⁺ 2025-12-20 | 1 yorum | WhatsApp'ta paylaş

Belge işleme doğruluğunu ve verimliliğini aynı anda artıran yeni nesil bir OCR modeli olarak, farklı belge türlerinde yüksek tanıma performansı sunuyor
Önceki sürüme kıyasla genel performansta %74 iyileşme kaydederek el yazısı, formlar, karmaşık tablolar ve taranmış belgelerde üstün sonuçlar elde ediyor
HTML tabanlı tablo yeniden oluşturma ve Markdown çıktı desteğiyle belgenin yapısal bilgilerini de koruyabiliyor
1.000 sayfa başına 2 dolar, toplu işlemede %50 indirim ile maliyet verimliliği sağlıyor
Kurumsal büyük ölçekli pipeline'lardan etkileşimli belge iş akışlarına kadar geniş kullanım alanına sahip bir OCR teknolojisi olarak, üretken yapay zeka tabanlı veri kullanımının temel altyapılarından biri haline geliyor

Başlıca performans ve özellikler

Mistral OCR 3, çeşitli belgelerde metin ve gömülü görsel çıkarımını yüksek doğrulukla gerçekleştiriyor
- Markdown formatında çıktı ve HTML tablo yeniden oluşturma özelliği desteğiyle yalnızca belge içeriğini değil, yapısını da algılayabiliyor
- Model boyutunun küçük olması sayesinde rakip çözümlere göre daha düşük maliyetle sunuluyor; 1.000 sayfa başına 2 dolar, Batch API kullanıldığında ise 1 dolar
mistral-ocr-2512 modeli API üzerinden entegre edilebiliyor veya Document AI Playground arayüzü üzerinden PDF ve görseller metne ya da yapılandırılmış JSON'a dönüştürülebiliyor

Performans artışı ve benchmark

Dahili benchmark'ta Mistral OCR 2'ye karşı %74 kazanma oranı kaydetti
- Testler gerçek müşteri iş senaryolarına dayalı olarak yürütüldü ve doğruluk fuzzy-match metric ile değerlendirildi
Kurumsal belge işleme çözümleri ve yapay zeka tabanlı OCR sistemlerinin tamamını geride bırakan doğruluk elde edildi

Başlıca yükseltme alanları

El yazısı tanıma: El yazısını, karışık açıklamaları ve basılı formlar üzerindeki el yazısı girişlerini doğru yorumluyor
Form işleme: Kutuların, etiketlerin, el yazısı girişlerin ve karmaşık yerleşimlerin tanınması geliştirildi
Taranmış ve karmaşık belgeler: Sıkıştırma bozulmaları, eğrilik, düşük çözünürlük ve arka plan gürültüsüne karşı güçlü dayanıklılık sağlıyor
Karmaşık tablo yapıları: Başlıklar, birleştirilmiş hücreler ve çoklu satır/sütun hiyerarşileri içeren tabloları HTML etiketleri (colspan/rowspan) ile eksiksiz yeniden üretiyor
Tüm diller ve belge türlerinde Mistral OCR 2'ye kıyasla genel performans artışı sunuyor

Kullanım örnekleri ve uygulama alanları

Hem büyük ölçekli kurumsal belge pipeline'ları hem de etkileşimli belge iş akışları için uygun
- Metin ve görsel çıkarımı sonrası Markdown'a dönüştürme, form ve fatura otomatik ayrıştırma, belge anlama pipeline'ları kurma, el yazısı ve tarihî belgeleri dijitalleştirme gibi kullanım senaryolarını destekliyor
İlk müşteriler bunu faturaları yapılandırılmış alanlara dönüştürmek, kurumsal arşivleri dijitalleştirmek, teknik ve bilimsel raporlardan metin çıkarmak ve kurumsal aramayı iyileştirmek için kullanıyor
IDC'den Tim Law, “OCR, üretken yapay zeka ve ajan tabanlı yapay zekanın temel teknolojisidir; yüksek doğruluklu ve düşük maliyetli metin çıkarımı yeteneği, veri kullanımında rekabet gücünü belirler” dedi

Erişim yöntemi ve uyumluluk

API veya Document AI Playground arayüzü üzerinden hemen kullanılabiliyor
Mistral OCR 2 ile tamamen uyumlu, mevcut sistemlerde kolayca yükseltilebiliyor
Ayrıntılı belgeler mistral.ai/docs adresinde bulunabilir

1 yorum

GN⁺ 2025-12-20

Hacker News yorumları

Twitter'da gördüğüm bu videoyu izleyince Mistral'ın neden en güncel SoTA modelleriyle karşılaştırma yapmadığını merak ettim
Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR gibi modellerle karşılaştırmaları iyi olurdu
- Çok fazla belge çıkarma işi yapmış biri olarak tweetin tonu biraz rahatsız edici ama söyledikleri doğru
  Mistral, VLM tabanlı modellerle değil sıradan bilgisayarlı görü servisleriyle karşılaştırma yapıyor
  İlki belgeyi anlama konusunda daha iyi, ikincisi ise daha doğru bounding box veriyor
  Başarısızlık biçimleri de farklı — VLM bir cümlenin tamamını yanlış okuyabiliyor, görü modeli ise genelde kelime içi yazım hatası seviyesinde kalıyor
- Linke tıkladım ve Twitter'ın havası eskisine göre çok daha garipleşmiş gibi geldi
- Qwen 3 VL 235B-A22B ile kıyaslamayı da görmek isterim. Benim deneyimimde MinerU'dan çok daha iyiydi
Son 3 ayda açık kaynaklı OCR modellerinde büyük bir patlama yaşandı
Özellikle 1B parametrenin altındaki modeller bile edge cihazlarda iyi çalışıyor
paddleOCR-VL, olmOCR-2, chandra, dots.ocr gibi modellerle karşılaştırma yapılmasını isterdim
OCR ya da CV tarafında düzgün leaderboard veya arena neredeyse yok
- Yaklaşık bir ay önce ocrarena.ai diye bir proje çıkmıştı
  llmarena gibi modelleri karşı karşıya getiriyor ama Mistral henüz eklenmedi
  Şu anda üst sıralarda Gemini var
- MistralOCR'nin avantajı basit fiyatlandırma politikası — 1.000 sayfa başına $1, sunucuda barındırılan API sunuyor
  Diğer OCR çözümleri token bazlı olduğu için gerçek maliyeti hesaplamak zor
  Örneğin Gemini 3.0 flash görünüşte benzer fiyatlı ama gerçek token hesabında yaklaşık 3 kat daha pahalı
- paddleOCR kurmayı denedim ama 12 GB'lık PyTorch bağımlılıklarını yüklerken sürüm çakışmalarından vazgeçtim
  Sonra Claude'a root yetkisi verip onun kurmasını sağladım, benden çok daha keyif alıyor gibiydi
  open web UI kurarken de benzer bir şey yaşamıştım, sonunda sadece gereken özelliği 100 satır HTML ile kendim yaptım
  Keşke OCR'ı da bu kadar basit kurabilsek
- codesota.com/ocr da bakmaya değer
Mistral OCR 3'ün büyük kurumsal pipeline'lara uygun olduğu söyleniyor ama %79 doğruluk ile güven vermiyor
Bilimsel dergi işleriyle uğraşan biri olarak 2.9+0.5 ile 29+0.5 gibi okuma hataları kritik
Sonuçta her aşamada insan doğrulaması gerekiyor
- Bu tür durumlarda datalab.to epey iyi iş çıkarmıştı
- %79 bir doğruluk değil, kazanma oranı metriği gibi görünüyor
Shipibo (Peru yerli dili)-İspanyolca bir sözlüğü Shipibo-İngilizce sözlüğe dönüştürme projesi üzerinde çalışıyorum
PDF taramalarının kalitesi iyi değil ve iki sütunlu düzen ile üstbilgi/altbilgi yüzünden OCR sık sık başarısız oluyor
Shipibo örnek cümlelerini ve İspanyolca tanımları ayırıp yalnızca İngilizceye çevirmem gerekiyor, bu da işi karmaşıklaştırıyor
Yeni bir OCR/LLM haberi çıktığında deniyorum ama her seferinde hayal kırıklığı yaşıyorum
- Ayahuasca geleneği araştırmalarına ilginiz var mı diye merak ettim
  Shipibo kültüründe hastalıkları sıradan insanlar değil maestra'lar Ayahuasca kullanarak teşhis edermiş
  Her bitki için dieta (perhiz diyeti) uygulanıyor; sabun kullanımı, cinsel ilişki, tuz tüketimi gibi şeyler kısıtlanıyor
  Geleneksel olarak bu süreç 1 yıldan uzun sürebiliyormuş, günümüzde ise birkaç haftaya kadar kısalmış
  Bitki tıbbını bu kadar derinlemesine incelemeleri bana etkileyici geldi
Matematik ders kitaplarını LaTeX formülleri içeren markdown biçimine dönüştürmek istiyorum ama hâlâ tatmin edici bir OCR modeli yok
Mistral'ın OCR playground'ında bizzat test edeceğim
- Binlerce belgeyi Gemini Pro 3 vision modeliyle işledim ve şu ana kadar kullandığım tüm OCR'lara göre ezici biçimde daha doğruydu
  Formülleri de kusursuz şekilde LaTeX'e dönüştürdü
- Sonucun nasıl olduğunu mutlaka paylaşırsan sevinirim
Ben görüntü içinde yerinde çeviri (in-place translation) arıyorum
Mistral OCR3 veri çıkarma odaklı olduğu için benim kullanımım için uygun değil
Yabancı sanat kitaplarındaki metni görselin üstüne doğrudan çevrilmiş halde yerleştirmek istiyorum ama mevcut ücretli servisler standart dışı metin yerleşimi yüzünden başarısız oluyor
Şu anda ekranı Google Lens ile göstererek çeviri yapıyorum ama kullanışsız
Chrome'un yerleşik Lens'i de elle seçim gerektiriyor, yani tam otomatik değil
Bunun geliştiğine dair bir şey duyan var mı?
- Ücretli olması sorun değilse DEEPL ya da Word'ün belge çeviri özelliği oldukça işe yarıyor
Mistral son zamanlarda AI özelliklerinin kenar alanlarının peşinden gidiyormuş gibi geliyor
OAI, Google, Anthropic'e göre geride kalıyor gibi ve AB düzeyindeki yatırım yetersiz görünüyor
- Form işleme gibi pratik özellikler insanların gerçekten ihtiyaç duyduğu şeyler
  Meme üretmekten çok daha değerli
- Lider şirketleri birebir takip etmek riskli
  Henüz gelir modeli netleşmediği için Mistral'ın çekirdek model kalitesine odaklanması daha doğru
  AB içindeki yeteneği koruyup makul düzeyde iyi modeller üretmek daha gerçekçi bir hedef
- AB aslında Mistral'a ciddi biçimde 'yatırım' yapıyor — yarısı vergi koyarak, kalanı da regülasyon tartışmalarında kullanılarak
- AB regülasyonları ayağına dolandığı için sonunda bir ABD şirketine satılma ihtimali yüksek
- Yine de herkesin yaptığını kopyalamaktan daha iyi olduğunu düşünüyorum
Paddle, MinerU, MonkeyOCR gibi çeşitli açık kaynak OCR'lara göre Mistral'ın daha zayıf performans verdiğine dair değerlendirmeler gördüm
codesota.com/ocr bakılabilir
MathPix alternatifi olarak Mistral'ı test ediyorum
Bu Python scripti, Windows'ta ekran görüntüsü alıp panodaki görseli Mistral'a gönderiyor ve Markdown çıktısını otomatik yapıştıran bir prototip
Mistral'ın en büyük sorunu müşteri sorularına yanıt vermemesi
“Fiyat için iletişime geçin” yaklaşımının arkasına saklanıyorlar; SoTA'dan iyi olsa bile bu yüzden anlamı kalmıyor
- Ben de satış temsilcisiyle yüz yüze muhatap olmaktan hiç hoşlanmıyorum
  Gerekirse daha pahalı ve daha düşük performanslı olsun ama o süreci gerektirmeyen bir hizmeti seçerim

Mistral OCR 3 tanıtıldı

Başlıca performans ve özellikler

Performans artışı ve benchmark

Başlıca yükseltme alanları

Kullanım örnekleri ve uygulama alanları

Erişim yöntemi ve uyumluluk

İlgili okumalar

1 yorum

Hacker News yorumları