- Belge işleme doğruluğunu ve verimliliğini aynı anda artıran yeni nesil bir OCR modeli olarak, farklı belge türlerinde yüksek tanıma performansı sunuyor
- Önceki sürüme kıyasla genel performansta %74 iyileşme kaydederek el yazısı, formlar, karmaşık tablolar ve taranmış belgelerde üstün sonuçlar elde ediyor
- HTML tabanlı tablo yeniden oluşturma ve Markdown çıktı desteğiyle belgenin yapısal bilgilerini de koruyabiliyor
- 1.000 sayfa başına 2 dolar, toplu işlemede %50 indirim ile maliyet verimliliği sağlıyor
- Kurumsal büyük ölçekli pipeline'lardan etkileşimli belge iş akışlarına kadar geniş kullanım alanına sahip bir OCR teknolojisi olarak, üretken yapay zeka tabanlı veri kullanımının temel altyapılarından biri haline geliyor
Başlıca performans ve özellikler
- Mistral OCR 3, çeşitli belgelerde metin ve gömülü görsel çıkarımını yüksek doğrulukla gerçekleştiriyor
- Markdown formatında çıktı ve HTML tablo yeniden oluşturma özelliği desteğiyle yalnızca belge içeriğini değil, yapısını da algılayabiliyor
- Model boyutunun küçük olması sayesinde rakip çözümlere göre daha düşük maliyetle sunuluyor; 1.000 sayfa başına 2 dolar, Batch API kullanıldığında ise 1 dolar
- mistral-ocr-2512 modeli API üzerinden entegre edilebiliyor veya Document AI Playground arayüzü üzerinden PDF ve görseller metne ya da yapılandırılmış JSON'a dönüştürülebiliyor
Performans artışı ve benchmark
- Dahili benchmark'ta Mistral OCR 2'ye karşı %74 kazanma oranı kaydetti
- Testler gerçek müşteri iş senaryolarına dayalı olarak yürütüldü ve doğruluk fuzzy-match metric ile değerlendirildi
- Kurumsal belge işleme çözümleri ve yapay zeka tabanlı OCR sistemlerinin tamamını geride bırakan doğruluk elde edildi
Başlıca yükseltme alanları
- El yazısı tanıma: El yazısını, karışık açıklamaları ve basılı formlar üzerindeki el yazısı girişlerini doğru yorumluyor
- Form işleme: Kutuların, etiketlerin, el yazısı girişlerin ve karmaşık yerleşimlerin tanınması geliştirildi
- Taranmış ve karmaşık belgeler: Sıkıştırma bozulmaları, eğrilik, düşük çözünürlük ve arka plan gürültüsüne karşı güçlü dayanıklılık sağlıyor
- Karmaşık tablo yapıları: Başlıklar, birleştirilmiş hücreler ve çoklu satır/sütun hiyerarşileri içeren tabloları HTML etiketleri (
colspan/rowspan) ile eksiksiz yeniden üretiyor
- Tüm diller ve belge türlerinde Mistral OCR 2'ye kıyasla genel performans artışı sunuyor
Kullanım örnekleri ve uygulama alanları
- Hem büyük ölçekli kurumsal belge pipeline'ları hem de etkileşimli belge iş akışları için uygun
- Metin ve görsel çıkarımı sonrası Markdown'a dönüştürme, form ve fatura otomatik ayrıştırma, belge anlama pipeline'ları kurma, el yazısı ve tarihî belgeleri dijitalleştirme gibi kullanım senaryolarını destekliyor
- İlk müşteriler bunu faturaları yapılandırılmış alanlara dönüştürmek, kurumsal arşivleri dijitalleştirmek, teknik ve bilimsel raporlardan metin çıkarmak ve kurumsal aramayı iyileştirmek için kullanıyor
- IDC'den Tim Law, “OCR, üretken yapay zeka ve ajan tabanlı yapay zekanın temel teknolojisidir; yüksek doğruluklu ve düşük maliyetli metin çıkarımı yeteneği, veri kullanımında rekabet gücünü belirler” dedi
Erişim yöntemi ve uyumluluk
- API veya Document AI Playground arayüzü üzerinden hemen kullanılabiliyor
- Mistral OCR 2 ile tamamen uyumlu, mevcut sistemlerde kolayca yükseltilebiliyor
- Ayrıntılı belgeler mistral.ai/docs adresinde bulunabilir
1 yorum
Hacker News yorumları
Twitter'da gördüğüm bu videoyu izleyince Mistral'ın neden en güncel SoTA modelleriyle karşılaştırma yapmadığını merak ettim
Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR gibi modellerle karşılaştırmaları iyi olurdu
Mistral, VLM tabanlı modellerle değil sıradan bilgisayarlı görü servisleriyle karşılaştırma yapıyor
İlki belgeyi anlama konusunda daha iyi, ikincisi ise daha doğru bounding box veriyor
Başarısızlık biçimleri de farklı — VLM bir cümlenin tamamını yanlış okuyabiliyor, görü modeli ise genelde kelime içi yazım hatası seviyesinde kalıyor
Son 3 ayda açık kaynaklı OCR modellerinde büyük bir patlama yaşandı
Özellikle 1B parametrenin altındaki modeller bile edge cihazlarda iyi çalışıyor
paddleOCR-VL, olmOCR-2, chandra, dots.ocr gibi modellerle karşılaştırma yapılmasını isterdim
OCR ya da CV tarafında düzgün leaderboard veya arena neredeyse yok
llmarena gibi modelleri karşı karşıya getiriyor ama Mistral henüz eklenmedi
Şu anda üst sıralarda Gemini var
Diğer OCR çözümleri token bazlı olduğu için gerçek maliyeti hesaplamak zor
Örneğin Gemini 3.0 flash görünüşte benzer fiyatlı ama gerçek token hesabında yaklaşık 3 kat daha pahalı
Sonra Claude'a root yetkisi verip onun kurmasını sağladım, benden çok daha keyif alıyor gibiydi
open web UI kurarken de benzer bir şey yaşamıştım, sonunda sadece gereken özelliği 100 satır HTML ile kendim yaptım
Keşke OCR'ı da bu kadar basit kurabilsek
Mistral OCR 3'ün büyük kurumsal pipeline'lara uygun olduğu söyleniyor ama %79 doğruluk ile güven vermiyor
Bilimsel dergi işleriyle uğraşan biri olarak 2.9+0.5 ile 29+0.5 gibi okuma hataları kritik
Sonuçta her aşamada insan doğrulaması gerekiyor
Shipibo (Peru yerli dili)-İspanyolca bir sözlüğü Shipibo-İngilizce sözlüğe dönüştürme projesi üzerinde çalışıyorum
PDF taramalarının kalitesi iyi değil ve iki sütunlu düzen ile üstbilgi/altbilgi yüzünden OCR sık sık başarısız oluyor
Shipibo örnek cümlelerini ve İspanyolca tanımları ayırıp yalnızca İngilizceye çevirmem gerekiyor, bu da işi karmaşıklaştırıyor
Yeni bir OCR/LLM haberi çıktığında deniyorum ama her seferinde hayal kırıklığı yaşıyorum
Shipibo kültüründe hastalıkları sıradan insanlar değil maestra'lar Ayahuasca kullanarak teşhis edermiş
Her bitki için dieta (perhiz diyeti) uygulanıyor; sabun kullanımı, cinsel ilişki, tuz tüketimi gibi şeyler kısıtlanıyor
Geleneksel olarak bu süreç 1 yıldan uzun sürebiliyormuş, günümüzde ise birkaç haftaya kadar kısalmış
Bitki tıbbını bu kadar derinlemesine incelemeleri bana etkileyici geldi
Matematik ders kitaplarını LaTeX formülleri içeren markdown biçimine dönüştürmek istiyorum ama hâlâ tatmin edici bir OCR modeli yok
Mistral'ın OCR playground'ında bizzat test edeceğim
Formülleri de kusursuz şekilde LaTeX'e dönüştürdü
Ben görüntü içinde yerinde çeviri (in-place translation) arıyorum
Mistral OCR3 veri çıkarma odaklı olduğu için benim kullanımım için uygun değil
Yabancı sanat kitaplarındaki metni görselin üstüne doğrudan çevrilmiş halde yerleştirmek istiyorum ama mevcut ücretli servisler standart dışı metin yerleşimi yüzünden başarısız oluyor
Şu anda ekranı Google Lens ile göstererek çeviri yapıyorum ama kullanışsız
Chrome'un yerleşik Lens'i de elle seçim gerektiriyor, yani tam otomatik değil
Bunun geliştiğine dair bir şey duyan var mı?
Mistral son zamanlarda AI özelliklerinin kenar alanlarının peşinden gidiyormuş gibi geliyor
OAI, Google, Anthropic'e göre geride kalıyor gibi ve AB düzeyindeki yatırım yetersiz görünüyor
Meme üretmekten çok daha değerli
Henüz gelir modeli netleşmediği için Mistral'ın çekirdek model kalitesine odaklanması daha doğru
AB içindeki yeteneği koruyup makul düzeyde iyi modeller üretmek daha gerçekçi bir hedef
Paddle, MinerU, MonkeyOCR gibi çeşitli açık kaynak OCR'lara göre Mistral'ın daha zayıf performans verdiğine dair değerlendirmeler gördüm
codesota.com/ocr bakılabilir
MathPix alternatifi olarak Mistral'ı test ediyorum
Bu Python scripti, Windows'ta ekran görüntüsü alıp panodaki görseli Mistral'a gönderiyor ve Markdown çıktısını otomatik yapıştıran bir prototip
Mistral'ın en büyük sorunu müşteri sorularına yanıt vermemesi
“Fiyat için iletişime geçin” yaklaşımının arkasına saklanıyorlar; SoTA'dan iyi olsa bile bu yüzden anlamı kalmıyor
Gerekirse daha pahalı ve daha düşük performanslı olsun ama o süreci gerektirmeyen bir hizmeti seçerim