2 puan yazan GN⁺ 2025-12-20 | 1 yorum | WhatsApp'ta paylaş
  • Belge işleme doğruluğunu ve verimliliğini aynı anda artıran yeni nesil bir OCR modeli olarak, farklı belge türlerinde yüksek tanıma performansı sunuyor
  • Önceki sürüme kıyasla genel performansta %74 iyileşme kaydederek el yazısı, formlar, karmaşık tablolar ve taranmış belgelerde üstün sonuçlar elde ediyor
  • HTML tabanlı tablo yeniden oluşturma ve Markdown çıktı desteğiyle belgenin yapısal bilgilerini de koruyabiliyor
  • 1.000 sayfa başına 2 dolar, toplu işlemede %50 indirim ile maliyet verimliliği sağlıyor
  • Kurumsal büyük ölçekli pipeline'lardan etkileşimli belge iş akışlarına kadar geniş kullanım alanına sahip bir OCR teknolojisi olarak, üretken yapay zeka tabanlı veri kullanımının temel altyapılarından biri haline geliyor

Başlıca performans ve özellikler

  • Mistral OCR 3, çeşitli belgelerde metin ve gömülü görsel çıkarımını yüksek doğrulukla gerçekleştiriyor
    • Markdown formatında çıktı ve HTML tablo yeniden oluşturma özelliği desteğiyle yalnızca belge içeriğini değil, yapısını da algılayabiliyor
    • Model boyutunun küçük olması sayesinde rakip çözümlere göre daha düşük maliyetle sunuluyor; 1.000 sayfa başına 2 dolar, Batch API kullanıldığında ise 1 dolar
  • mistral-ocr-2512 modeli API üzerinden entegre edilebiliyor veya Document AI Playground arayüzü üzerinden PDF ve görseller metne ya da yapılandırılmış JSON'a dönüştürülebiliyor

Performans artışı ve benchmark

  • Dahili benchmark'ta Mistral OCR 2'ye karşı %74 kazanma oranı kaydetti
    • Testler gerçek müşteri iş senaryolarına dayalı olarak yürütüldü ve doğruluk fuzzy-match metric ile değerlendirildi
  • Kurumsal belge işleme çözümleri ve yapay zeka tabanlı OCR sistemlerinin tamamını geride bırakan doğruluk elde edildi

Başlıca yükseltme alanları

  • El yazısı tanıma: El yazısını, karışık açıklamaları ve basılı formlar üzerindeki el yazısı girişlerini doğru yorumluyor
  • Form işleme: Kutuların, etiketlerin, el yazısı girişlerin ve karmaşık yerleşimlerin tanınması geliştirildi
  • Taranmış ve karmaşık belgeler: Sıkıştırma bozulmaları, eğrilik, düşük çözünürlük ve arka plan gürültüsüne karşı güçlü dayanıklılık sağlıyor
  • Karmaşık tablo yapıları: Başlıklar, birleştirilmiş hücreler ve çoklu satır/sütun hiyerarşileri içeren tabloları HTML etiketleri (colspan/rowspan) ile eksiksiz yeniden üretiyor
  • Tüm diller ve belge türlerinde Mistral OCR 2'ye kıyasla genel performans artışı sunuyor

Kullanım örnekleri ve uygulama alanları

  • Hem büyük ölçekli kurumsal belge pipeline'ları hem de etkileşimli belge iş akışları için uygun
    • Metin ve görsel çıkarımı sonrası Markdown'a dönüştürme, form ve fatura otomatik ayrıştırma, belge anlama pipeline'ları kurma, el yazısı ve tarihî belgeleri dijitalleştirme gibi kullanım senaryolarını destekliyor
  • İlk müşteriler bunu faturaları yapılandırılmış alanlara dönüştürmek, kurumsal arşivleri dijitalleştirmek, teknik ve bilimsel raporlardan metin çıkarmak ve kurumsal aramayı iyileştirmek için kullanıyor
  • IDC'den Tim Law, “OCR, üretken yapay zeka ve ajan tabanlı yapay zekanın temel teknolojisidir; yüksek doğruluklu ve düşük maliyetli metin çıkarımı yeteneği, veri kullanımında rekabet gücünü belirler” dedi

Erişim yöntemi ve uyumluluk

  • API veya Document AI Playground arayüzü üzerinden hemen kullanılabiliyor
  • Mistral OCR 2 ile tamamen uyumlu, mevcut sistemlerde kolayca yükseltilebiliyor
  • Ayrıntılı belgeler mistral.ai/docs adresinde bulunabilir

1 yorum

 
GN⁺ 2025-12-20
Hacker News yorumları
  • Twitter'da gördüğüm bu videoyu izleyince Mistral'ın neden en güncel SoTA modelleriyle karşılaştırma yapmadığını merak ettim
    Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR, PaddleOCR gibi modellerle karşılaştırmaları iyi olurdu

    • Çok fazla belge çıkarma işi yapmış biri olarak tweetin tonu biraz rahatsız edici ama söyledikleri doğru
      Mistral, VLM tabanlı modellerle değil sıradan bilgisayarlı görü servisleriyle karşılaştırma yapıyor
      İlki belgeyi anlama konusunda daha iyi, ikincisi ise daha doğru bounding box veriyor
      Başarısızlık biçimleri de farklı — VLM bir cümlenin tamamını yanlış okuyabiliyor, görü modeli ise genelde kelime içi yazım hatası seviyesinde kalıyor
    • Linke tıkladım ve Twitter'ın havası eskisine göre çok daha garipleşmiş gibi geldi
    • Qwen 3 VL 235B-A22B ile kıyaslamayı da görmek isterim. Benim deneyimimde MinerU'dan çok daha iyiydi
  • Son 3 ayda açık kaynaklı OCR modellerinde büyük bir patlama yaşandı
    Özellikle 1B parametrenin altındaki modeller bile edge cihazlarda iyi çalışıyor
    paddleOCR-VL, olmOCR-2, chandra, dots.ocr gibi modellerle karşılaştırma yapılmasını isterdim
    OCR ya da CV tarafında düzgün leaderboard veya arena neredeyse yok

    • Yaklaşık bir ay önce ocrarena.ai diye bir proje çıkmıştı
      llmarena gibi modelleri karşı karşıya getiriyor ama Mistral henüz eklenmedi
      Şu anda üst sıralarda Gemini var
    • MistralOCR'nin avantajı basit fiyatlandırma politikası — 1.000 sayfa başına $1, sunucuda barındırılan API sunuyor
      Diğer OCR çözümleri token bazlı olduğu için gerçek maliyeti hesaplamak zor
      Örneğin Gemini 3.0 flash görünüşte benzer fiyatlı ama gerçek token hesabında yaklaşık 3 kat daha pahalı
    • paddleOCR kurmayı denedim ama 12 GB'lık PyTorch bağımlılıklarını yüklerken sürüm çakışmalarından vazgeçtim
      Sonra Claude'a root yetkisi verip onun kurmasını sağladım, benden çok daha keyif alıyor gibiydi
      open web UI kurarken de benzer bir şey yaşamıştım, sonunda sadece gereken özelliği 100 satır HTML ile kendim yaptım
      Keşke OCR'ı da bu kadar basit kurabilsek
    • codesota.com/ocr da bakmaya değer
  • Mistral OCR 3'ün büyük kurumsal pipeline'lara uygun olduğu söyleniyor ama %79 doğruluk ile güven vermiyor
    Bilimsel dergi işleriyle uğraşan biri olarak 2.9+0.5 ile 29+0.5 gibi okuma hataları kritik
    Sonuçta her aşamada insan doğrulaması gerekiyor

    • Bu tür durumlarda datalab.to epey iyi iş çıkarmıştı
    • %79 bir doğruluk değil, kazanma oranı metriği gibi görünüyor
  • Shipibo (Peru yerli dili)-İspanyolca bir sözlüğü Shipibo-İngilizce sözlüğe dönüştürme projesi üzerinde çalışıyorum
    PDF taramalarının kalitesi iyi değil ve iki sütunlu düzen ile üstbilgi/altbilgi yüzünden OCR sık sık başarısız oluyor
    Shipibo örnek cümlelerini ve İspanyolca tanımları ayırıp yalnızca İngilizceye çevirmem gerekiyor, bu da işi karmaşıklaştırıyor
    Yeni bir OCR/LLM haberi çıktığında deniyorum ama her seferinde hayal kırıklığı yaşıyorum

    • Ayahuasca geleneği araştırmalarına ilginiz var mı diye merak ettim
      Shipibo kültüründe hastalıkları sıradan insanlar değil maestra'lar Ayahuasca kullanarak teşhis edermiş
      Her bitki için dieta (perhiz diyeti) uygulanıyor; sabun kullanımı, cinsel ilişki, tuz tüketimi gibi şeyler kısıtlanıyor
      Geleneksel olarak bu süreç 1 yıldan uzun sürebiliyormuş, günümüzde ise birkaç haftaya kadar kısalmış
      Bitki tıbbını bu kadar derinlemesine incelemeleri bana etkileyici geldi
  • Matematik ders kitaplarını LaTeX formülleri içeren markdown biçimine dönüştürmek istiyorum ama hâlâ tatmin edici bir OCR modeli yok
    Mistral'ın OCR playground'ında bizzat test edeceğim

    • Binlerce belgeyi Gemini Pro 3 vision modeliyle işledim ve şu ana kadar kullandığım tüm OCR'lara göre ezici biçimde daha doğruydu
      Formülleri de kusursuz şekilde LaTeX'e dönüştürdü
    • Sonucun nasıl olduğunu mutlaka paylaşırsan sevinirim
  • Ben görüntü içinde yerinde çeviri (in-place translation) arıyorum
    Mistral OCR3 veri çıkarma odaklı olduğu için benim kullanımım için uygun değil
    Yabancı sanat kitaplarındaki metni görselin üstüne doğrudan çevrilmiş halde yerleştirmek istiyorum ama mevcut ücretli servisler standart dışı metin yerleşimi yüzünden başarısız oluyor
    Şu anda ekranı Google Lens ile göstererek çeviri yapıyorum ama kullanışsız
    Chrome'un yerleşik Lens'i de elle seçim gerektiriyor, yani tam otomatik değil
    Bunun geliştiğine dair bir şey duyan var mı?

    • Ücretli olması sorun değilse DEEPL ya da Word'ün belge çeviri özelliği oldukça işe yarıyor
  • Mistral son zamanlarda AI özelliklerinin kenar alanlarının peşinden gidiyormuş gibi geliyor
    OAI, Google, Anthropic'e göre geride kalıyor gibi ve AB düzeyindeki yatırım yetersiz görünüyor

    • Form işleme gibi pratik özellikler insanların gerçekten ihtiyaç duyduğu şeyler
      Meme üretmekten çok daha değerli
    • Lider şirketleri birebir takip etmek riskli
      Henüz gelir modeli netleşmediği için Mistral'ın çekirdek model kalitesine odaklanması daha doğru
      AB içindeki yeteneği koruyup makul düzeyde iyi modeller üretmek daha gerçekçi bir hedef
    • AB aslında Mistral'a ciddi biçimde 'yatırım' yapıyor — yarısı vergi koyarak, kalanı da regülasyon tartışmalarında kullanılarak
    • AB regülasyonları ayağına dolandığı için sonunda bir ABD şirketine satılma ihtimali yüksek
    • Yine de herkesin yaptığını kopyalamaktan daha iyi olduğunu düşünüyorum
  • Paddle, MinerU, MonkeyOCR gibi çeşitli açık kaynak OCR'lara göre Mistral'ın daha zayıf performans verdiğine dair değerlendirmeler gördüm
    codesota.com/ocr bakılabilir

  • MathPix alternatifi olarak Mistral'ı test ediyorum
    Bu Python scripti, Windows'ta ekran görüntüsü alıp panodaki görseli Mistral'a gönderiyor ve Markdown çıktısını otomatik yapıştıran bir prototip

  • Mistral'ın en büyük sorunu müşteri sorularına yanıt vermemesi
    “Fiyat için iletişime geçin” yaklaşımının arkasına saklanıyorlar; SoTA'dan iyi olsa bile bu yüzden anlamı kalmıyor

    • Ben de satış temsilcisiyle yüz yüze muhatap olmaktan hiç hoşlanmıyorum
      Gerekirse daha pahalı ve daha düşük performanslı olsun ama o süreci gerektirmeyen bir hizmeti seçerim