Mistral OCR 4 tanıtıldı

(mistral.ai)

1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş

Mistral AI tarafından tanıtılan Mistral OCR 4, belgelerden yalnızca metin çıkaran bir OCR’ın ötesine geçerek bounding box’lar, blok sınıflandırması ve satır içi güven puanlarını birlikte döndüren bir belge anlama modelidir
10 dil grubunda 170 dili ve tek konteynerli self-hosting desteğini sunarak, veri egemenliği ve uyumluluğun önemli olduğu kurumların belge toplama boru hatlarına uygundur
İnsan tercih değerlendirmelerinde ortalama %72 kazanma oranı kaydetti; OlmOCRBench’te 85.20, OmniDocBench’te 93.07 gibi açık ve dahili değerlendirmelerde de yüksek puan aldı
Ancak referans hataları, eşdeğer matematiksel gösterimler, çok sütunlu okuma sırası, header-footer işleme gibi puanlama sınırlamaları nedeniyle benchmark puanları gerçek belge değerlendirmeleriyle birlikte ele alınmalıdır
API fiyatı 1.000 sayfa başına $4, Batch API $2, Document AI ise $5; ham çıkarım için OCR 4 yeterliyken, yapılandırılmış JSON, görsel açıklamaları ve özel prompt gerekiyorsa Document AI yolu daha uygundur

OCR 4’ün döndürdüğü yapılandırılmış belge gösterimi

OCR 4, farklı belge türlerinden içeriği çıkarıp yapılandırır; önceki nesiller gibi yalnızca temiz metin ve tablo dönüşümünde kalmaz, buna ek olarak yapılandırılmış gösterim de sunar
Her blokta bounding box, blok türü ve sayfa/kelime düzeyinde satır içi güven puanları bulunur
- Böylece alt sistemler yalnızca belge içeriğini değil, her öğenin konumunu, rolünü ve güven düzeyini de kullanabilir
Başlıca kullanım akışları şunlardır
- RAG için anlamsal birimlere ayırma: düzenlenmiş ve sınıflandırılmış blokları arama birimi olarak kullanma
- Ajanlar için yapısal primitive’ler: form doldurma, fatura işleme ve uyumluluk kontrollerini destekleme
- Connector’lar için yapılandırılmış içerik: toplama ve indeksleme boru hatlarına tutarlı tipte çıktı sağlama

Formatlar, diller ve dağıtım şekli

Girdi formatları arasında PDF, DOC, PPT, OpenDocument gibi yaygın kurumsal belge formatları yer alır
10 dil grubunda 170 dili destekler; birçok sistemin zayıfladığı uzmanlık gerektiren ve düşük kaynaklı diller de bu kapsamdadır
Model, tek bir konteynere dağıtılabilecek kadar küçüktür; bu da onu maliyet hassasiyetinin yüksek olduğu ve yüksek işlem hacmine sahip ortamlar için uygun kılar
Tam self-hosting desteği sunduğundan, veri egemenliği gereksinimi olan kurumlar belge verilerini kendi altyapılarında tutabilir
Self-managed dağıtım, kurumsal müşterilere sunulmaktadır

Fiyatlandırma ve kullanım yolları

Geliştiriciler modeli API üzerinden entegre edebilir; ekipler ise Mistral Studio’daki Document AI üzerinden aynı motoru no-code bir uygulama olarak kullanabilir
Fiyatlandırma şu şekildedir
- OCR 4 API: 1.000 sayfa başına $4
- Batch API’de %50 indirimle: 1.000 sayfa başına $2
- Document AI: 1.000 sayfa başına $5
OCR 4, Mistral Search Toolkit içindeki toplama bileşeni olarak entegre edilmiştir ve RAG ile kurumsal arama için toplama, arama ve değerlendirme iş akışlarına alıntılanabilir girdi sağlar

Değerlendirme sonuçları ve benchmark sınırlamaları

OCR 4 değerlendirmesi; yapay zeka yerleşik OCR modelleri, genel amaçlı frontier modeller, kurumsal belge servisleri ve Mistral OCR 3 ile karşılaştırmalı olarak yapıldı
İnsan tercih değerlendirmesi, gerçek kullanım koşullarını yansıtacak şekilde 12’den fazla dilde 600’den fazla belgeyle oluşturuldu; bağımsız değerlendiriciler her rakip sistemin çıktısını OCR 4 çıktısıyla belge bazında kör karşılaştırdı
- Değerlendiriciler, test edilen tüm sistemler arasında belgelerin büyük bölümünde OCR 4’ü daha çok tercih etti
- Ortalama kazanma oranı %72 oldu
Açık OlmOCRBench üzerinde, test edilen modeller arasında en yüksek toplam puan olan 85.20 elde edildi
Dahili Crawl Multilingual evaluation’da .98 puan alarak yapay zeka yerleşik ve kurumsal çözümlerin önüne geçti
OmniDocBench puanı 93.07 olsa da, hem OlmOCRBench hem de OmniDocBench’in bazı çıktı puanlama yöntemlerinde bilinen sınırlamalar bulunuyor
Denetlenen uyumsuzlukların çoğu model hatasından değil, benchmark karşılaştırma yönteminden kaynaklanıyor
- Referans hataları: referans açıklamalarda eksik/ek metin, gizlenmiş alanların transkripsiyonu veya yazım hataları bulunabiliyor
- Eşdeğer matematiksel gösterimler: aynı sonucu veren LaTeX ifadeleri, dizgeleri farklıysa uyumsuz sayılabiliyor
- Formül bölme: tek bir formül olarak mı yoksa birkaç satır içi parçaya bölünerek mi çıkarıldığına göre doğru yanıt eşleşmesi bozulabiliyor
- Çok sütunlu okuma sırası: sütun sınırlarında bölünen kelimeler ve sütun sırası varsayımları nedeniyle doğru çıkarım bile başarısız sayılabiliyor
- Blok türü ataması: header ve footer çıktıdan kaldırılmış olsa bile, sayfa başlığı gibi dizgeler test tarafından yanlış şekilde işaretlenebiliyor
Bu tür artefaktlar özellikle matematik, bilim ve çok sütunlu belgelerde yoğunlaşıyor; hatalı çıktıları ödüllendirmekten çok doğru çıktıları daha sık cezalandırma eğiliminde oluyor
Tüm rakip puanları dahili yeniden üretim sonuçları olduğundan, gerçek kullanıma almadan önce kendi belgeleriniz üzerinde doğrudan değerlendirme yapmak daha güvenlidir

Çok dilli performans

Dahili çok dilli değerlendirmede OCR 4, 8 dil grubunun tamamında öne çıktı
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu gibi uzmanlık dilleri
Fark, uzmanlık gerektiren ve düşük kaynaklı dillerde en büyüktü; birçok rakip sistemin sert şekilde düştüğü alanlarda bile OCR 4 yüksek doğruluğunu korudu

Önerilen kullanım senaryoları ve kapsam dışı alanlar

OCR 4 hem yüksek hacimli boru hatlarını hem de etkileşimli belge iş akışlarını destekler
Önerilen kullanım senaryoları şunlardır
- Karmaşık çok dilli belgelerde belge ayrıştırma ve çıkarım
- RAG için yapılandırılmış, sınıflandırılmış ve alıntılanabilir içerik üretimi
- Search Toolkit ile birleştirilmiş arama boru hattı girdisi
- Form doldurma, fatura işleme ve uyumluluk denetimi gibi ajan iş akışları
- Güven puanlarını kullanan, insan doğrulamalı yapılandırılmış veri boru hatları
- Kurumsal arama ve bilgi tabanları için veri kaynağı bileşenleri
İlk kullanıcılar OCR 4’ü faturaların yapılandırılmış alan dönüşümünde, şirket arşivlerinin dijitalleştirilmesinde, teknik ve bilimsel raporlardan temiz metin çıkarımında ve kurumsal aramada kullanıyor
OCR 4 bir belge anlama modelidir; karar verici değildir
- Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme ya da ham ses-video gibi belge dışı girdiler için tasarlanmamıştır

OCR 4 API ve Document AI seçim ölçütleri

OCR 4, tek bir API endpoint’i olarak sunulur ve tüm istekler aynı temel OCR modelini çalıştırır
Varsayılan yanıtta her zaman çıkarılan içerik, bounding box’lar, blok türleri, güven puanları ve Markdown yapılı metin yer alır
Saf çıkarım modu şu durumlar için uygundur
- Hızlı ve doğru belge çıkarımını uygulamalara, ajanlara veya veri boru hatlarına doğrudan gömmek
- Ham yanıtı, bounding box’ları, blok türlerini ve güven puanlarını doğrudan kullanarak özel son işleme mantığı kurmak
- Batch API ile işlem hacmini ve maliyeti kontrol eden yüksek hacimli, toplu veri toplama
- Sıkı veri gizliliği, egemenlik ve uyumluluk gereksinimlerine uygun self-hosting
Document AI özellikleri, aynı endpoint’e ek parametreler verilerek etkinleştirilir
- Belgeyle birlikte bir JSON şeması gönderildiğinde, OCR çıktısı mistral-small-2603 modeline verilir ve belirlediğiniz tanıma uygun yapılandırılmış JSON üretilir
- Görsel açıklama şeması gönderildiğinde, algılanan her görsel için ek vision-language model çağrılarıyla yapılandırılmış JSON oluşturulur
- JSON şemasıyla birlikte özel prompt kullanarak tüm belgeden çıkarılan içeriğin yorumlanması veya özetlenmesi yönlendirilebilir
- Böylece iş kullanıcıları, çözüm ekipleri ve pilot projeler ayrı bir son işleme ayrıştırma mantığı olmadan yapılandırılmış sonuçlar üretebilir
Ham çıkarım içeriği gerekiyorsa OCR 4 doğrudan kullanılmalı; yapılandırılmış format dönüştürme, alan bazlı anotasyon veya özel talimat işleme gerekiyorsa Document AI parametreleri eklenmelidir

Sunum kanalları ve başlangıç

Mistral OCRv4 ve OCRv4 tabanlı Document AI; API, Mistral Studio, Amazon SageMaker ve Microsoft Foundry üzerinden kullanılabiliyor
Snowflake Parse Document desteğinin yakında gelmesi planlanıyor
Hassas bilgileri kendi altyapısında tutmak zorunda olan kurumlar için OCR 4 ayrıca self-hosting seçeneği sunuyor
Başlangıç kaynakları şunlar
- Getting Started with OCR 4 Cookbook: ilk çıkarım, bounding box işlemleri ve blok sınıflandırmasını kapsıyor
- OCR4 in Production webinar: 7 Temmuz saat 18:00 CET’te demo ve Soru-Cevap oturumu
- Contact Sales: daha fazla bilgi için iletişim

1 yorum

GN⁺ 3 시간 전

Hacker News görüşleri

US Postal Service bana her zaman teknolojik bir mucize gibi gelmiştir
Çok daha ilkel teknolojilerle milyarlarca postayı tanımlayıp yönlendirebiliyorlar; ayrıca ABD adresleri inanılmaz derecede standart dışı, öyle ki aynı adresi farklı biçimlerde yazsanız bile çoğu zaman yine doğru yere ulaşıyor
Bu alanda kamusal bilgi muhtemelen epey vardır, ama USPS ölçeğinde bunun yıllardır yapılıyor olması yüzünden her OCR duyurusu bana zaten çözülmüş bir problem gibi görünüyor
- Babam bir keresinde Cezayir’den bir mektup almıştı; zarfın üzerinde sadece adı, “Créteil” (o sırada yaklaşık 100 bin nüfuslu yaşadığı şehir) ve “France” yazıyordu
  1970’lerdeydi; internet de merkezi veritabanları da yoktu ama posta servisi teslimatı başardı
  Bunun sebebi, babamın sosyal yardım faaliyetlerinde çok aktif olması ve bir gençlik futbol takımını da yönetmesi nedeniyle mahallede sadece adıyla bile epey tanınıyor olmasıydı
  Bugünlerde insanlar çoğu zaman cep telefonu yardımı olmadan bir kişiyi ya da yeri bulamıyor ve postacılar da sohbet etmeyi bırakmıyor
  Böyle bir mektup bugün ne teknik işleme sürecinden ne de muhtemelen insan ağından geçebilirdi
- Eskiden Danimarka posta servisinde yarı zamanlı çalışıyordum; otomatik ayıklama sadece posta koduna kadar yapılıyordu
  Mektup doğru postaneye ulaştıktan sonra gerisini sabahın çok erken saatlerinde postacılar hallediyordu
  Hangi adresin ne anlama geldiğini tahmin etmek oldukça eğlenceliydi; özellikle yaşlı çalışanlar, bazı yerlerin neden o şekilde adreslendiğinin hikâyesini biliyor ya da sadece sakinlerin adlarına bakarak adresi tahmin edebiliyordu
- Tom Scott’ın bu konuda güzel bir videosu var: https://www.youtube.com/watch?v=XxCha4Kez9c
- ABD adreslerinde çok garip istisnalar var
  Carmel-by-the-Sea’de sokak numarası yok ve Florida Keys adresleri çoğu zaman sadece mil işaretleyicisi numarasından ibaret oluyor
  Teslimatın yapılabilmesinin sebebi, o güzergâhtan sorumlu kişinin buna alışkın olması
- Hindistan’daki adres standartlarına bakınca, ABD adreslerinin standart dışılığı ancak güldürüyor
Plaka tanımaya odaklanan açık bir model olup olmadığını merak ediyorum
Birkaç eski model buldum ama bunun gibi yeni OCR modelleri gibi aktif geliştirilen bir şey var mı diye merak ediyorum
Bu kullanım için bizzat deneyip performansını da görebilirim
Bağlantılı sayfadaki video beklediğim gibi değildi
Mistral’ın Avrupalı bir yapay zeka şirketi olduğunu düşünüyordum ama videonun San Francisco’da çekilmiş olması ve görünen üç kişinin de Avrupalı gibi durmaması şaşırttı
Küresel bir organizasyon olmaları güzel ama Paris ofisi ve Avrupa aksanları bekliyordum
- Ne yazık ki Avrupalı müşteriler para kazanması zor müşteriler
  Soruları çok, cüzdanları ise oldukça sıkı; Amerikalılar ise farklı
- Belli bir ölçeğe ulaşmış herhangi bir Avrupa teknoloji şirketi, en azından satış için ABD batı kıyısında ofis açar
  Muhtemelen satış mühendisliği de vardır
  Zaman farkı 8 ila 10 saat, yani pratikte bundan kaçmanın yolu yok
  Eskiden çalıştığım şirkette bunun yerine Vancouver ofisi vardı ve aynı saat dilimindeydi
- Blackmagic Design da benzer
  Büyük ölçüde Avustralya merkezli olmasına rağmen https://www.blackmagicdesign.com/company/offices adresindeki ofis sıralamasına ve şirket sayfasına bakınca ABD şirketi gibi görünüyor
- Bildiğim kadarıyla kurucu ekibin çoğu kariyerine Meta gibi Amerikan şirketlerinde başladı ve ana yatırımcıları da ABD VC’leri
  Bu açıdan bakınca, ABD sermayesiyle Avrupa yeteneğinin her iki avantajını da akıllıca kullanıyorlar
- Arka planda ABD bayrağı bile yükseğe asılmış
Bu modelin https://github.com/baidu/Unlimited-OCR ile kıyaslandığında nasıl sıralanacağını merak ediyorum
- Evet, az önce duyuruldu: https://x.com/BaiduAI_News/status/2069322806748410291
1000 sayfa başına 4 dolar ucuz, ama önceki sürümlerin hepsi “şirket içi benchmark’taki 4 PDF’e göre %98 doğruluk” tarzındaydı ve pratikte piyasadaki neredeyse tüm alternatiflerden daha zayıf kalıyordu; bu yüzden yeniden benchmark yapmaya hevesli değilim
Bu sefer de OlmOCRBench ve OmniDocBench için “bilinen sınırlamalar” diyerek şirket içi benchmark üzerindeki öne çıkan rakamları öne çıkarıyorlar
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- Ben de aynı sonuca vardım, ama birkaç örneği kendim çalıştırınca 2025 Aralık sürümünden sonra gerçek bir iyileşme gördüm
Tüm AI laboratuvarları benchmark çubuk grafiklerinde kesilmiş y ekseni kullanmayı gerçekten bırakmalı
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Malayalam ile test ettim; sıradan el yazısında doğruydu ama biraz farklı bir stil olunca Kannada olarak algıladı
Gerekirse örnek verebilirim; Sarvam ise aynı örneği sadece tek bir metin hatasıyla %99 doğrulukla işledi
- Sarvam’ı Hint dilleri dışında kullanan biri var mı merak ediyorum
  Örneğin Indian English, Latin alfabesiyle yazılmış Hint ifadeleri karışık belgeler ve görsel, tablo gibi karmaşık düzenler içeren belgelerde nasıl olduğunu merak ediyorum
  Hindistan merkezli servislere ilgim vardı ama fiyatları düşündüğümden biraz yüksek göründüğü için tereddüt ediyorum
  Tabii yanlış hatırlıyor da olabilirim
Aralık ayındaki önceki OCR v3 modeli ile kıyaslandığında, bounding box dışında neredeyse hiçbir fark açıklanmıyor ve fiyat iki katı: https://mistral.ai/news/mistral-ocr-3/
O zaman farklı benchmark’lar kullanılmıştı
“Kapsam dışı kullanıma dair not. OCR 4 bir belge anlama modelidir, karar verici değildir. Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik açısından kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme, belge dışı girdiler (ham ses, video vb.) için tasarlanmamıştır.”
Bir sonraki toplantıda “Tamam da, bunu telefon fotoğrafı gibi belge dışı girdilerle yüksek riskli finansal kararlar için kullansak nasıl olur?” diye önerecek “yenilikçi” yöneticiyi şimdiden bekliyorum
Gelecek hafta falan HN'de birinin bu “fikri” yoruma yazacağına bahse girerim
- Neden özellikle bunu yapmak istesinler, anlamıyorum
  Çok daha iyi performans veren onlarca model var; buna kıyasla sadece berbat sonuçlar verir
  Bu, sorulara cevap veren bir model değil, metin dönüştürme için
  Sırf zorla anti-AI bir açı üretmek istiyor gibi görünüyor
- Tüm AI şirketleri tek bir işte çok güçlü olan özelleşmiş modeller yapıyor
  Mistral sadece bunu biraz daha dürüst biçimde ortaya koyuyor; muhtemelen herkesi her şeyin uzmanı gibi görünen genel amaçlı kullanıcı aracıyla (sohbet) etkileme ihtiyacı duymadığı ya da istemediği için
  Aslında böyle araçlar da epey sık şekilde birkaç uzman modeli birbirine bağlamaktan ibaret
  Burada istenen şey birkaç Python script'iyle yapılabilir
  Voxtral ile sesli prompt'u metne çevirip, bunu ek sistem prompt'uyla birlikte Mistral Large 3'e vererek OCR için prompt ve dosya yolları oluşturmasını sağlarsınız; ardından döngüde dosyaları bulup OCR 3'e atar, sonra tekrar Mistral Large 3 ile yorumlatıp bunu karara dönüştürürsünüz
  Bu tür kurulumlar yaygındır; hatta her şeyi tek bir modelle yapmak daha nadirdir
- “Önemli finansal kararları OCR yazılımına devrettim; sonra olanlara inanamayacaksınız”
Yakın zamanda Opus 4.8 ile OCR denedim
Teknik olarak doğru araç değildi ama ihtiyacım olan tek şey fişlerden tarihi çıkarmaktı
Tarihlerin yaklaşık %20'sini yanlış çıkardı ve buna rağmen hepsini “yüksek güven” olarak değerlendirdi
Muhtemelen OCR'e özel bir model kullanmalıydım
- Fişlerden tarih çıkarmak, yaklaşık 30 yıl önce neredeyse çözülmüş bir problem değil miydi?
  Eskiden siyah-beyaz tarayıcılarla gelen shareware OCR araçları bile muhtemelen %20 hatadan daha iyiydi
- Opus'u bilmiyorum ama Gemini'nin abonelik ürünündeki OCR işi doğrudan model tarafından yapılıyor gibi görünmüyor
  Ayrı, eski usul bir OCR aracı kullanıyor gibi ve test sonuçları da kötüydü
  Buna karşılık Gemini API'de OCR'ı modelin kendisi yaptı ve doğruluk çok daha iyiydi
- Opus OCR'ı çok iyi yapıyor
  Küçük 1~4B görsel-dil modellerinden çok daha iyi
  Opus başarısız olduysa, o tür küçük modellerin çoğunun da başarısız olma ihtimali yüksek
- Buna inanmak zor
  Yakın zamanda Opus 4.8 ile, içinde son derece kötü el yazıları da olan yüzlerce PDF taradım; benim bile okuyamadığım tek bir kayıt dışında %100 başarı elde ettim

Mistral OCR 4 tanıtıldı

OCR 4’ün döndürdüğü yapılandırılmış belge gösterimi

Formatlar, diller ve dağıtım şekli

Fiyatlandırma ve kullanım yolları

Değerlendirme sonuçları ve benchmark sınırlamaları

Çok dilli performans

Önerilen kullanım senaryoları ve kapsam dışı alanlar

OCR 4 API ve Document AI seçim ölçütleri

Sunum kanalları ve başlangıç

İlgili okumalar

1 yorum

Hacker News görüşleri