Mistral OCR 4 tanıtıldı
(mistral.ai)- Mistral AI tarafından tanıtılan Mistral OCR 4, belgelerden yalnızca metin çıkaran bir OCR’ın ötesine geçerek bounding box’lar, blok sınıflandırması ve satır içi güven puanlarını birlikte döndüren bir belge anlama modelidir
- 10 dil grubunda 170 dili ve tek konteynerli self-hosting desteğini sunarak, veri egemenliği ve uyumluluğun önemli olduğu kurumların belge toplama boru hatlarına uygundur
- İnsan tercih değerlendirmelerinde ortalama %72 kazanma oranı kaydetti; OlmOCRBench’te 85.20, OmniDocBench’te 93.07 gibi açık ve dahili değerlendirmelerde de yüksek puan aldı
- Ancak referans hataları, eşdeğer matematiksel gösterimler, çok sütunlu okuma sırası, header-footer işleme gibi puanlama sınırlamaları nedeniyle benchmark puanları gerçek belge değerlendirmeleriyle birlikte ele alınmalıdır
- API fiyatı 1.000 sayfa başına $4, Batch API $2, Document AI ise $5; ham çıkarım için OCR 4 yeterliyken, yapılandırılmış JSON, görsel açıklamaları ve özel prompt gerekiyorsa Document AI yolu daha uygundur
OCR 4’ün döndürdüğü yapılandırılmış belge gösterimi
- OCR 4, farklı belge türlerinden içeriği çıkarıp yapılandırır; önceki nesiller gibi yalnızca temiz metin ve tablo dönüşümünde kalmaz, buna ek olarak yapılandırılmış gösterim de sunar
- Her blokta bounding box, blok türü ve sayfa/kelime düzeyinde satır içi güven puanları bulunur
- Böylece alt sistemler yalnızca belge içeriğini değil, her öğenin konumunu, rolünü ve güven düzeyini de kullanabilir
- Başlıca kullanım akışları şunlardır
- RAG için anlamsal birimlere ayırma: düzenlenmiş ve sınıflandırılmış blokları arama birimi olarak kullanma
- Ajanlar için yapısal primitive’ler: form doldurma, fatura işleme ve uyumluluk kontrollerini destekleme
- Connector’lar için yapılandırılmış içerik: toplama ve indeksleme boru hatlarına tutarlı tipte çıktı sağlama
Formatlar, diller ve dağıtım şekli
- Girdi formatları arasında PDF, DOC, PPT, OpenDocument gibi yaygın kurumsal belge formatları yer alır
- 10 dil grubunda 170 dili destekler; birçok sistemin zayıfladığı uzmanlık gerektiren ve düşük kaynaklı diller de bu kapsamdadır
- Model, tek bir konteynere dağıtılabilecek kadar küçüktür; bu da onu maliyet hassasiyetinin yüksek olduğu ve yüksek işlem hacmine sahip ortamlar için uygun kılar
- Tam self-hosting desteği sunduğundan, veri egemenliği gereksinimi olan kurumlar belge verilerini kendi altyapılarında tutabilir
- Self-managed dağıtım, kurumsal müşterilere sunulmaktadır
Fiyatlandırma ve kullanım yolları
- Geliştiriciler modeli API üzerinden entegre edebilir; ekipler ise Mistral Studio’daki Document AI üzerinden aynı motoru no-code bir uygulama olarak kullanabilir
- Fiyatlandırma şu şekildedir
- OCR 4 API: 1.000 sayfa başına $4
- Batch API’de %50 indirimle: 1.000 sayfa başına $2
- Document AI: 1.000 sayfa başına $5
- OCR 4, Mistral Search Toolkit içindeki toplama bileşeni olarak entegre edilmiştir ve RAG ile kurumsal arama için toplama, arama ve değerlendirme iş akışlarına alıntılanabilir girdi sağlar
Değerlendirme sonuçları ve benchmark sınırlamaları
- OCR 4 değerlendirmesi; yapay zeka yerleşik OCR modelleri, genel amaçlı frontier modeller, kurumsal belge servisleri ve Mistral OCR 3 ile karşılaştırmalı olarak yapıldı
- İnsan tercih değerlendirmesi, gerçek kullanım koşullarını yansıtacak şekilde 12’den fazla dilde 600’den fazla belgeyle oluşturuldu; bağımsız değerlendiriciler her rakip sistemin çıktısını OCR 4 çıktısıyla belge bazında kör karşılaştırdı
- Değerlendiriciler, test edilen tüm sistemler arasında belgelerin büyük bölümünde OCR 4’ü daha çok tercih etti
- Ortalama kazanma oranı %72 oldu
- Açık OlmOCRBench üzerinde, test edilen modeller arasında en yüksek toplam puan olan 85.20 elde edildi
- Dahili Crawl Multilingual evaluation’da .98 puan alarak yapay zeka yerleşik ve kurumsal çözümlerin önüne geçti
- OmniDocBench puanı 93.07 olsa da, hem OlmOCRBench hem de OmniDocBench’in bazı çıktı puanlama yöntemlerinde bilinen sınırlamalar bulunuyor
- Denetlenen uyumsuzlukların çoğu model hatasından değil, benchmark karşılaştırma yönteminden kaynaklanıyor
- Referans hataları: referans açıklamalarda eksik/ek metin, gizlenmiş alanların transkripsiyonu veya yazım hataları bulunabiliyor
- Eşdeğer matematiksel gösterimler: aynı sonucu veren LaTeX ifadeleri, dizgeleri farklıysa uyumsuz sayılabiliyor
- Formül bölme: tek bir formül olarak mı yoksa birkaç satır içi parçaya bölünerek mi çıkarıldığına göre doğru yanıt eşleşmesi bozulabiliyor
- Çok sütunlu okuma sırası: sütun sınırlarında bölünen kelimeler ve sütun sırası varsayımları nedeniyle doğru çıkarım bile başarısız sayılabiliyor
- Blok türü ataması: header ve footer çıktıdan kaldırılmış olsa bile, sayfa başlığı gibi dizgeler test tarafından yanlış şekilde işaretlenebiliyor
- Bu tür artefaktlar özellikle matematik, bilim ve çok sütunlu belgelerde yoğunlaşıyor; hatalı çıktıları ödüllendirmekten çok doğru çıktıları daha sık cezalandırma eğiliminde oluyor
- Tüm rakip puanları dahili yeniden üretim sonuçları olduğundan, gerçek kullanıma almadan önce kendi belgeleriniz üzerinde doğrudan değerlendirme yapmak daha güvenlidir
Çok dilli performans
- Dahili çok dilli değerlendirmede OCR 4, 8 dil grubunun tamamında öne çıktı
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu gibi uzmanlık dilleri
- Fark, uzmanlık gerektiren ve düşük kaynaklı dillerde en büyüktü; birçok rakip sistemin sert şekilde düştüğü alanlarda bile OCR 4 yüksek doğruluğunu korudu
Önerilen kullanım senaryoları ve kapsam dışı alanlar
- OCR 4 hem yüksek hacimli boru hatlarını hem de etkileşimli belge iş akışlarını destekler
- Önerilen kullanım senaryoları şunlardır
- Karmaşık çok dilli belgelerde belge ayrıştırma ve çıkarım
- RAG için yapılandırılmış, sınıflandırılmış ve alıntılanabilir içerik üretimi
- Search Toolkit ile birleştirilmiş arama boru hattı girdisi
- Form doldurma, fatura işleme ve uyumluluk denetimi gibi ajan iş akışları
- Güven puanlarını kullanan, insan doğrulamalı yapılandırılmış veri boru hatları
- Kurumsal arama ve bilgi tabanları için veri kaynağı bileşenleri
- İlk kullanıcılar OCR 4’ü faturaların yapılandırılmış alan dönüşümünde, şirket arşivlerinin dijitalleştirilmesinde, teknik ve bilimsel raporlardan temiz metin çıkarımında ve kurumsal aramada kullanıyor
- OCR 4 bir belge anlama modelidir; karar verici değildir
- Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme ya da ham ses-video gibi belge dışı girdiler için tasarlanmamıştır
OCR 4 API ve Document AI seçim ölçütleri
- OCR 4, tek bir API endpoint’i olarak sunulur ve tüm istekler aynı temel OCR modelini çalıştırır
- Varsayılan yanıtta her zaman çıkarılan içerik, bounding box’lar, blok türleri, güven puanları ve Markdown yapılı metin yer alır
- Saf çıkarım modu şu durumlar için uygundur
- Hızlı ve doğru belge çıkarımını uygulamalara, ajanlara veya veri boru hatlarına doğrudan gömmek
- Ham yanıtı, bounding box’ları, blok türlerini ve güven puanlarını doğrudan kullanarak özel son işleme mantığı kurmak
- Batch API ile işlem hacmini ve maliyeti kontrol eden yüksek hacimli, toplu veri toplama
- Sıkı veri gizliliği, egemenlik ve uyumluluk gereksinimlerine uygun self-hosting
- Document AI özellikleri, aynı endpoint’e ek parametreler verilerek etkinleştirilir
- Belgeyle birlikte bir JSON şeması gönderildiğinde, OCR çıktısı
mistral-small-2603modeline verilir ve belirlediğiniz tanıma uygun yapılandırılmış JSON üretilir - Görsel açıklama şeması gönderildiğinde, algılanan her görsel için ek vision-language model çağrılarıyla yapılandırılmış JSON oluşturulur
- JSON şemasıyla birlikte özel prompt kullanarak tüm belgeden çıkarılan içeriğin yorumlanması veya özetlenmesi yönlendirilebilir
- Böylece iş kullanıcıları, çözüm ekipleri ve pilot projeler ayrı bir son işleme ayrıştırma mantığı olmadan yapılandırılmış sonuçlar üretebilir
- Belgeyle birlikte bir JSON şeması gönderildiğinde, OCR çıktısı
- Ham çıkarım içeriği gerekiyorsa OCR 4 doğrudan kullanılmalı; yapılandırılmış format dönüştürme, alan bazlı anotasyon veya özel talimat işleme gerekiyorsa Document AI parametreleri eklenmelidir
Sunum kanalları ve başlangıç
- Mistral OCRv4 ve OCRv4 tabanlı Document AI; API, Mistral Studio, Amazon SageMaker ve Microsoft Foundry üzerinden kullanılabiliyor
- Snowflake Parse Document desteğinin yakında gelmesi planlanıyor
- Hassas bilgileri kendi altyapısında tutmak zorunda olan kurumlar için OCR 4 ayrıca self-hosting seçeneği sunuyor
- Başlangıç kaynakları şunlar
- Getting Started with OCR 4 Cookbook: ilk çıkarım, bounding box işlemleri ve blok sınıflandırmasını kapsıyor
- OCR4 in Production webinar: 7 Temmuz saat 18:00 CET’te demo ve Soru-Cevap oturumu
- Contact Sales: daha fazla bilgi için iletişim
1 yorum
Hacker News görüşleri
US Postal Service bana her zaman teknolojik bir mucize gibi gelmiştir
Çok daha ilkel teknolojilerle milyarlarca postayı tanımlayıp yönlendirebiliyorlar; ayrıca ABD adresleri inanılmaz derecede standart dışı, öyle ki aynı adresi farklı biçimlerde yazsanız bile çoğu zaman yine doğru yere ulaşıyor
Bu alanda kamusal bilgi muhtemelen epey vardır, ama USPS ölçeğinde bunun yıllardır yapılıyor olması yüzünden her OCR duyurusu bana zaten çözülmüş bir problem gibi görünüyor
1970’lerdeydi; internet de merkezi veritabanları da yoktu ama posta servisi teslimatı başardı
Bunun sebebi, babamın sosyal yardım faaliyetlerinde çok aktif olması ve bir gençlik futbol takımını da yönetmesi nedeniyle mahallede sadece adıyla bile epey tanınıyor olmasıydı
Bugünlerde insanlar çoğu zaman cep telefonu yardımı olmadan bir kişiyi ya da yeri bulamıyor ve postacılar da sohbet etmeyi bırakmıyor
Böyle bir mektup bugün ne teknik işleme sürecinden ne de muhtemelen insan ağından geçebilirdi
Mektup doğru postaneye ulaştıktan sonra gerisini sabahın çok erken saatlerinde postacılar hallediyordu
Hangi adresin ne anlama geldiğini tahmin etmek oldukça eğlenceliydi; özellikle yaşlı çalışanlar, bazı yerlerin neden o şekilde adreslendiğinin hikâyesini biliyor ya da sadece sakinlerin adlarına bakarak adresi tahmin edebiliyordu
Carmel-by-the-Sea’de sokak numarası yok ve Florida Keys adresleri çoğu zaman sadece mil işaretleyicisi numarasından ibaret oluyor
Teslimatın yapılabilmesinin sebebi, o güzergâhtan sorumlu kişinin buna alışkın olması
Plaka tanımaya odaklanan açık bir model olup olmadığını merak ediyorum
Birkaç eski model buldum ama bunun gibi yeni OCR modelleri gibi aktif geliştirilen bir şey var mı diye merak ediyorum
Bu kullanım için bizzat deneyip performansını da görebilirim
Bağlantılı sayfadaki video beklediğim gibi değildi
Mistral’ın Avrupalı bir yapay zeka şirketi olduğunu düşünüyordum ama videonun San Francisco’da çekilmiş olması ve görünen üç kişinin de Avrupalı gibi durmaması şaşırttı
Küresel bir organizasyon olmaları güzel ama Paris ofisi ve Avrupa aksanları bekliyordum
Soruları çok, cüzdanları ise oldukça sıkı; Amerikalılar ise farklı
Muhtemelen satış mühendisliği de vardır
Zaman farkı 8 ila 10 saat, yani pratikte bundan kaçmanın yolu yok
Eskiden çalıştığım şirkette bunun yerine Vancouver ofisi vardı ve aynı saat dilimindeydi
Büyük ölçüde Avustralya merkezli olmasına rağmen https://www.blackmagicdesign.com/company/offices adresindeki ofis sıralamasına ve şirket sayfasına bakınca ABD şirketi gibi görünüyor
Bu açıdan bakınca, ABD sermayesiyle Avrupa yeteneğinin her iki avantajını da akıllıca kullanıyorlar
Bu modelin https://github.com/baidu/Unlimited-OCR ile kıyaslandığında nasıl sıralanacağını merak ediyorum
1000 sayfa başına 4 dolar ucuz, ama önceki sürümlerin hepsi “şirket içi benchmark’taki 4 PDF’e göre %98 doğruluk” tarzındaydı ve pratikte piyasadaki neredeyse tüm alternatiflerden daha zayıf kalıyordu; bu yüzden yeniden benchmark yapmaya hevesli değilim
Bu sefer de OlmOCRBench ve OmniDocBench için “bilinen sınırlamalar” diyerek şirket içi benchmark üzerindeki öne çıkan rakamları öne çıkarıyorlar
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Tüm AI laboratuvarları benchmark çubuk grafiklerinde kesilmiş y ekseni kullanmayı gerçekten bırakmalı
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Malayalam ile test ettim; sıradan el yazısında doğruydu ama biraz farklı bir stil olunca Kannada olarak algıladı
Gerekirse örnek verebilirim; Sarvam ise aynı örneği sadece tek bir metin hatasıyla %99 doğrulukla işledi
Örneğin Indian English, Latin alfabesiyle yazılmış Hint ifadeleri karışık belgeler ve görsel, tablo gibi karmaşık düzenler içeren belgelerde nasıl olduğunu merak ediyorum
Hindistan merkezli servislere ilgim vardı ama fiyatları düşündüğümden biraz yüksek göründüğü için tereddüt ediyorum
Tabii yanlış hatırlıyor da olabilirim
Aralık ayındaki önceki OCR v3 modeli ile kıyaslandığında, bounding box dışında neredeyse hiçbir fark açıklanmıyor ve fiyat iki katı: https://mistral.ai/news/mistral-ocr-3/
O zaman farklı benchmark’lar kullanılmıştı
“Kapsam dışı kullanıma dair not. OCR 4 bir belge anlama modelidir, karar verici değildir. Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik açısından kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme, belge dışı girdiler (ham ses, video vb.) için tasarlanmamıştır.”
Bir sonraki toplantıda “Tamam da, bunu telefon fotoğrafı gibi belge dışı girdilerle yüksek riskli finansal kararlar için kullansak nasıl olur?” diye önerecek “yenilikçi” yöneticiyi şimdiden bekliyorum
Gelecek hafta falan HN'de birinin bu “fikri” yoruma yazacağına bahse girerim
Çok daha iyi performans veren onlarca model var; buna kıyasla sadece berbat sonuçlar verir
Bu, sorulara cevap veren bir model değil, metin dönüştürme için
Sırf zorla anti-AI bir açı üretmek istiyor gibi görünüyor
Mistral sadece bunu biraz daha dürüst biçimde ortaya koyuyor; muhtemelen herkesi her şeyin uzmanı gibi görünen genel amaçlı kullanıcı aracıyla (sohbet) etkileme ihtiyacı duymadığı ya da istemediği için
Aslında böyle araçlar da epey sık şekilde birkaç uzman modeli birbirine bağlamaktan ibaret
Burada istenen şey birkaç Python script'iyle yapılabilir
Voxtral ile sesli prompt'u metne çevirip, bunu ek sistem prompt'uyla birlikte Mistral Large 3'e vererek OCR için prompt ve dosya yolları oluşturmasını sağlarsınız; ardından döngüde dosyaları bulup OCR 3'e atar, sonra tekrar Mistral Large 3 ile yorumlatıp bunu karara dönüştürürsünüz
Bu tür kurulumlar yaygındır; hatta her şeyi tek bir modelle yapmak daha nadirdir
Yakın zamanda Opus 4.8 ile OCR denedim
Teknik olarak doğru araç değildi ama ihtiyacım olan tek şey fişlerden tarihi çıkarmaktı
Tarihlerin yaklaşık %20'sini yanlış çıkardı ve buna rağmen hepsini “yüksek güven” olarak değerlendirdi
Muhtemelen OCR'e özel bir model kullanmalıydım
Eskiden siyah-beyaz tarayıcılarla gelen shareware OCR araçları bile muhtemelen %20 hatadan daha iyiydi
Ayrı, eski usul bir OCR aracı kullanıyor gibi ve test sonuçları da kötüydü
Buna karşılık Gemini API'de OCR'ı modelin kendisi yaptı ve doğruluk çok daha iyiydi
Küçük 1~4B görsel-dil modellerinden çok daha iyi
Opus başarısız olduysa, o tür küçük modellerin çoğunun da başarısız olma ihtimali yüksek
Yakın zamanda Opus 4.8 ile, içinde son derece kötü el yazıları da olan yüzlerce PDF taradım; benim bile okuyamadığım tek bir kayıt dışında %100 başarı elde ettim