1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Mistral AI tarafından tanıtılan Mistral OCR 4, belgelerden yalnızca metin çıkaran bir OCR’ın ötesine geçerek bounding box’lar, blok sınıflandırması ve satır içi güven puanlarını birlikte döndüren bir belge anlama modelidir
  • 10 dil grubunda 170 dili ve tek konteynerli self-hosting desteğini sunarak, veri egemenliği ve uyumluluğun önemli olduğu kurumların belge toplama boru hatlarına uygundur
  • İnsan tercih değerlendirmelerinde ortalama %72 kazanma oranı kaydetti; OlmOCRBench’te 85.20, OmniDocBench’te 93.07 gibi açık ve dahili değerlendirmelerde de yüksek puan aldı
  • Ancak referans hataları, eşdeğer matematiksel gösterimler, çok sütunlu okuma sırası, header-footer işleme gibi puanlama sınırlamaları nedeniyle benchmark puanları gerçek belge değerlendirmeleriyle birlikte ele alınmalıdır
  • API fiyatı 1.000 sayfa başına $4, Batch API $2, Document AI ise $5; ham çıkarım için OCR 4 yeterliyken, yapılandırılmış JSON, görsel açıklamaları ve özel prompt gerekiyorsa Document AI yolu daha uygundur

OCR 4’ün döndürdüğü yapılandırılmış belge gösterimi

  • OCR 4, farklı belge türlerinden içeriği çıkarıp yapılandırır; önceki nesiller gibi yalnızca temiz metin ve tablo dönüşümünde kalmaz, buna ek olarak yapılandırılmış gösterim de sunar
  • Her blokta bounding box, blok türü ve sayfa/kelime düzeyinde satır içi güven puanları bulunur
    • Böylece alt sistemler yalnızca belge içeriğini değil, her öğenin konumunu, rolünü ve güven düzeyini de kullanabilir
  • Başlıca kullanım akışları şunlardır
    • RAG için anlamsal birimlere ayırma: düzenlenmiş ve sınıflandırılmış blokları arama birimi olarak kullanma
    • Ajanlar için yapısal primitive’ler: form doldurma, fatura işleme ve uyumluluk kontrollerini destekleme
    • Connector’lar için yapılandırılmış içerik: toplama ve indeksleme boru hatlarına tutarlı tipte çıktı sağlama

Formatlar, diller ve dağıtım şekli

  • Girdi formatları arasında PDF, DOC, PPT, OpenDocument gibi yaygın kurumsal belge formatları yer alır
  • 10 dil grubunda 170 dili destekler; birçok sistemin zayıfladığı uzmanlık gerektiren ve düşük kaynaklı diller de bu kapsamdadır
  • Model, tek bir konteynere dağıtılabilecek kadar küçüktür; bu da onu maliyet hassasiyetinin yüksek olduğu ve yüksek işlem hacmine sahip ortamlar için uygun kılar
  • Tam self-hosting desteği sunduğundan, veri egemenliği gereksinimi olan kurumlar belge verilerini kendi altyapılarında tutabilir
  • Self-managed dağıtım, kurumsal müşterilere sunulmaktadır

Fiyatlandırma ve kullanım yolları

  • Geliştiriciler modeli API üzerinden entegre edebilir; ekipler ise Mistral Studio’daki Document AI üzerinden aynı motoru no-code bir uygulama olarak kullanabilir
  • Fiyatlandırma şu şekildedir
    • OCR 4 API: 1.000 sayfa başına $4
    • Batch API’de %50 indirimle: 1.000 sayfa başına $2
    • Document AI: 1.000 sayfa başına $5
  • OCR 4, Mistral Search Toolkit içindeki toplama bileşeni olarak entegre edilmiştir ve RAG ile kurumsal arama için toplama, arama ve değerlendirme iş akışlarına alıntılanabilir girdi sağlar

Değerlendirme sonuçları ve benchmark sınırlamaları

  • OCR 4 değerlendirmesi; yapay zeka yerleşik OCR modelleri, genel amaçlı frontier modeller, kurumsal belge servisleri ve Mistral OCR 3 ile karşılaştırmalı olarak yapıldı
  • İnsan tercih değerlendirmesi, gerçek kullanım koşullarını yansıtacak şekilde 12’den fazla dilde 600’den fazla belgeyle oluşturuldu; bağımsız değerlendiriciler her rakip sistemin çıktısını OCR 4 çıktısıyla belge bazında kör karşılaştırdı
    • Değerlendiriciler, test edilen tüm sistemler arasında belgelerin büyük bölümünde OCR 4’ü daha çok tercih etti
    • Ortalama kazanma oranı %72 oldu
  • Açık OlmOCRBench üzerinde, test edilen modeller arasında en yüksek toplam puan olan 85.20 elde edildi
  • Dahili Crawl Multilingual evaluation’da .98 puan alarak yapay zeka yerleşik ve kurumsal çözümlerin önüne geçti
  • OmniDocBench puanı 93.07 olsa da, hem OlmOCRBench hem de OmniDocBench’in bazı çıktı puanlama yöntemlerinde bilinen sınırlamalar bulunuyor
  • Denetlenen uyumsuzlukların çoğu model hatasından değil, benchmark karşılaştırma yönteminden kaynaklanıyor
    • Referans hataları: referans açıklamalarda eksik/ek metin, gizlenmiş alanların transkripsiyonu veya yazım hataları bulunabiliyor
    • Eşdeğer matematiksel gösterimler: aynı sonucu veren LaTeX ifadeleri, dizgeleri farklıysa uyumsuz sayılabiliyor
    • Formül bölme: tek bir formül olarak mı yoksa birkaç satır içi parçaya bölünerek mi çıkarıldığına göre doğru yanıt eşleşmesi bozulabiliyor
    • Çok sütunlu okuma sırası: sütun sınırlarında bölünen kelimeler ve sütun sırası varsayımları nedeniyle doğru çıkarım bile başarısız sayılabiliyor
    • Blok türü ataması: header ve footer çıktıdan kaldırılmış olsa bile, sayfa başlığı gibi dizgeler test tarafından yanlış şekilde işaretlenebiliyor
  • Bu tür artefaktlar özellikle matematik, bilim ve çok sütunlu belgelerde yoğunlaşıyor; hatalı çıktıları ödüllendirmekten çok doğru çıktıları daha sık cezalandırma eğiliminde oluyor
  • Tüm rakip puanları dahili yeniden üretim sonuçları olduğundan, gerçek kullanıma almadan önce kendi belgeleriniz üzerinde doğrudan değerlendirme yapmak daha güvenlidir

Çok dilli performans

  • Dahili çok dilli değerlendirmede OCR 4, 8 dil grubunun tamamında öne çıktı
    • English
    • Western Europe
    • Eastern Europe
    • Middle Eastern
    • Chinese
    • East Asian
    • Southeast Asian
    • Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu gibi uzmanlık dilleri
  • Fark, uzmanlık gerektiren ve düşük kaynaklı dillerde en büyüktü; birçok rakip sistemin sert şekilde düştüğü alanlarda bile OCR 4 yüksek doğruluğunu korudu

Önerilen kullanım senaryoları ve kapsam dışı alanlar

  • OCR 4 hem yüksek hacimli boru hatlarını hem de etkileşimli belge iş akışlarını destekler
  • Önerilen kullanım senaryoları şunlardır
    • Karmaşık çok dilli belgelerde belge ayrıştırma ve çıkarım
    • RAG için yapılandırılmış, sınıflandırılmış ve alıntılanabilir içerik üretimi
    • Search Toolkit ile birleştirilmiş arama boru hattı girdisi
    • Form doldurma, fatura işleme ve uyumluluk denetimi gibi ajan iş akışları
    • Güven puanlarını kullanan, insan doğrulamalı yapılandırılmış veri boru hatları
    • Kurumsal arama ve bilgi tabanları için veri kaynağı bileşenleri
  • İlk kullanıcılar OCR 4’ü faturaların yapılandırılmış alan dönüşümünde, şirket arşivlerinin dijitalleştirilmesinde, teknik ve bilimsel raporlardan temiz metin çıkarımında ve kurumsal aramada kullanıyor
  • OCR 4 bir belge anlama modelidir; karar verici değildir
    • Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme ya da ham ses-video gibi belge dışı girdiler için tasarlanmamıştır

OCR 4 API ve Document AI seçim ölçütleri

  • OCR 4, tek bir API endpoint’i olarak sunulur ve tüm istekler aynı temel OCR modelini çalıştırır
  • Varsayılan yanıtta her zaman çıkarılan içerik, bounding box’lar, blok türleri, güven puanları ve Markdown yapılı metin yer alır
  • Saf çıkarım modu şu durumlar için uygundur
    • Hızlı ve doğru belge çıkarımını uygulamalara, ajanlara veya veri boru hatlarına doğrudan gömmek
    • Ham yanıtı, bounding box’ları, blok türlerini ve güven puanlarını doğrudan kullanarak özel son işleme mantığı kurmak
    • Batch API ile işlem hacmini ve maliyeti kontrol eden yüksek hacimli, toplu veri toplama
    • Sıkı veri gizliliği, egemenlik ve uyumluluk gereksinimlerine uygun self-hosting
  • Document AI özellikleri, aynı endpoint’e ek parametreler verilerek etkinleştirilir
    • Belgeyle birlikte bir JSON şeması gönderildiğinde, OCR çıktısı mistral-small-2603 modeline verilir ve belirlediğiniz tanıma uygun yapılandırılmış JSON üretilir
    • Görsel açıklama şeması gönderildiğinde, algılanan her görsel için ek vision-language model çağrılarıyla yapılandırılmış JSON oluşturulur
    • JSON şemasıyla birlikte özel prompt kullanarak tüm belgeden çıkarılan içeriğin yorumlanması veya özetlenmesi yönlendirilebilir
    • Böylece iş kullanıcıları, çözüm ekipleri ve pilot projeler ayrı bir son işleme ayrıştırma mantığı olmadan yapılandırılmış sonuçlar üretebilir
  • Ham çıkarım içeriği gerekiyorsa OCR 4 doğrudan kullanılmalı; yapılandırılmış format dönüştürme, alan bazlı anotasyon veya özel talimat işleme gerekiyorsa Document AI parametreleri eklenmelidir

Sunum kanalları ve başlangıç

  • Mistral OCRv4 ve OCRv4 tabanlı Document AI; API, Mistral Studio, Amazon SageMaker ve Microsoft Foundry üzerinden kullanılabiliyor
  • Snowflake Parse Document desteğinin yakında gelmesi planlanıyor
  • Hassas bilgileri kendi altyapısında tutmak zorunda olan kurumlar için OCR 4 ayrıca self-hosting seçeneği sunuyor
  • Başlangıç kaynakları şunlar

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • US Postal Service bana her zaman teknolojik bir mucize gibi gelmiştir
    Çok daha ilkel teknolojilerle milyarlarca postayı tanımlayıp yönlendirebiliyorlar; ayrıca ABD adresleri inanılmaz derecede standart dışı, öyle ki aynı adresi farklı biçimlerde yazsanız bile çoğu zaman yine doğru yere ulaşıyor
    Bu alanda kamusal bilgi muhtemelen epey vardır, ama USPS ölçeğinde bunun yıllardır yapılıyor olması yüzünden her OCR duyurusu bana zaten çözülmüş bir problem gibi görünüyor

    • Babam bir keresinde Cezayir’den bir mektup almıştı; zarfın üzerinde sadece adı, “Créteil” (o sırada yaklaşık 100 bin nüfuslu yaşadığı şehir) ve “France” yazıyordu
      1970’lerdeydi; internet de merkezi veritabanları da yoktu ama posta servisi teslimatı başardı
      Bunun sebebi, babamın sosyal yardım faaliyetlerinde çok aktif olması ve bir gençlik futbol takımını da yönetmesi nedeniyle mahallede sadece adıyla bile epey tanınıyor olmasıydı
      Bugünlerde insanlar çoğu zaman cep telefonu yardımı olmadan bir kişiyi ya da yeri bulamıyor ve postacılar da sohbet etmeyi bırakmıyor
      Böyle bir mektup bugün ne teknik işleme sürecinden ne de muhtemelen insan ağından geçebilirdi
    • Eskiden Danimarka posta servisinde yarı zamanlı çalışıyordum; otomatik ayıklama sadece posta koduna kadar yapılıyordu
      Mektup doğru postaneye ulaştıktan sonra gerisini sabahın çok erken saatlerinde postacılar hallediyordu
      Hangi adresin ne anlama geldiğini tahmin etmek oldukça eğlenceliydi; özellikle yaşlı çalışanlar, bazı yerlerin neden o şekilde adreslendiğinin hikâyesini biliyor ya da sadece sakinlerin adlarına bakarak adresi tahmin edebiliyordu
    • Tom Scott’ın bu konuda güzel bir videosu var: https://www.youtube.com/watch?v=XxCha4Kez9c
    • ABD adreslerinde çok garip istisnalar var
      Carmel-by-the-Sea’de sokak numarası yok ve Florida Keys adresleri çoğu zaman sadece mil işaretleyicisi numarasından ibaret oluyor
      Teslimatın yapılabilmesinin sebebi, o güzergâhtan sorumlu kişinin buna alışkın olması
    • Hindistan’daki adres standartlarına bakınca, ABD adreslerinin standart dışılığı ancak güldürüyor
  • Plaka tanımaya odaklanan açık bir model olup olmadığını merak ediyorum
    Birkaç eski model buldum ama bunun gibi yeni OCR modelleri gibi aktif geliştirilen bir şey var mı diye merak ediyorum
    Bu kullanım için bizzat deneyip performansını da görebilirim

  • Bağlantılı sayfadaki video beklediğim gibi değildi
    Mistral’ın Avrupalı bir yapay zeka şirketi olduğunu düşünüyordum ama videonun San Francisco’da çekilmiş olması ve görünen üç kişinin de Avrupalı gibi durmaması şaşırttı
    Küresel bir organizasyon olmaları güzel ama Paris ofisi ve Avrupa aksanları bekliyordum

    • Ne yazık ki Avrupalı müşteriler para kazanması zor müşteriler
      Soruları çok, cüzdanları ise oldukça sıkı; Amerikalılar ise farklı
    • Belli bir ölçeğe ulaşmış herhangi bir Avrupa teknoloji şirketi, en azından satış için ABD batı kıyısında ofis açar
      Muhtemelen satış mühendisliği de vardır
      Zaman farkı 8 ila 10 saat, yani pratikte bundan kaçmanın yolu yok
      Eskiden çalıştığım şirkette bunun yerine Vancouver ofisi vardı ve aynı saat dilimindeydi
    • Blackmagic Design da benzer
      Büyük ölçüde Avustralya merkezli olmasına rağmen https://www.blackmagicdesign.com/company/offices adresindeki ofis sıralamasına ve şirket sayfasına bakınca ABD şirketi gibi görünüyor
    • Bildiğim kadarıyla kurucu ekibin çoğu kariyerine Meta gibi Amerikan şirketlerinde başladı ve ana yatırımcıları da ABD VC’leri
      Bu açıdan bakınca, ABD sermayesiyle Avrupa yeteneğinin her iki avantajını da akıllıca kullanıyorlar
    • Arka planda ABD bayrağı bile yükseğe asılmış
  • Bu modelin https://github.com/baidu/Unlimited-OCR ile kıyaslandığında nasıl sıralanacağını merak ediyorum

  • 1000 sayfa başına 4 dolar ucuz, ama önceki sürümlerin hepsi “şirket içi benchmark’taki 4 PDF’e göre %98 doğruluk” tarzındaydı ve pratikte piyasadaki neredeyse tüm alternatiflerden daha zayıf kalıyordu; bu yüzden yeniden benchmark yapmaya hevesli değilim
    Bu sefer de OlmOCRBench ve OmniDocBench için “bilinen sınırlamalar” diyerek şirket içi benchmark üzerindeki öne çıkan rakamları öne çıkarıyorlar
    https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

    • Ben de aynı sonuca vardım, ama birkaç örneği kendim çalıştırınca 2025 Aralık sürümünden sonra gerçek bir iyileşme gördüm
  • Tüm AI laboratuvarları benchmark çubuk grafiklerinde kesilmiş y ekseni kullanmayı gerçekten bırakmalı
    https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539

  • Malayalam ile test ettim; sıradan el yazısında doğruydu ama biraz farklı bir stil olunca Kannada olarak algıladı
    Gerekirse örnek verebilirim; Sarvam ise aynı örneği sadece tek bir metin hatasıyla %99 doğrulukla işledi

    • Sarvam’ı Hint dilleri dışında kullanan biri var mı merak ediyorum
      Örneğin Indian English, Latin alfabesiyle yazılmış Hint ifadeleri karışık belgeler ve görsel, tablo gibi karmaşık düzenler içeren belgelerde nasıl olduğunu merak ediyorum
      Hindistan merkezli servislere ilgim vardı ama fiyatları düşündüğümden biraz yüksek göründüğü için tereddüt ediyorum
      Tabii yanlış hatırlıyor da olabilirim
  • Aralık ayındaki önceki OCR v3 modeli ile kıyaslandığında, bounding box dışında neredeyse hiçbir fark açıklanmıyor ve fiyat iki katı: https://mistral.ai/news/mistral-ocr-3/
    O zaman farklı benchmark’lar kullanılmıştı

  • “Kapsam dışı kullanıma dair not. OCR 4 bir belge anlama modelidir, karar verici değildir. Tıbbi teşhis, hukuki tavsiye veya hüküm, yüksek riskli finansal kararlar, güvenlik açısından kritik sistemler, gerçek zamanlı/gecikmeye duyarlı işleme, belge dışı girdiler (ham ses, video vb.) için tasarlanmamıştır.”
    Bir sonraki toplantıda “Tamam da, bunu telefon fotoğrafı gibi belge dışı girdilerle yüksek riskli finansal kararlar için kullansak nasıl olur?” diye önerecek “yenilikçi” yöneticiyi şimdiden bekliyorum
    Gelecek hafta falan HN'de birinin bu “fikri” yoruma yazacağına bahse girerim

    • Neden özellikle bunu yapmak istesinler, anlamıyorum
      Çok daha iyi performans veren onlarca model var; buna kıyasla sadece berbat sonuçlar verir
      Bu, sorulara cevap veren bir model değil, metin dönüştürme için
      Sırf zorla anti-AI bir açı üretmek istiyor gibi görünüyor
    • Tüm AI şirketleri tek bir işte çok güçlü olan özelleşmiş modeller yapıyor
      Mistral sadece bunu biraz daha dürüst biçimde ortaya koyuyor; muhtemelen herkesi her şeyin uzmanı gibi görünen genel amaçlı kullanıcı aracıyla (sohbet) etkileme ihtiyacı duymadığı ya da istemediği için
      Aslında böyle araçlar da epey sık şekilde birkaç uzman modeli birbirine bağlamaktan ibaret
      Burada istenen şey birkaç Python script'iyle yapılabilir
      Voxtral ile sesli prompt'u metne çevirip, bunu ek sistem prompt'uyla birlikte Mistral Large 3'e vererek OCR için prompt ve dosya yolları oluşturmasını sağlarsınız; ardından döngüde dosyaları bulup OCR 3'e atar, sonra tekrar Mistral Large 3 ile yorumlatıp bunu karara dönüştürürsünüz
      Bu tür kurulumlar yaygındır; hatta her şeyi tek bir modelle yapmak daha nadirdir
    • “Önemli finansal kararları OCR yazılımına devrettim; sonra olanlara inanamayacaksınız”
  • Yakın zamanda Opus 4.8 ile OCR denedim
    Teknik olarak doğru araç değildi ama ihtiyacım olan tek şey fişlerden tarihi çıkarmaktı
    Tarihlerin yaklaşık %20'sini yanlış çıkardı ve buna rağmen hepsini “yüksek güven” olarak değerlendirdi
    Muhtemelen OCR'e özel bir model kullanmalıydım

    • Fişlerden tarih çıkarmak, yaklaşık 30 yıl önce neredeyse çözülmüş bir problem değil miydi?
      Eskiden siyah-beyaz tarayıcılarla gelen shareware OCR araçları bile muhtemelen %20 hatadan daha iyiydi
    • Opus'u bilmiyorum ama Gemini'nin abonelik ürünündeki OCR işi doğrudan model tarafından yapılıyor gibi görünmüyor
      Ayrı, eski usul bir OCR aracı kullanıyor gibi ve test sonuçları da kötüydü
      Buna karşılık Gemini API'de OCR'ı modelin kendisi yaptı ve doğruluk çok daha iyiydi
    • Opus OCR'ı çok iyi yapıyor
      Küçük 1~4B görsel-dil modellerinden çok daha iyi
      Opus başarısız olduysa, o tür küçük modellerin çoğunun da başarısız olma ihtimali yüksek
    • Buna inanmak zor
      Yakın zamanda Opus 4.8 ile, içinde son derece kötü el yazıları da olan yüzlerce PDF taradım; benim bile okuyamadığım tek bir kayıt dışında %100 başarı elde ettim