Mistral OCR yayınlandı - en iyi belge anlama API'si

(mistral.ai)

13 puan yazan GN⁺ 2025-03-07 | 2 yorum | WhatsApp'ta paylaş

Mistral OCR, dünyanın en iyi belge anlama API'si olarak mevcut modellere kıyasla belgeleri daha doğru anlama ve analiz etme yeteneği sunuyor
PDF ve görsellerden metin, medya, formül ve tabloları çıkarıp yapılandırılmış çıktıya dönüştürüyor
API şu anda 1000 sayfa/1$ fiyatla sunuluyor (toplu işlemde sayfa başı maliyet yarıya düşüyor)

Mistral OCR'un başlıca özellikleri

Karmaşık belge anlama yeteneği: tabloları, görselleri, formülleri ve LaTeX biçimlendirmesini doğru şekilde yorumlar
Çok dilli ve çok modlu destek: farklı dilleri, yazı tiplerini ve yazı sistemlerini destekler
Sektör lideri performans: diğer OCR modellerinden daha yüksek doğruluk kaydediyor
En yüksek hız: tek bir node üzerinde dakikada 2000 sayfa işleyebiliyor
Belgeleri prompt olarak kullanabilme: JSON gibi yapılandırılmış çıktıları destekliyor
On-premise (self-host) seçeneği sunuyor: gizli belge işlemek isteyen şirketler için uygun

Karmaşık belge anlama

Mistral OCR, bilimsel makaleler, grafikler, formüller, tablolar ve görseller içeren belgeleri derinlemesine analiz edebiliyor
Örnek notebook üzerinden OCR'ın PDF'den metin ve görselleri nasıl çıkardığı görülebilir (örnek)

Performans karşılaştırması (benchmark)

Mistral OCR, diğer önde gelen OCR modelleriyle karşılaştırıldığında genel performansta en yüksek puanı alıyor

Genel performans (Overall): 94.89 (diğer modellerden daha yüksek)
Matematik (Math) analizi performansı: 94.29 (GPT-4o'dan 7 puandan fazla yüksek)
Çok dilli tanıma performansı: 89.55
Taranmış belge (Scanned) işleme performansı: 98.96
Tablo (Table) tanıma performansı: 96.12 (diğer modellere göre en iyi)

Çok dilli destek

Mistral OCR, dünya genelindeki çeşitli dilleri ve yazı sistemlerini işleyebiliyor. Başlıca modellerle karşılaştırıldığında tüm dillerde en iyi OCR performansını gösteriyor

Rusça (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Fransızca (fr): 99.20 (Azure 97.50, Google 96.36)
Çince (zh): 97.11 (Azure 91.40, Google 90.89)
Almanca (de): 99.51 (Azure 98.39, Google 97.09)

Hızlı işleme hızı

Mistral OCR, mevcut OCR modellerine göre daha hafif ve tek bir node üzerinde dakikada en fazla 2000 sayfa işleyebiliyor
Büyük hacimli belge işleme gereken ortamlarda sürekli öğrenme ve iyileştirmeyi destekliyor

Belgeleri prompt olarak kullanma (Doc-as-prompt)

Belgelerden belirli bilgileri çıkarıp JSON gibi yapılandırılmış çıktılar üretebiliyor
Çıkarılan veriler sonraki yapay zeka süreçlerine bağlanarak otomasyon sağlanabiliyor
Örnek: hukuk belgelerinden belirli maddeleri çıkarıp ardından yapay zeka sohbet botu yanıtı oluşturma

On-premise (self-host) seçeneği

Şirket içindeki gizli belge işleme ihtiyacı varsa self-host edilebiliyor
Veri gizliliği ve güvenliğinin önemli olduğu kurum ve şirketler için uygun

Başlıca kullanım alanları

Bilimsel araştırmaların dijitalleştirilmesi: makale ve dergileri yapay zekanın işleyebileceği formata dönüştürerek araştırma iş birliğini hızlandırma
Tarih ve kültürel mirasın korunması: müzeler ve kâr amacı gütmeyen kuruluşlar tarihî belgeleri dijitalleştirip koruyabilir ve paylaşabilir
Müşteri hizmetlerini iyileştirme: kılavuz ve belgeleri indeksleyerek müşteri yanıt hızını artırma
Tasarım, eğitim ve hukuk belgelerinde yapay zeka kullanımı: mühendislik çizimleri, ders materyalleri ve düzenleyici belgeleri indeksleyerek yapay zeka tabanlı bilgi erişimi sağlama

Mistral OCR'u deneyin

Mistral OCR, Le Chat üzerinde ücretsiz denenebilir (Le Chat)
API, la Plateforme üzerinde kullanılabilir (API kullanımı)
On-premise dağıtım ve kurumsal özel çözümler de sunuluyor (iletişim)

2 yorum

taeha 2025-03-13

Korece performansına dair bir içerik yok ama deneyince fena görünmüyor.

GN⁺ 2025-03-07

Hacker News yorumları

"Fena değil" diyenler var. Ancak halüsinasyon sorunu hâlâ yaşanıyor
- Örnek olarak verilen görselde orta bloktaki metin doğru şekilde çıkarılmış
- Ancak sonraki blokta önceki bloktan bazı metinler tekrar ediyor, sonraki bloktan bazı kısımlar yanlış ekleniyor ve gerçekte olmayan kelimeler üretiliyor
- Doğru metin şudur: "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
Mistral ile Marker performansını karşılaştırmak için benchmark kısmen çalıştırılmış
- LLM değerlendirmesine göre 375 örnekte Mistral 4.32, Marker ise 4.41 puan almış
- Marker, H100 üzerinde saniyede 20 ila 120 sayfa çıkarım yapabiliyor
- Örnekler ve benchmark kodu sırasıyla Hugging Face ve GitHub'da görülebilir
- Mistral OCR etkileyici bir model, ancak OCR problemi hâlâ zor
OCR teknolojisi geliştikçe makaleleri ve ders kitaplarını okumanın daha kolay olacağı beklentisi var
- Şekil referansları ile gerçek şekilleri eşleştirebildiği için okuma akışını bölmüyor
- HTML'e temiz dönüşüm mümkün hâle gelerek tanımlara tıklama veya anlamayı kontrol eden sorular ekleme imkânı sunuyor
- Andy Matuschak'ın Orbit SRS sisteminin PDF'lere otomatik entegre edilmesi de mümkün olabilir
OCR teknolojisi neredeyse çözülmüş bir noktaya yaklaşıyor
- Ancak iş dünyasında ham OCR çıktısından belge işlemeye geçişte hâlâ büyük bir boşluk var
- LLM ve VLM sihirli çözümler değil; %100 otomasyon beklemek gerçekçi değil
- Veri seti kurma, pipeline ayarlama, belirsizlik tespiti ve insan müdahalesiyle düzeltme gibi adımlar gerekiyor
Tıbbi ders kitaplarını PDF'den MD'ye dönüştürürken MinerU/PDF-Extract-Kit sonuçlarının daha iyi olduğunu söyleyenler var
- Yazıdaki Colab bağlantısı çalışmıyor, ancak dokümantasyonda çalışan bir bağlantı bulunmuş
Teknolojinin ilerleyip PDF düzenlenebilir hâle geldiği günün geldiğini söyleyenler var
- Ancak kişisel veri içeren PDF arşivlerinde OCR sorunu hâlâ çözülmüş değil
Çok hızlı olduğu ve Google, Claude gibi seçeneklerden daha doğru olduğu söyleniyor
- Fiyatlandırma 1000 sayfa başına $1, batch kullanımda ise 2000 sayfa üzerinden yapılıyor
- PDF'yi Markdown'a dönüştürmede çok iyi olduğu yönünde görüşler var
Belirli bir model yerine genel amaçlı bir VLM kullanmanın dezavantajı, onu belirli kullanım durumlarına göre ayarlamanın zor olması
- Örneğin Gemini kullanılarak çıkarılan Markdown'a çok spesifik alternatif metin ekleniyor
- Gemini Flash'tan 2-3 kat daha pahalı, ancak performans artışı önemli görülüyor
VLM OCR'ın neden halüsinasyon ürettiğine dair kısa bir açıklama arayanlar var