Mistral OCR yayınlandı - en iyi belge anlama API'si
(mistral.ai)- Mistral OCR, dünyanın en iyi belge anlama API'si olarak mevcut modellere kıyasla belgeleri daha doğru anlama ve analiz etme yeteneği sunuyor
- PDF ve görsellerden metin, medya, formül ve tabloları çıkarıp yapılandırılmış çıktıya dönüştürüyor
- API şu anda 1000 sayfa/1$ fiyatla sunuluyor (toplu işlemde sayfa başı maliyet yarıya düşüyor)
Mistral OCR'un başlıca özellikleri
- Karmaşık belge anlama yeteneği: tabloları, görselleri, formülleri ve LaTeX biçimlendirmesini doğru şekilde yorumlar
- Çok dilli ve çok modlu destek: farklı dilleri, yazı tiplerini ve yazı sistemlerini destekler
- Sektör lideri performans: diğer OCR modellerinden daha yüksek doğruluk kaydediyor
- En yüksek hız: tek bir node üzerinde dakikada 2000 sayfa işleyebiliyor
- Belgeleri prompt olarak kullanabilme: JSON gibi yapılandırılmış çıktıları destekliyor
- On-premise (self-host) seçeneği sunuyor: gizli belge işlemek isteyen şirketler için uygun
Karmaşık belge anlama
- Mistral OCR, bilimsel makaleler, grafikler, formüller, tablolar ve görseller içeren belgeleri derinlemesine analiz edebiliyor
- Örnek notebook üzerinden OCR'ın PDF'den metin ve görselleri nasıl çıkardığı görülebilir (örnek)
Performans karşılaştırması (benchmark)
Mistral OCR, diğer önde gelen OCR modelleriyle karşılaştırıldığında genel performansta en yüksek puanı alıyor
- Genel performans (Overall): 94.89 (diğer modellerden daha yüksek)
- Matematik (Math) analizi performansı: 94.29 (GPT-4o'dan 7 puandan fazla yüksek)
- Çok dilli tanıma performansı: 89.55
- Taranmış belge (Scanned) işleme performansı: 98.96
- Tablo (Table) tanıma performansı: 96.12 (diğer modellere göre en iyi)
Çok dilli destek
Mistral OCR, dünya genelindeki çeşitli dilleri ve yazı sistemlerini işleyebiliyor. Başlıca modellerle karşılaştırıldığında tüm dillerde en iyi OCR performansını gösteriyor
- Rusça (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Fransızca (fr): 99.20 (Azure 97.50, Google 96.36)
- Çince (zh): 97.11 (Azure 91.40, Google 90.89)
- Almanca (de): 99.51 (Azure 98.39, Google 97.09)
Hızlı işleme hızı
- Mistral OCR, mevcut OCR modellerine göre daha hafif ve tek bir node üzerinde dakikada en fazla 2000 sayfa işleyebiliyor
- Büyük hacimli belge işleme gereken ortamlarda sürekli öğrenme ve iyileştirmeyi destekliyor
Belgeleri prompt olarak kullanma (Doc-as-prompt)
- Belgelerden belirli bilgileri çıkarıp JSON gibi yapılandırılmış çıktılar üretebiliyor
- Çıkarılan veriler sonraki yapay zeka süreçlerine bağlanarak otomasyon sağlanabiliyor
- Örnek: hukuk belgelerinden belirli maddeleri çıkarıp ardından yapay zeka sohbet botu yanıtı oluşturma
On-premise (self-host) seçeneği
- Şirket içindeki gizli belge işleme ihtiyacı varsa self-host edilebiliyor
- Veri gizliliği ve güvenliğinin önemli olduğu kurum ve şirketler için uygun
Başlıca kullanım alanları
- Bilimsel araştırmaların dijitalleştirilmesi: makale ve dergileri yapay zekanın işleyebileceği formata dönüştürerek araştırma iş birliğini hızlandırma
- Tarih ve kültürel mirasın korunması: müzeler ve kâr amacı gütmeyen kuruluşlar tarihî belgeleri dijitalleştirip koruyabilir ve paylaşabilir
- Müşteri hizmetlerini iyileştirme: kılavuz ve belgeleri indeksleyerek müşteri yanıt hızını artırma
- Tasarım, eğitim ve hukuk belgelerinde yapay zeka kullanımı: mühendislik çizimleri, ders materyalleri ve düzenleyici belgeleri indeksleyerek yapay zeka tabanlı bilgi erişimi sağlama
Mistral OCR'u deneyin
- Mistral OCR, Le Chat üzerinde ücretsiz denenebilir (Le Chat)
- API, la Plateforme üzerinde kullanılabilir (API kullanımı)
- On-premise dağıtım ve kurumsal özel çözümler de sunuluyor (iletişim)
2 yorum
Korece performansına dair bir içerik yok ama deneyince fena görünmüyor.
Hacker News yorumları
"Fena değil" diyenler var. Ancak halüsinasyon sorunu hâlâ yaşanıyor
Mistral ile Marker performansını karşılaştırmak için benchmark kısmen çalıştırılmış
OCR teknolojisi geliştikçe makaleleri ve ders kitaplarını okumanın daha kolay olacağı beklentisi var
OCR teknolojisi neredeyse çözülmüş bir noktaya yaklaşıyor
Tıbbi ders kitaplarını PDF'den MD'ye dönüştürürken MinerU/PDF-Extract-Kit sonuçlarının daha iyi olduğunu söyleyenler var
Teknolojinin ilerleyip PDF düzenlenebilir hâle geldiği günün geldiğini söyleyenler var
Çok hızlı olduğu ve Google, Claude gibi seçeneklerden daha doğru olduğu söyleniyor
Belirli bir model yerine genel amaçlı bir VLM kullanmanın dezavantajı, onu belirli kullanım durumlarına göre ayarlamanın zor olması
VLM OCR'ın neden halüsinasyon ürettiğine dair kısa bir açıklama arayanlar var