13 puan yazan GN⁺ 2025-03-07 | 2 yorum | WhatsApp'ta paylaş
  • Mistral OCR, dünyanın en iyi belge anlama API'si olarak mevcut modellere kıyasla belgeleri daha doğru anlama ve analiz etme yeteneği sunuyor
  • PDF ve görsellerden metin, medya, formül ve tabloları çıkarıp yapılandırılmış çıktıya dönüştürüyor
  • API şu anda 1000 sayfa/1$ fiyatla sunuluyor (toplu işlemde sayfa başı maliyet yarıya düşüyor)

Mistral OCR'un başlıca özellikleri

  • Karmaşık belge anlama yeteneği: tabloları, görselleri, formülleri ve LaTeX biçimlendirmesini doğru şekilde yorumlar
  • Çok dilli ve çok modlu destek: farklı dilleri, yazı tiplerini ve yazı sistemlerini destekler
  • Sektör lideri performans: diğer OCR modellerinden daha yüksek doğruluk kaydediyor
  • En yüksek hız: tek bir node üzerinde dakikada 2000 sayfa işleyebiliyor
  • Belgeleri prompt olarak kullanabilme: JSON gibi yapılandırılmış çıktıları destekliyor
  • On-premise (self-host) seçeneği sunuyor: gizli belge işlemek isteyen şirketler için uygun

Karmaşık belge anlama

  • Mistral OCR, bilimsel makaleler, grafikler, formüller, tablolar ve görseller içeren belgeleri derinlemesine analiz edebiliyor
  • Örnek notebook üzerinden OCR'ın PDF'den metin ve görselleri nasıl çıkardığı görülebilir (örnek)

Performans karşılaştırması (benchmark)

Mistral OCR, diğer önde gelen OCR modelleriyle karşılaştırıldığında genel performansta en yüksek puanı alıyor

  • Genel performans (Overall): 94.89 (diğer modellerden daha yüksek)
  • Matematik (Math) analizi performansı: 94.29 (GPT-4o'dan 7 puandan fazla yüksek)
  • Çok dilli tanıma performansı: 89.55
  • Taranmış belge (Scanned) işleme performansı: 98.96
  • Tablo (Table) tanıma performansı: 96.12 (diğer modellere göre en iyi)

Çok dilli destek

Mistral OCR, dünya genelindeki çeşitli dilleri ve yazı sistemlerini işleyebiliyor. Başlıca modellerle karşılaştırıldığında tüm dillerde en iyi OCR performansını gösteriyor

  • Rusça (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • Fransızca (fr): 99.20 (Azure 97.50, Google 96.36)
  • Çince (zh): 97.11 (Azure 91.40, Google 90.89)
  • Almanca (de): 99.51 (Azure 98.39, Google 97.09)

Hızlı işleme hızı

  • Mistral OCR, mevcut OCR modellerine göre daha hafif ve tek bir node üzerinde dakikada en fazla 2000 sayfa işleyebiliyor
  • Büyük hacimli belge işleme gereken ortamlarda sürekli öğrenme ve iyileştirmeyi destekliyor

Belgeleri prompt olarak kullanma (Doc-as-prompt)

  • Belgelerden belirli bilgileri çıkarıp JSON gibi yapılandırılmış çıktılar üretebiliyor
  • Çıkarılan veriler sonraki yapay zeka süreçlerine bağlanarak otomasyon sağlanabiliyor
  • Örnek: hukuk belgelerinden belirli maddeleri çıkarıp ardından yapay zeka sohbet botu yanıtı oluşturma

On-premise (self-host) seçeneği

  • Şirket içindeki gizli belge işleme ihtiyacı varsa self-host edilebiliyor
  • Veri gizliliği ve güvenliğinin önemli olduğu kurum ve şirketler için uygun

Başlıca kullanım alanları

  1. Bilimsel araştırmaların dijitalleştirilmesi: makale ve dergileri yapay zekanın işleyebileceği formata dönüştürerek araştırma iş birliğini hızlandırma
  2. Tarih ve kültürel mirasın korunması: müzeler ve kâr amacı gütmeyen kuruluşlar tarihî belgeleri dijitalleştirip koruyabilir ve paylaşabilir
  3. Müşteri hizmetlerini iyileştirme: kılavuz ve belgeleri indeksleyerek müşteri yanıt hızını artırma
  4. Tasarım, eğitim ve hukuk belgelerinde yapay zeka kullanımı: mühendislik çizimleri, ders materyalleri ve düzenleyici belgeleri indeksleyerek yapay zeka tabanlı bilgi erişimi sağlama

Mistral OCR'u deneyin

  • Mistral OCR, Le Chat üzerinde ücretsiz denenebilir (Le Chat)
  • API, la Plateforme üzerinde kullanılabilir (API kullanımı)
  • On-premise dağıtım ve kurumsal özel çözümler de sunuluyor (iletişim)

2 yorum

 
taeha 2025-03-13

Korece performansına dair bir içerik yok ama deneyince fena görünmüyor.

 
GN⁺ 2025-03-07
Hacker News yorumları
  • "Fena değil" diyenler var. Ancak halüsinasyon sorunu hâlâ yaşanıyor

    • Örnek olarak verilen görselde orta bloktaki metin doğru şekilde çıkarılmış
    • Ancak sonraki blokta önceki bloktan bazı metinler tekrar ediyor, sonraki bloktan bazı kısımlar yanlış ekleniyor ve gerçekte olmayan kelimeler üretiliyor
    • Doğru metin şudur: "Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679."
  • Mistral ile Marker performansını karşılaştırmak için benchmark kısmen çalıştırılmış

    • LLM değerlendirmesine göre 375 örnekte Mistral 4.32, Marker ise 4.41 puan almış
    • Marker, H100 üzerinde saniyede 20 ila 120 sayfa çıkarım yapabiliyor
    • Örnekler ve benchmark kodu sırasıyla Hugging Face ve GitHub'da görülebilir
    • Mistral OCR etkileyici bir model, ancak OCR problemi hâlâ zor
  • OCR teknolojisi geliştikçe makaleleri ve ders kitaplarını okumanın daha kolay olacağı beklentisi var

    • Şekil referansları ile gerçek şekilleri eşleştirebildiği için okuma akışını bölmüyor
    • HTML'e temiz dönüşüm mümkün hâle gelerek tanımlara tıklama veya anlamayı kontrol eden sorular ekleme imkânı sunuyor
    • Andy Matuschak'ın Orbit SRS sisteminin PDF'lere otomatik entegre edilmesi de mümkün olabilir
  • OCR teknolojisi neredeyse çözülmüş bir noktaya yaklaşıyor

    • Ancak iş dünyasında ham OCR çıktısından belge işlemeye geçişte hâlâ büyük bir boşluk var
    • LLM ve VLM sihirli çözümler değil; %100 otomasyon beklemek gerçekçi değil
    • Veri seti kurma, pipeline ayarlama, belirsizlik tespiti ve insan müdahalesiyle düzeltme gibi adımlar gerekiyor
  • Tıbbi ders kitaplarını PDF'den MD'ye dönüştürürken MinerU/PDF-Extract-Kit sonuçlarının daha iyi olduğunu söyleyenler var

    • Yazıdaki Colab bağlantısı çalışmıyor, ancak dokümantasyonda çalışan bir bağlantı bulunmuş
  • Teknolojinin ilerleyip PDF düzenlenebilir hâle geldiği günün geldiğini söyleyenler var

    • Ancak kişisel veri içeren PDF arşivlerinde OCR sorunu hâlâ çözülmüş değil
  • Çok hızlı olduğu ve Google, Claude gibi seçeneklerden daha doğru olduğu söyleniyor

    • Fiyatlandırma 1000 sayfa başına $1, batch kullanımda ise 2000 sayfa üzerinden yapılıyor
    • PDF'yi Markdown'a dönüştürmede çok iyi olduğu yönünde görüşler var
  • Belirli bir model yerine genel amaçlı bir VLM kullanmanın dezavantajı, onu belirli kullanım durumlarına göre ayarlamanın zor olması

    • Örneğin Gemini kullanılarak çıkarılan Markdown'a çok spesifik alternatif metin ekleniyor
    • Gemini Flash'tan 2-3 kat daha pahalı, ancak performans artışı önemli görülüyor
  • VLM OCR'ın neden halüsinasyon ürettiğine dair kısa bir açıklama arayanlar var