8 puan yazan GN⁺ 2025-04-04 | 1 yorum | WhatsApp'ta paylaş
  • OCR performansını analiz eden Omni OCR benchmark’ında, yakın zamanda piyasaya çıkan Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324, mistral-ocr gibi modeller de karşılaştırıldı
  • Qwen 2.5 VL 72B/32B modelleri en yüksek doğruluk oranına ulaştı
    • Her ikisi de yaklaşık %75 doğruluk ile GPT-4o seviyesinde performans gösterdi
    • Qwen 72B, 32B’ye kıyasla %0,4 daha yüksek doğruluk kaydetti; pratikte hata payı içinde benzer performans sergiliyorlar
  • İki Qwen modeli de mistral-ocr’un (%72,2) performansını geçti
    • mistral-ocr, OCR için özel olarak eğitilmiş bir model olmasına rağmen Qwen’in gerisinde kaldı
  • Gemma-3 (27B) modeli %42,9 gibi düşük bir doğruluk gösterdi
    • Gemini 2.0 mimarisine dayanmasına rağmen düşük performans sergilemesi biraz şaşırtıcı bir sonuç oldu

Omni OCR Benchmark

  • OCR ve veri çıkarma yeteneklerini karşılaştıran bir benchmark aracı olarak, GPT-4o gibi büyük multimodal modellerin metin ve JSON çıkarma doğruluğunu değerlendiriyor
  • Bu benchmark’ın amacı, geleneksel OCR sağlayıcıları ve multimodal dil modelleri genelinde OCR doğruluğuna dair kapsamlı bir benchmark yayımlamak
  • Değerlendirme veri kümesi ve metodoloji tamamen açık kaynak olarak sunuluyor ve bu benchmark’ın ek sağlayıcıları da kapsayacak şekilde genişletilmesi teşvik ediliyor

1 yorum

 
GN⁺ 2025-04-04
Hacker News görüşleri
  • 32b’nin çıktısı daha insan dostu görünüyor, matematiksel akıl yürütmesi daha iyi ve ince ayar işlevleri ayrıntılı anlamayı desteklemede faydalı görünüyor
  • Qwen2.5-VL-72b iki ay önce yayımlandı ve el yazısı tanıma hakkında coşkulu yorumlar vardı
    • Bu model, yapay zekaya dair kuşkuculuğu ve memnuniyetsizliği aşmamı sağlayan ilginç bir sürümdü
    • Sürüm notları iyi düzenlenmiş ve blog yazısı da harika
  • Qwen’in HTML çıktısı ilginçti
    • Görsel geri bildirimi hızlıca oluşturmak veya yapılandırılmış veriyi kolayca kullanmak için HTML biçiminde sınır kutuları sağlıyor
    • Geleneksel OCR, sınır kutusu koordinatları sağlama konusunda LLM’lere göre büyük bir avantaja sahip
  • %95’in üzerinde doğruluğa ulaşılana kadar insan tarafından çift kontrol ve düzeltme gerekiyor; sınır kutuları olmadan bu gerçekçi değil
  • LM Studio üzerinden Qwen2.5-VL-32b-Instruct -8bit için MLX sürümünü indiriyorum ve bunu bir OCR yan projesinde kullanmayı planlıyorum
  • Maliyet ve gecikmeyi doğruluğun yanında ölçtülerse, bu sonuçları da paylaşabilirler mi diye merak ediyorum
  • Gemini’nin OCR yetenekleri beni hâlâ şaşırtıyor ve Qwen hızla gelişiyor
  • Farklı görevleri yapmak için çeşitli modelleri karşılaştırıyorum; Qwen’in en yeni modeli öncekilere göre çok daha kararlı ve ince ayarı daha kolay
  • OpenAI’ın OCR performansı uzun süredir iyileşmedi; bu tuhaf ve sinir bozucu
  • Qwen 2.5 VL 72b, genel görsel anlama alanında Gemini’yi geride bırakıyor ve yerelde çalıştırılabiliyor
  • macOS üzerinde OCR API ile deneyler yapıyorum ve bunu bu LLM’lerle karşılaştırmak istiyorum
  • Tesseract, el yazısı dışında her şeyde %99 doğruluğa ulaşabiliyor
  • LLM kullanmanın gerçekten bir avantajı olup olmadığını merak ediyorum
  • Qwen’in test sonuçlarından çok etkilendim ve insanların bunu hafife aldığını düşünüyorum
  • Birden fazla dosyayı tek bir prompt ile işlemek için LLM arayüzünü nasıl yapılandırdıklarını merak ediyorum
  • Tyler ve ekibinin harika işi