27 puan yazan GN⁺ 2025-07-23 | 1 yorum | WhatsApp'ta paylaş
  • Karmaşık belgelerden bilgi çıkarmak için kullanılan geleneksel OCR ve ayrıştırma yaklaşımları, anlamı çoğu zaman doğru biçimde koruyamıyor
  • Morphik, ColPali modeli tabanlı görsel belge gömmeleri yaklaşımıyla tabloları, grafikleri ve sayfa düzeni bağlamını doğrudan anlayan bir yöntem hayata geçiriyor
  • Mevcut boru hatlarına kıyasla bu yöntem, doğruluk ve bilgi korunumu açısından açık ara üstün; benchmark testlerinde %95,56'ya kadar doğruluk elde ediyor
  • Ayrıca MUVERA ve Turbopuffer kullanımıyla büyük ölçekli belge aramada hız artışı sağlanmış durumda
  • Gelecek hedefi ise çok belgeli akıl yürütme, iş akışı entegrasyonu ve uzman düzeyinde yorumlama gibi gerçek belge işi otomasyonu

Karmaşık belge ayrıştırmanın sınırları ve RAG'in zorluğu

  • Grafiklerin, diyagramların ve tabloların iç içe geçtiği karmaşık PDF belgelerden bilgi çıkarmaya çalışırken, OCR ve ayrıştırma boru hatları istenen bilgiyi sık sık kaybediyor
  • İç içe tablolar, önemli diyagramlar, yoğun açıklamalı teknik belgeler, hatta metinsiz kılavuzlar gibi gerçek senaryolarda mevcut boru hatlarının sınırları açıkça görülüyor
  • Geleneksel boru hattının adımları:
    • PDF'ye OCR uygulama (sayıları veya harfleri yanlış okuyabilir)
    • Yerleşim algılama modeli ile tablo/diyagram ayrımı yapmaya çalışma (başarısızlık olasılığı yüksek)
    • Okuma sırasını yeniden kurma (görsel akış kaçabilir)
    • Diyagram başlıklarını tanıma (nüanslar sık sık kaybolur)
    • Metni parçalara ayırma (ilişkili bilgiler bölünebilir)
    • Vektör gömmeleri üretme ve vektör DB'ye kaydetme (konum bilgisi ve bağlam kaybolur)
  • Örnek: Basit bir tablo bile 1,000 değerini l,0O0 olarak okuyabiliyor ya da tablo ile üstbilgi ayrıldığı için toplam hesaplaması başarısız olabiliyor
  • Grafik lejandını gövde metni sanma, yüzde değerlerinin ilgisiz yerlere dağılması gibi gerçek bilgi kaybı vakaları sık yaşanıyor

Yeni yaklaşım: görsel tabanlı belge anlayışına geçiş

  • Morphik ekibi, "Belgeyi insanlar gibi görsel bir nesne olarak anlarsak ne olur?" sorusundan hareketle dönüşüm noktasını bulmuş
  • Güncel araştırmalar (ColPali) ve Vision Language Model(VLM) alanındaki gelişmeler sayesinde, görseller doğrudan gömülerek ayrıştırma veya OCR olmadan belgenin tüm bağlamı ve görsel bilgisi korunabiliyor
  • Her belge sayfası yüksek çözünürlüklü görsel olarak işleniyor ve yama düzeyinde bölünerek hem görsel hem metinsel bilgiyi yansıtan gömmeler oluşturuluyor
  • SigLIP-So400m Vision Transformer görsel yama gömmelerini üretirken, PaliGemma-3B dil modeli belge yapısını anlıyor
  • Sorgular için (ör. "Q3 gelir trendi"), metin, grafik, tablo ve renk gibi çeşitli görsel ipuçlarını da içeren late interaction arama yöntemiyle ilgili bilgi doğru biçimde çıkarılıyor
  • Belge içindeki konum, yerleşim, renk, grafik değişimleri gibi tüm görsel bilgiler korunuyor — bu, insanın belgeye tek bakışta anlam vermesine benziyor

Geleneksel ayrıştırma ile ColPali yaklaşımının karşılaştırması

  • Mevcut ayrıştırma tabanlı boru hatlarında her aşamada bilgi kaybı yaşanıyor; ayrıca metin ve görsel gömmeler ayrı tutulduğu için belge içindeki mekânsal ilişkiler yorumlanamıyor
  • Buna karşılık ColPali yaklaşımı, tüm bilgiyi tek bir görsel gömme uzayında birleştirerek belgenin genel anlamını ve bağlamını koruyor
  • Gerçek benchmark'larda (özellikle finans belgeleri, açık veri kümeleri) Morphik (ColPali tabanlı) %95,56'ya kadar doğruluk kaydetti (mevcut LangChain+OpenAI text-embedding %72, OpenAI file search ise yalnızca %13,33)
  • ViDoRe benchmark'ında görsel tabanlı yaklaşım, mevcut ayrıştırma yöntemlerine göre nDCG@5 ölçütünde 14 puandan fazla daha yüksek performans gösterdi

Performans optimizasyonu ve gerçek kullanım

  • İlk yaklaşımın dezavantajı, hesaplama yüküne bağlı hız düşüşüydü; her yama için vektör araması gerektiren yapı saniyede on milyonlarca sorgu için uygun değildi
  • MUVERA makalesinden yararlanılarak, çoklu vektör aramasını tek vektör aramasına dönüştüren bir yöntem (sabit boyutlu kodlama) benimsendi
  • Turbopuffer odaklı vektör DB ile birleştirilince sorgu hızı 3-4 saniyeden 30ms seviyesine indirildi
  • Böylece mevcut metin ayrıştırmaya kıyasla çok daha yüksek hızla milyonlarca belge üzerinde arama yapılabilir hale gelindi

Kullanım alanları ve kolay API sunumu

  • Farklı belge türlerinde, görsel yapı ve bilgi kaybı olmadan yüksek doğruluklu arama desteği sunuluyor
    • Karmaşık tablo ve grafiklerin kritik olduğu finans belgeleri
    • Çizim ağırlıklı teknik kılavuzlar
    • Fatura ve fişlerde yerleşim tabanlı bilgi çıkarımı
    • Akademik makalelerdeki görsel ve sayısal materyallerin anlaşılması
    • Tıbbi kayıtlarda yerleşim temelli ilişki tanıma
  • API, belge yüklendikten sonra doğal dille sorgulama yapılabilen çok basit bir yapıya sahip; örneğin "10 bin doların üzerinde ceza maddesi içeren tüm sözleşmeleri göster" gibi istekleri destekliyor

Gelecek yönü: çok belgeli zeka ve daha derin anlayış

  • Çok belgeli zeka: Belgeler arasında çapraz referans ve bilgi izleme işlevleri geliştiriliyor
    • Tek belge aramanın ötesinde, birden çok belge arasındaki ilişkileri izleme ve akıl yürütme (ör. sözleşme maddesi → düzenleyici belge → uygulama kılavuzu bağlantısı) desteklenecek
  • Ajan anlayış sistemi: Belge içinde basit soru-cevabın ötesinde, madde çıkarımı → başka belgede doğrulama → ayrıntı çapraz kontrolü gibi parçalar arası mantıksal akıl yürütmenin otomasyonu hedefleniyor
  • İş akışı entegrasyonu: Birden fazla sözleşme arasındaki koşulları karşılaştırma, teknik kararların geçmişini izleme gibi gerçek iş süreçlerine uygun belge otomasyonu zekâsı geliştiriliyor

Sınırlar ve bundan sonraki hedefler

  • Mevcut yaklaşım henüz uzman düzeyinde yorumlama ve bağlamsal muhakeme seviyesine ulaşmış değil
  • Finans uzmanının derinlemesine yorumuna benzer alanlarda teknoloji hâlâ yetersiz; ayrıca güvenilirlik ve belirsizlik nicemlemesi gibi kurumsal gereksinimler için ek geliştirme gerekiyor
  • Görsel anlayış ile alan bilgi grafiklerinin birleştirilmesi, nedensellik akıl yürütmesi ve güvenilirlik göstergeleri sunulması başlıca gelecek görevleri arasında

Sonuç

  • Belgeler, görsel bilgi nesneleri olarak ele alınmalı; ayrıştırmanın sınırlarını aşan görsel tabanlı belge anlayışı, RAG ortamında daha üstün bir çözüm sunuyor
  • Morphik, belge bilgi çıkarımında yeni bir standart ortaya koymayı ve karmaşık belge iş akışı otomasyonunu gerçek iş kullanımına taşımayı hedefliyor
  • Ayrıntılı özellikleri denemek için morphik.ai adresi ziyaret edilebilir

1 yorum

 
GN⁺ 2025-07-23
Hacker News yorumu
  • İnsanların mutlaka bilmesi gereken birkaç temel sorun var
    LLM'ler genelde önce 4k metin token'ı üzerinde önceden eğitiliyor, sonra daha uzun bağlam pencerelerine genişletiliyor (4000'den 4001'e gitmek kolay ama görseller farklı tokenlaştırıldığı için bu mümkün değil)
    Sonuç olarak dağılım dışına çıkılıyor ve iki üç görselden fazlası işlendiğinde halüsinasyon sorunu ciddi biçimde ortaya çıkıyor
    1536×2048 çözünürlüklü bir PDF, metne kıyasla 3 ila 5 kat daha fazla token kullandığı için çıkarım maliyetini artırıyor ve yanıtları yavaşlatıyor
    Düşük çözünürlüğe inince görsel bulanıklaşıyor
    Görseller ham boyut olarak da ağır olduğu için yalnızca gerekli görselleri indirmek bile her isteğe ek gecikme ekliyor
    Küçük benchmark'larda, grafik ve tablo yoğun finans belgelerinde bunun temel metin chunking yaklaşımından doğal olarak daha iyi çalıştığı görülüyor
    Ben şahsen Gemini benzeri şekilde OCR ile görsel anotasyonu yapılabilmesini ve sonuçların karşılaştırılmasını görmek isterdim
    Uçtan uca görsel yaklaşımı özel durumlarda (patentler, mimari diyagramlar vb.) anlamlı olabilir ama gerçekten son çare

    • Geleneksel OCR ile LLM'i birleştirip hem hataları düzeltebilmek hem de diyagramları ifade edebilmek güzel olur diye düşünüyorum
      LLM'lerin okuyamadığı kısımlarda kulağa makul gelen metin uydurma sorunu var ve bu da sonucu daha da kötüleştirebilir
      Örneğin GPT4.1, 1296×179 boyutundaki bir ekran görüntüsünde kusursuz çalıştı ama %50 küçültülüp 650×84 olarak verildiğinde "Pdf's at 1536 × 2048 use 3 to 5X more tokens" ifadesini "A PNG at 512x 2048 is 3.5k more tokens" diye geri döndürdü
      Çoğunu doğru yapıyor ama böyle ince ayrıntıların değişmesi konusunda dikkatli olmak gerek
    • gemma3 gibi yeni modeller, pan & scan, farklı çözünürlüklerde eğitim gibi yaklaşımlar bu sorunları hafifletiyor
      gemma3 ailesinin ilginç özelliği, giriş görselinin boyutu artsa bile işlem için gereken bellek ihtiyacının artmaması
      Çünkü ikinci aşama encoder bunu sabit boyutlu token'lara sıkıştırıyor
      Pratikte oldukça faydalı
    • Gemini'ye OCR eklerseniz mevcut OCR modellerinden daha iyi sonuç beklerim
      Ama bunu yaptığınızda işlenen tüm belge kümesi zorunlu olarak büyük bir VLM'den geçmek zorunda kalıyor
      Bu da fazla pahalı ve yavaş olabilir
      Burada net bir trade-off var
      Çoğu durumda mevcut yaklaşım en etkili olanıydı
    • Zaten onların sunduğu document parse ürününün rolü de bu
      İnsanlar her şeyi LLM'e koyabiliyor ama bu her durumda uygun olmayabilir
      Her şeyi mutlaka LLM ile çözmek gerekmiyor
    • Mantığa katılıyorum
      Bunun RAG pipeline'ını değiştirecek bir fikre genişleyebileceğini düşünüyorum
      Her bir RAG sonucu için, model işleme aşamasında görselden kullanıcı sorgusuyla doğrudan ilgili bilgiyi çıkarıp bu (metin) sonuçları toplayarak son üretimin girdisi yapılabilir
      Böylece çoklu görsellerdeki token sınırı aşılabilir ve görsel anlama süreci paralelleştirilebilir
  • Ben ve çalışma arkadaşlarım bunu 6 ay önce Fransız kamu kurumları için uygulamaya çalıştık
    Bunu açık kaynak olarak burada paylaştık: https://github.com/jolibrain/colette
    Ana işimiz bu değil ve şu an pek ilgilenmiyoruz ama biraz ayarlamayla oldukça verimli çalışıyor
    Asıl güzel tarafı, tüm pipeline'ın tamamen diferansiyellenebilir hale getirilip belirli veri kümelerine özel viz rag fine-tune edilebilmesi
    Layout modeli de özelleştirilerek hassas belge anlama sağlanabiliyor

    • En üstte lisans olmadığı için lisans hassasiyeti olanlar için pratikte yalnızca bakılabilecek ama kullanılamayacak bir durumda
    • Fine-tuning'in gerçekten en iyi kısım olduğuna katılıyorum
      Genelde en büyük engel, yüksek kaliteli bir değerlendirme setine ihtiyaç duyulması oluyor (ki bu hep bir engel)
  • OCR ile görsel + genel amaçlı LLM kıyaslamasına dair birçok benchmark yaptık: https://getomni.ai/blog/ocr-benchmark
    Görselden doğrudan çıkarım yapmanın en büyük sorunu çok sayfalı belgeler
    Tek sayfada (OCR=>LLM vs Image=LLM) karşılaştırmasında doğrudan görsel yaklaşımı az farkla daha iyiydi ama 5'ten fazla görseli geçince doğruluk, önce OCR kullanan yaklaşıma kıyasla keskin biçimde düşüyor
    Aslında metinde uzun bağlam geri çağırma da zor bir problem ama LLM'ler buna göre optimize edilmiş durumda; görsel uzun bağlam geri çağırma ise hâlâ oldukça zayıf

    • Çoğu gerçek kullanım senaryosunda 5 sayfadan fazla bağlam zaten gereğinden fazlaydı
      Görselden hemen sonra küçük bir LLM dönüşüm katmanı eklemek de oldukça etkili oluyor (yani doğrudan OCR yapmak yerine, aynı anda 5 görseli küçük bir vision model'e verip belgenin en önemli noktalarını çıkarmak gibi)
      Şu anda daha büyük görsel batch'lerinin iyi çalışması için LLM cache'i veya attention map'lerini değiştirmeyi araştırıyoruz
      Sliding window ya da sonsuz retrieval gibi yaklaşımlar umut verici görünüyor
      Kişisel tahminim, multimodal modellerdeki gelişim hızına bakınca görsel uzun bağlamın yakında büyük bir sorun olmaktan çıkacağı yönünde
  • Bu blog yazısı retrieval için vision model kullanımı hakkında iyi noktalara değiniyor ama birkaç soruna dikkat çekmek istiyorum

    1. Blog, indexing/retrieval ile document parsing'i karıştırıyor
      Document parsing, bir belgeyi Markdown/JSON'a (veya çıkarım içinse şemaya uygun bir çıktıya) dönüştürme işi
      Bunun bir kullanım alanı RAG ama başka birçok kullanım da var
      ColPali retrieval için harika ama (en azından yerleşik olarak) saf document parsing için kullanılamaz
      Yazar ağırlıklı olarak görsel retrieval benchmark'larından söz ediyor
    2. Sayfa ekran görüntüleriyle DIY document parsing zaten uzun süredir konuşulan bir yöntem
      Çoğu zaman standart OCR'den daha iyi çalışıyor ama
      a. hâlâ uzun kuyruk doğruluk sorunları var
      b. confidence score, bounding box gibi metadata eksik kalıyor
      c. ekran görüntüsü pipeline'ının kendisi de olgunlaştırılmak istenirse emek gerektiriyor
    3. Genel olarak retrieval için hem metin hem görsel temsiline ihtiyaç var
      Görsel token'ları çok daha güçlü ama metin token'larının saklama maliyeti çok daha düşük olduğu için retrieval sırasında tüm belge üzerinde sorgu yapılabiliyor (chunk düzeyinde değil)
      (Not: ben llamaindex CEO'suyum ve LlamaCloud ile hem parsing hem retrieval yaptım; bu sadece genel bir bakış açısı)
  • Geçen yıl patent belgelerini analiz eden bir sistem kurmak için epey zaman harcadım
    Patentlerde soyut diyagramlar, kimyasal formüller, matematiksel ifadeler gibi çok çeşitli içerikler bulunduğundan veriyi LLM'e uygun hale getirmek gerçekten zor
    Bulduğum en basit yöntem, her sayfayı adeta "fotoğrafını çekmiş" gibi dönüştürüp ardından LLM'den içeriği açıklayan bir JSON ve metadata (sayfa numarası, görsel öğe sayısı vb.) üretmesini istemekti
    Karmaşık görselleri de modele tarif ettirebilirsiniz
    Böylece ortaya çıkan JSON'u istediğiniz vector store'a kolayca embed edebilirsiniz
    Maliyet-etkinliği değerlendirmek zor ama bu yaklaşım, yazarın önerdiğinden daha basit ve daha etkiliydi

    • Modele görseli anlattırabilirsiniz ama bu başlı başına ciddi bir kayıp oluşturuyor
      Örneğin model bir grafikten x, y çiftlerinin çoğunu doğru çıkarsa bile kullanıcı belirli bir x/y değerini sorarsa bunu atlayabilir
      Görseli doğrudan modelin çıkarım aşamasında gösterirseniz, kullanıcı ne sorarsa ona tam karşılık verebilir; bu yüzden bu yaklaşım daha etkili
      Buradaki tek gerçek engel retrieval kalitesi ve bu nispeten küçük bir sorun
      Yani uygun bağlamı iletmek yeterince iyi yapılırsa gerisini LLM halleder
      Aksi halde OCR, parsing, görsel betimleme gibi çözülmesi gereken sorunlar hızla çoğalıyor
    • Bunun iyi bir LLM kullanım örneği olduğunu düşünüyorum
      Ama aynı zamanda LLM fırsatının mevcut değeri (örneğin patent belgeleri) yeniden sınıflandırma / yeniden işleme alanlarında yoğunlaştığını gösteriyor
      90'lar ve 2000'lerde yazılım şirketleri mevcut kâğıt evrakı veritabanına çevirerek başarılı oldu
      Sıfırdan yeni ve değerli veri kümeleri oluşturmak ise hâlâ ciddi yatırım ve emek gerektiriyor
    • Modelin görselleri halüsinasyonla yanlış yorumladığı durumlar ne sıklıkta oldu, merak ediyorum
  • Deneyimime göre bu yaklaşım pek iyi değil
    Fonta bağlı olarak o harfi ile 0 rakamını ayırt etmek zor
    Belgeyi (doc/xls/pdf/html) görsele çevirdiğinizde bu ayrım bilgisi kayboluyor
    Seri numarası gibi şeylerde insanlar bile bazen bakıp ayırt edemeyebilir

    • PDF'ler her zaman gerçek metin içermez; bazen karakterleri adeta çizim gibi işler
      Bu yüzden PDF için görsel render alıp oradan çıkarmaya çalışmak oldukça makul
      Diğer formatlarda ise belgeyi doğrudan parse etmek daha iyi
    • Buradaki bağlam, OCR alternatifi olarak görsel kullanmak; OCR'de de benzer sorunlara ek olarak daha karmaşık altyapı ve maliyet var
    • HTML için etiketlere göre chunking yapmak çoğu zaman daha iyi sonuç verir
      Yine de pratikte sayfa tasarımı yaparken gerçek görseli modele göstermek, yalnızca kodu vermekten çok daha etkili bir debug yöntemi oluyor
      1 ile I, 0 ile O sorunu gerçekten var ama verinin kendisinde diyagram ve grafik yoğunluğu yüksek belgelerde yalnızca görsellerle çok daha kolay ilerlediğim çok oldu
      (Burada seçim yanlılığı olabilir)
  • Gemini'ye bir programı kopyalayıp sorgulatmaya dakikalarca uğraştım ama HTML olsa bile düzgün çalışmadı
    Sonunda ekran görüntüsü alıp gereksiz kısımları siyah kutularla kapatıp görsel olarak verince çok iyi çalıştı

  • Multimodal RAG ile bu sorunun zaten çözülmüş gibi görünmesi nedeniyle merak ediyorum
    Flash 2.5, Sonnet 3.7 gibi modellerle görsel analizde oldukça tatmin edici sonuçlar aldım
    Hatta metne kıyasla görsel verdiğimde daha iyi yanıtlar aldığımı hissediyorum
    https://www.youtube.com/watch?v=p7yRLIj9IyQ

    • Multimodal RAG tam olarak savunduğumuz yön
      Ancak ilk hâliyle multivektor yaklaşımı (multimodal RAG'in temeli) kullanması çok zor ve benzerlik hesapları çok pahalı olduğu için ölçeklenmesi güç
      Quantization, tek vektöre dönüştürme (sabit boyutlu encoding), indexing optimizasyonu gibi şeyler gerekiyor
      Morphik'te yaptığımız iş tam da bu
  • Ben de tüm faturaları topluca taramaya çalıştım; posta kutumdan ekleri çıkarıp tek tek yükleyen bir script çalıştırdım ve her belge için "fatura: evet/hayır" ile birlikte satır kalemlerini, satıcı adını, tarihi, fatura numarasını vb. çıkarmasını istedim
    Sonuçta okuma başarısı yüksekti ve LLM çağrıları 3 saatten fazla sürdü ama otomasyon olduğu için önemsemedim
    Sonrasında banka ekstreleriyle eşleştirmeyi de LLM'e yaptırdım; yalnızca ek olarak gelmeyen bazı faturalar kaçtı
    Ama fatura-ekstre eşleştirmesini LLM oldukça kötü yaptı (birkaç dolarlık fark olsa bile bunu aynı ekstre diye işaretliyordu)
    Bu yüzden şimdilik hâlâ bir muhasebeciye ihtiyaç var gibi görünüyor
    Maliyeti çok dikkatli hesaplamadım; Claude 3.7 gibi ucuz bir model kullandım

    • Bu tür basit veri eşleştirme işlerinde, LLM'in doğrudan eşleştirme yapmasındansa eşleştirme kodunu yazdırıp onu çalıştırmak daha doğru olabilir
  • ColPali'nin sezgisel ve güçlü tarafını anlıyorum ama yine de belge işleme yaklaşımının kendi avantajları var

    • BM25, TFIDF gibi sözcük temelli arama yöntemleri belirli terimleri çok daha iyi yakalar
    • Tüm gövde metninde arama yapılabilir