- PDF hâlâ ana akım belge formatı → LLM arama performansında kısıtlar var
- Microsoft açık kaynaklı markitdown ile PDF→Markdown dönüşümü deneyi
- Formüller ve düzen bozulması gibi sınırlamalar var, LLM düzeltmesiyle okunabilirlik iyileştiriliyor
- Tek sütunlu, metin odaklı PDF'ler için uygun; karmaşık belgelerde kısıtlı
5 yorum
RAG'de de bu PDF belgeleri yüzünden her zaman sorun yaşanıyor.
En kötü format, PDF
markitdown formatlar arası dönüşümde kullanışlı ama PDF için asla kullanılmamalı bence
Belge çıkarma tarafında Gemini gibi multimodal LLM kullanan yöntemler zaten epey var ve benchmark sonuçlarında da oldukça iyi görünüyorlar. Ancak maliyet sorun oluyor.
doclinggibi şeyler de iyi.doclingde iyi.markitdown, PDF ayrıştırma için https://github.com/pdfminer/pdfminer.six bunu kullanıyor ve metin ya da gömülü görselleri dosyadan olduğu gibi çıkarıyor. OCR demek bile baş döndürücü...