Microsoft MarkItDown - Dosya ve Office belgelerini Markdown'a dönüştüren Python aracı
(github.com/microsoft)- Çeşitli dosyaları Markdown'a dönüştüren yardımcı araç
- Desteklenen formatlar:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Görseller (EXIF meta verisi ve OCR), ses dosyaları (EXIF meta verisi ve konuşmayı metne dönüştürme)
- HTML (özellikle Wikipedia vb. için özel işleme) ve diğer çeşitli metin tabanlı formatlar (csv, json, xml vb.)
- API kullanımı basittir:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 yorum
Vay, demek ki bunu Microsoft içinde de açık kaynak haline getirmeyi düşünüyorlar galiba?
Hacker News görüşleri
uvyüklüyse, dosyalar için ayrıca kurulum yapmadanuvx markitdown path-to-file.pdfkomutuyla çalıştırılabiliyorİş yerinde dosyaları LLM dostu metne dönüştüren bir özellik geliştirme deneyimi olmuş
Birçok startup ve açık kaynak proje bu alanı karmaşık hale getiriyor, ancak nihai hedef anlaşılması ve dağıtılması kolay, basit bir proje
PDF işlemede "ne kadar işlem istediğinizi" ayarlayabilen bir özellik olması güzel olurdu
PDF işleme açısından PDFMiner'ı doğrudan entegre etmek daha iyi olabilir
.docxdosyaları Pandoc kullanılarak Markdown'a ve diğer dosya biçimlerine dönüştürülebilirKarmaşık görsel düzenlere ve çok sayıda tabloya sahip, PDF biçimindeki tabletop RPG kitaplarını indeksleme deneyimi paylaşılmış
README'de LLM'den hiç bahsedilmemesi beklenmedik ama olumlu
Çevrim içi dil dersinde ödevin Slack üzerinden teslim edildiği bir deneyim paylaşılmış
.mddosyası olarak gönderilmiş, ancak öğretmen bunu anlayamamışdocling ile karşılaştırma merakı var
Markdown'dan PDF veya
.docx'e dönüştürmek için iyi bir kütüphane olup olmadığı merak ediliyorMicrosoft söz konusuysa, Outlook HTML ve
.docxiçin yaklaşık yarı yarıya düzgün sonuç verebilir