Python tool for converting files and office documents to Markdown.[…]The MarkItDown library is a utility tool for converting various files to Markdown (e.g., for indexing, text analysis, etc.)
microsoft/markitdown: Python tool for converting files and office documents to Markdown. – GitHub
Microsoft Human-AI eXperiences(HAX)グループのAdam Fourneyさんは、現在担当しているAIツール「AutoGen」を開発していくうえで、PDFやOfficeファイル、Webサイトをテキストベース(Markdown)にするために「MarkItDown」を開発したようで、
If you would like the page text, try our new WebSurfer:
It converts pages to markdown. Full page content is available as well as just the virtual viewport (which can be paged).
This also handles local file browsing, PDFs, office docs, etc.
— Adam Fourney (@adamfourney) March 21, 2024
MarkItDownはオープンソースのドキュメントコンバーター「Pandoc」ほどのフォーマットはサポートしていないものの、PDFやWord(.docx)、Excel(.xlsx)、PowerPoint(.pptx)の他に、画像や音声、HTML(Wikipediaの特殊処理を含む)、csvやjson, xmlなどのテキストファイルに対応しており、

利用するにはPython環境が必要ですが、オープンソース(MIT License)で公開されているためReplitのMatt PalmerさんらがWebツール「msftmd」として公開しているので、気になる方は試してみてください。
NEW: Microsoft just dropped a library for converting Office files to markdown.
It's super fast and easy to use.
I built an app for you to try it out. Here it is converting a boilerplate pptx.
— matt palmer (@mattppal) December 13, 2024