MicrosoftがWordやPowerPoint、Excel等のファイルをMarkdownに変換できるMarkItDownライブラリを公開しています。詳細は以下から。
Microsoftは現地時間2024年12月12日、PDFに加えWordやPowerPoint、ExcelなどのOfficeファイルをMarkdownフォーマットのファイルへ変換できるPythonライブラリ「MarkItDown」を新たに公開しています。
Python tool for converting files and office documents to Markdown.[…]The MarkItDown library is a utility tool for converting various files to Markdown (e.g., for indexing, text analysis, etc.)
microsoft/markitdown: Python tool for converting files and office documents to Markdown. – GitHub
Microsoft Human-AI eXperiences(HAX)グループのAdam Fourneyさんは、現在担当しているAIツール「AutoGen」を開発していくうえで、PDFやOfficeファイル、Webサイトをテキストベース(Markdown)にするために「MarkItDown」を開発したようで、
If you would like the page text, try our new WebSurfer: https://t.co/9jztQ2cpLE
It converts pages to markdown. Full page content is available as well as just the virtual viewport (which can be paged).
This also handles local file browsing, PDFs, office docs, etc.
— Adam Fourney (@adamfourney) March 21, 2024
MarkItDownはオープンソースのドキュメントコンバーター「Pandoc」ほどのフォーマットはサポートしていないものの、PDFやWord(.docx)、Excel(.xlsx)、PowerPoint(.pptx)の他に、画像や音声、HTML(Wikipediaの特殊処理を含む)、csvやjson, xmlなどのテキストファイルに対応しており、
利用するにはPython環境が必要ですが、オープンソース(MIT License)で公開されているためReplitのMatt PalmerさんらがWebツール「msftmd」として公開しているので、気になる方は試してみてください。
NEW: Microsoft just dropped a library for converting Office files to markdown.
It's super fast and easy to use.
I built an app for you to try it out. Here it is converting a boilerplate pptx. pic.twitter.com/NrG6C5DCaq
— matt palmer (@mattppal) December 13, 2024
コメント