Microsoft、WordやPowerPoint、ExcelなどOfficeファイルをMarkdownファイルに変換できる「MarkItDown」ライブラリを公開。

MicrosoftのMarkItDownはOfficeドキュメントをMarkdownフォーマットへ変換してくれるPythonツールです Microsoft for Mac
記事内に広告が含まれています。
スポンサーリンク

 MicrosoftがWordやPowerPoint、Excel等のファイルをMarkdownに変換できるMarkItDownライブラリを公開しています。詳細は以下から。

Word for Mac

 Microsoftは現地時間2024年12月12日、PDFに加えWordやPowerPoint、ExcelなどのOfficeファイルをMarkdownフォーマットのファイルへ変換できるPythonライブラリ「MarkItDown」を新たに公開しています。

MicrosoftのMarkItDownはOfficeドキュメントをMarkdownフォーマットへ変換してくれるPythonツールです

Python tool for converting files and office documents to Markdown.[…]The MarkItDown library is a utility tool for converting various files to Markdown (e.g., for indexing, text analysis, etc.)

microsoft/markitdown: Python tool for converting files and office documents to Markdown. – GitHub

 Microsoft Human-AI eXperiences(HAX)グループのAdam Fourneyさんは、現在担当しているAIツール「AutoGen」を開発していくうえで、PDFやOfficeファイル、Webサイトをテキストベース(Markdown)にするために「MarkItDown」を開発したようで、

MarkItDownはオープンソースのドキュメントコンバーターPandocほどのフォーマットはサポートしていないものの、PDFやWord(.docx)、Excel(.xlsx)、PowerPoint(.pptx)の他に、画像や音声、HTML(Wikipediaの特殊処理を含む)、csvやjson, xmlなどのテキストファイルに対応しており、

MicrosoftのMarkItDownはOfficeドキュメントをMarkdownフォーマットへ変換してくれるPythonツールです。

MarkItDownで変換したMarkdownファイル

利用するにはPython環境が必要ですが、オープンソース(MIT License)で公開されているためReplitのMatt PalmerさんらがWebツールmsftmdとして公開しているので、気になる方は試してみてください。

コメント

タイトルとURLをコピーしました