Microsoftがプラグインの対応やメモリ内変換、EPUBフォーマットをサポートしたOfficeキュメントなどをMarkdownに変換できるライブラリ「MarkItDown v0.1.0」をリリースしています。詳細は以下から。
MicrosoftのHuman-AI eXperiences(HAX)グループのAdam Fourneyさんは2024年12月、AIを開発していく上で必要なPDFやOfficeファイル、Webサイトに記載されている情報をテキストベース(Markdown)へ変換するため、様々なファイルをMarkdownフォーマットへ変換する「MarkItDown」というPythonツール/ライブラリを公開しましたが、このMarkItDownがv0.0.2から大型アップデートされ「MarkItDown v0.1.0」としてリリースされています。
Version 0.1.0 (previously 0.1.0a6) is a large release, bringing many improvements over the previous 0.0.2 version.
リリースノートより抜粋
MarkItDown v0.1.0ではフォーマットの依存関係が整理され、PDFやDOCX, PPTX, XLSXなど必要なコンバーターのみをインストールすることが可能になり*Markdownへの変換処理をメモリ内で行うようになったほか、新たにEPUBフォーマットの変換がサポートされています。
また、同バージョンではサードパーティ開発者によるプラグインの開発、データURIをMarkdown内に保持するオプションやMIMEタイプ、拡張子、文字セットのオーバーライドオプションが追加され、数多くの修正が行われているので、MarkItDownを利用したWebサービスやツールを開発されている方はチェックしてみてください。

MarkItDown v0.1.0のオプション
MarkItDown v0.1.0
Overview
Version 0.1.0 (previously 0.1.0a6) is a large release, bringing many improvements over the previous 0.0.2 version.
High-level changes include:
- Organized dependencies into feature groups — install only the converters you need, or get everything with pip install markitdown[all]
- A new plugin-based architecture, allowing 3rd-party developers to add functionality to MarkItDown (see the sample plugin)
- All conversions are performed in-memory — no more temporary files
- Support for new formats including EPUB
- Option to keep data URIs in converted Markdown
- Option to override MIME type, extension, and charset in the command-line interface (useful when reading input from a pipe or stdin)
コメント