Microsoft、プラグインの対応やメモリ内変換、EPUBフォーマットをサポートしたOfficeキュメントなどをMarkdownに変換できるPythonツール「MarkItDown v0.1.0」をリリース。

MarkItDown v0.1.0 仕事効率化
記事内に広告が含まれています。This article contains advertisements.
スポンサーリンク

 Microsoftがプラグインの対応やメモリ内変換、EPUBフォーマットをサポートしたOfficeキュメントなどをMarkdownに変換できるライブラリ「MarkItDown v0.1.0」をリリースしています。詳細は以下から。

Microsoft Office

 MicrosoftのHuman-AI eXperiences(HAX)グループのAdam Fourneyさんは2024年12月、AIを開発していく上で必要なPDFやOfficeファイル、Webサイトに記載されている情報をテキストベース(Markdown)へ変換するため、様々なファイルをMarkdownフォーマットへ変換する「MarkItDown」というPythonツール/ライブラリを公開しましたが、このMarkItDownがv0.0.2から大型アップデートされ「MarkItDown v0.1.0」としてリリースされています。

MarkItDown v0.1.0

Version 0.1.0 (previously 0.1.0a6) is a large release, bringing many improvements over the previous 0.0.2 version.

リリースノートより抜粋

 MarkItDown v0.1.0ではフォーマットの依存関係が整理され、PDFやDOCX, PPTX, XLSXなど必要なコンバーターのみをインストールすることが可能になり*Markdownへの変換処理をメモリ内で行うようになったほか、新たにEPUBフォーマットの変換がサポートされています。

MarkItDown v0.1.0でEPUBをサポート

*以前のバージョンと同じく全ての依存関係をさぽーとするには”pip install ‘markitdown[all]'”でインストール。

 また、同バージョンではサードパーティ開発者によるプラグインの開発、データURIをMarkdown内に保持するオプションやMIMEタイプ、拡張子、文字セットのオーバーライドオプションが追加され、数多くの修正が行われているので、MarkItDownを利用したWebサービスやツールを開発されている方はチェックしてみてください。

MarkItDown v0.1.0のオプション

MarkItDown v0.1.0のオプション

MarkItDown v0.1.0

Overview

Version 0.1.0 (previously 0.1.0a6) is a large release, bringing many improvements over the previous 0.0.2 version.
High-level changes include:

  • Organized dependencies into feature groups — install only the converters you need, or get everything with pip install markitdown[all]
  • A new plugin-based architecture, allowing 3rd-party developers to add functionality to MarkItDown (see the sample plugin)
  • All conversions are performed in-memory — no more temporary files
  • Support for new formats including EPUB
  • Option to keep data URIs in converted Markdown
  • Option to override MIME type, extension, and charset in the command-line interface (useful when reading input from a pipe or stdin)

コメント

タイトルとURLをコピーしました