数式専用OCR「Mathpix Snip」の機能をターミナルから実行できるコマンドラインツール「mpx cli」を利用してPDFファイルをMarkdownやDocxファイルへ変換する方法です。詳細は以下から。
Mathpix Snipシリーズはスタンフォード大学でディープラーニングを専攻していたNico Jimenezさんが開発した数式に特化したOCRアプリで、写真やスクリーンショット内にある手書きや印刷された数式を抽出してLaTeX形式に変換してくれる機能の他に、2021年06月にはPDFファイルを丸ごとMarkdownやMicrosoft WordのDocx、LaTeXファイルへ変換してくれる機能をWeb版の「Snip Notes」に実装しましたが、
現地時間2021年10月05日に公開されたブログの記事を読んでいたところ、この機能はWeb版のSnip Notesだけではなく、MacやWindows、Linuxのターミナルからコマンドラインツール「mpx-cli」を利用して実行できるそうなので、実際に試してみました。
You can even convert PDFs from your local machine using the command line, without having to upload anything to the web. The best part? You get 20 PDF pages converted for free every month when you sign up for a Mathpix account!
Mathpix PDF to Word Converter – Mathpix Blog
Mathpix/mpx-cli
mpx-cliはMathpix開発者(CEO)のJimenezさんが公開しているMathpix OCR APIを利用したコマンドラインツールで、現在のところターミナルから科学技術論文のPDFファイルを編集可能なMarkdownやDocx、LaTeXファイルへ一括変換できる”mpx convert”や、PDFファイルから静的なHTMLサイトを作成できる”mpx build”がオプションとして利用できるようになっています。
mpx-cliはnpm(Node.js)パッケージで提供されており、既にHomebrewなどを利用してnpmがインストールされている場合は、以下のコマンドでインストールし、Mathpix Snipのアカウントとパスワードでログインするだけで利用できるようになります。
npm install -g @mathpix/mpx-cli mpx login
PDFファイルを編集可能なファイルへ変換したい場合は、”mpx convert”の後にPDFファイルと出力ファイルへのパスを付け、出力フォーマットを拡張子(.mmd, .docx, .tex, .html)で指定し実行すればMathpix OCRで変換されたファイルが自動的にダウンロードされます。
$mpx convert input-file.pdf output-file.docx
mpx-cliはPDFファイルから編集可能なファイルへの変換だけでなく、PNGやJPEGなどの画像ファイル、Markdownから.docxや.texへの変換も可能で、Matpixを利用しているだけあって数式の認識&変換精度は非常に高いです。
mpx convert input-file.pdf output-file.docx mpx convert input-file.png output-file.docx mpx convert input-file.mmd output-file.docx
Mathpix SnipのWeb版の「Snip Notes」やmpx-cliコマンドで変換可能なPDFファイルの枚数は、Freeプランで毎月最大20ページ、月額4.99ドルのProプランで最大250ページとなっており、ac.jpドメインを含むアカデミックドメインユーザーの場合は最大ページ数が追加されており、Mathpix Snipアプリのデスクトップ版は最新のアップデートでペンタブやトラックパッドを使用した手書きモードに対応しているので、興味のある方は利用してみてください。
All desktop apps now support in-app drawing, similar to our mobile apps. It's great on touchscreen laptops or using with external pen tablets. 🖊️
(Pro tip: use the Solver tab to check your work 😇) pic.twitter.com/qPCeTMmsKj— Mathpix (@MathpixApp) October 11, 2021
- Mathpix Snip – Mathpix
- Mathpix PDF to Word Converter – Mathpix Blog
- Mathpix/mpx-cli: CLI for document conversion for scientific documents, powered by Mathpix OCR – GitHub
コメント