Tesseract OCRの導入により、AppleのVisionフレームワークでサポートしている14言語だけでなく、100以上の言語が認識可能になったMac用OCRアプリ「TRex v1.9」のBeta版がリリースされています。詳細は以下から。
TRexは米バージニア州Ameba LabsのAlex Mazanovさんがオープンソースで開発しているMac用OCRアプリで、AppleのVisionフレームワークを利用し、オフライン&オンデバイス上でキャプチャした画像内にある文字を認識、テキスト化してペーストできるようにしてくれますが、このTRexが次期バージョン1.9.0アップデートでGoogleのOCRエンジン「Tesseract OCR」に対応するそうです。
Tesseract OCR Support – TRex now includes optional Tesseract OCR engine support, expanding language recognition from Apple Vision’s 14 languages to over 100 languages worldwide!
TRex v1.9.0 Betaのリリースノートより抜粋
TRexは現在、Appleの機械学習フレームワークVisionを採用ているため、Apple Silicon Mac上でオフライン&高速に文字認識を行うことが可能ですが、VisionフレームワークはmacOS 13 Ventura/iOS 16以降で日本語や中国語 (簡体/繁体字)、韓国語などを追加サポートしたものの、英語とフランス語、イタリア語、ドイツ語、ポルトガル語、スペイン語、ウクライナ語、ロシア語、トルコ語、ポーランド語の14言語しか利用できませんでした。

iOS 16のテキスト認識で日本語と韓国語がサポート
これに対し、TRex v1.9ではTesseract OCRの導入により、ヒンディー語やアラビア語、日本語 (Vertical/Script)、韓国語、タイ語、ヘブライ語など100以上の言語の文字認識が可能になるそうです。

Apple Visionフレームワーク(左)とTesseract OCR(右)
TRex v1.9ではTesseract OCRの導入するにあたりアプリケーションサイズの肥大化を抑えるため、認識したい言語の学習データをオンデマンドでダウンロードする機能追加されており、加えてIntel Macのサポートが終了し、システム要件がmacOS 11 Big Sur*以降のApple Silicon Macとなっているので、気になる方は公式リポジトリをチェックしてみてください。
TRex v1.9.0 Betaリリースノート
🎯 What’s New
Tesseract OCR Support – TRex now includes optional Tesseract OCR engine support, expanding language recognition from Apple Vision’s 14 languages to over 100 languages worldwide!
✨ Key Features
- 100+ Language Support: Recognize text in languages including Hindi, Arabic,Japanese, Korean, Thai, Hebrew, and many more
- Smart Engine Selection: Automatically uses Apple Vision for supported languages and Tesseract for others
- Easy Language Management: Download only the languages you need with progress indicators
コメント