OpenAIのWhisperを利用し音声や動画、マイクからの音声をテキストへ変換してくれるMacアプリ「Aiko」がリリースされています。詳細は以下から。
ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間の音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声をテキストへ変換してくれるMacアプリ「Aiko : AI Speech-to-Text」が新たにリリースされています。
High-quality offline transcription powered by OpenAI’s Whisper.Easily convert speech to text from meetings, lectures, and more.You can export the transcription as subtitles too.The app requires a Mac with at least 16 GB of RAM.
Aiko : AI Speech-to-Text (Transcribe) – Mac App Store
Aikoを開発したのは元Googleのエンジニアで、現在はフルタイムでオープンソースに貢献されているSindre Sorhusさんで、使い方はアプリを起動してテキストへ変換したい音声が含まれた音声/動画ファイルをウィンドウへドラッグ&ドロップまたは音声をマイクから入力するだけで、音声がテキストファイルへ変換されます。
Sorhusさんによると、AikoはWhisper large v2モデルを採用しており、日本語を含めた100の言語の音声変換/書き起こしが可能で、音声から変換されたテキストは、プレーンテキストの他、CSV, WebVTT、SRTといった字幕/キャプションフォーマットでも書き出すことが可能。
システム要件はmacOS 13.1 Ventura以降のMacで、推奨環境は16GB以上のメモリを搭載したMacとなっており、アプリは無料でMac App Storeに公開されていますが、初期リリース版では、MacWhisperの様に音声認識モデルの変更や削除はできず、アプリケーションサイズは2.9GB以上となっているので、ディスクスペースに余裕がない方は注意してください。
- Aiko : AI Speech-to-Text (Transcribe) – Mac App Store
コメント