オンデバイスで自動話者認識をサポートしたAI文字起こしアプリ「MacWhisper/Whisper Transcription Pro v12.0」がリリースされています。詳細は以下から。
MacWhisper(Mac App Store版はWhisper Transcription)はGood SnoozeのJordi Bruinさんが開発しているOpenAIの音声認識モデルWhisperなどを利用した音声文字起こし(STT:Speech to Text)アプリですが、このMacWhisperが最新のメジャーアップデートとなる「MacWhisper v12.0」で自動話者認識(Automatic Speaker Recognition)機能をサポートしたと発表しています。
Automatic Speaker Recognition! Finally! Automatically recognise speakers in your recordings. (Pro)
リリースノートより抜粋
Bruinさんは、元Appleで機械学習エンジニアを務めていたBrian Keeneさんや、同じく元AppleでCoreMLの開発に携わっていたBrian Keeneさんらが設立したArgmax(@argmaxinc)チームと協力し、MacWhisperで利用しているWhisperKitの改善に取り組んできたそうで、加えて今回Argmaxが開発しているSpeakerKitを採用することでオンデバイスでの自動話者認識が可能になったそうです。
Over the last year or so we've been working closely with the team at @argmaxinc to improve MacWhisper through WhisperKit.
Last week we (finally) released our most requested feature; on-device automatic speaker recognition which is powered by their new SpeakerKit framework. https://t.co/siudLSBZRD pic.twitter.com/BiUph5qBCx
— Jordi Bruin (@jordibruin) March 7, 2025
MacWhisper v12.0で自動話者認識をオンデバイスで利用するには現在のところApple M1以降のApple Silicon MacとWhisper Large V2などの一部のモデルのダウンロード、MacWhisper Proライセンスが必要ですが、
条件を満たしていれば、音声認識を行うだけで自動的に話し手ごと(Speeker 1, 2, 3…)にラベルが付けられ、ユーザーは名前を設定するだけで誰が話した言葉が書き起こされたのかを確認することが可能になっています。
MacWhisper v12.0では音声ファイルの自動話者認識機能の他にも、マイク録音でも話者認識機能や、ローカルモデルをダウンロードせずにクラウドの文字起こしモデルを直接利用出来る機能も実装されているので、ユーザーの方はチェックしてみてください。
MacWhisper v12のリリースノート
- New
- Automatic Speaker Recognition! Finally! Automatically recognise speakers in your recordings. (Pro)
- Click on segments in the transcript view to start playback from there
- Play the first segment for an identified speaker from the sidebar to make it easy to identify which speaker is who
- Improvements
- You can now adjust the speaker for a paragraph from the transcript view
- Assign segments to a different speaker using the keyboard shortcuts (1,2,3 etc)
- You can now use cloud transcription models in the app without having to first download a local model
- You can now reassign all segments from one speaker to another one
- Speaker recognition now also works for M1 users
- Added a badge to identify which models support speaker recognition
- Made it clearer when the app is identifying speakers instead of it appearing like progress is stuck at 100%
- Small design tweaks and bug fixes
- Improved the design for prompts in settings
- Speaker recognition is now also enabled for microphone recordings
- Bugfixes
- Fixed an issue where extra spaces were added for some languages such as Thai and Chinese
- 🎙️ MacWhisper – Gumroad
- Whisper Transcription – Mac App Store
コメント