Good Snooze、新しいWhisper TurboモデルによりLargeモデルと同じ精度ながら最大20倍で音声の文字起こしが可能になった「MacWhisper v10.0」をリリース。

MacWhisper v10.0 仕事効率化
記事内に広告が含まれています。
スポンサーリンク

 Good Snoozeが新しいWhisper TurboモデルによりLargeモデルと同じ精度ながら最大20倍で音声の文字起こしが可能になった「MacWhisper v10」をリリースしています。詳細は以下から。

MacWhisper

 米OpenAiは現地時間2024年10月01日、OpenAI DevDay 2024を開催しChatGPTのリアルタイム会話をサードパーティー製アプリに組み込めるRealtime APIなどを発表していますが、同社は同時に音声認識モデルWhisperの新モデルとなるlarge-v3-turbo or turboを発表しました。

Whisper Turbo

 turboモデルは809Mパラメーターと、1550MのLargeと769MのMediumの間のサイズで単語誤り率(WER)と文字誤り率(CER)がLargeやMediumと同等ながら、自動音声認識(ASR)速度がA100 GPUで約30倍となり、Appleで機械学習モデルの研究をされているAwni Hannunさんによると、

Apple Siliconに最適化されたmlx_whisperとApple M2 Ultraを利用したテストでは実時間の50倍高速に書き起こしが可能だったと発表されていますが、OpenAIのWhisperを利用した音声書き起こしアプリ「MacWhisper (Gumroad版)*」を開発するGood Snoozeは現地時間2024年10月02日、このturboモデルをサポートし、Largeと同じ精度ながらM3 Pro搭載のMacBook Proで最大20倍高速に音声書き起こしが可能になった「MacWhisper v10.0」をリリースしています。

MacWhisper v10

MacWhisperのMac App Store版となるWhisper Transcriptionは今後アップデート予定。

MacWhisper v10.0

 MacWhisper v10.0では、WhisperのBaseとSmall、Large V3モデルに加え、これらと比較して最も高精度/高速なTrubo (16GB)がMacWhisper Proユーザー向けに追加/ダウンロードできるようになった他、

MacWhisper v10.0 Turbo

音声書き起こしをOpenAIやAnthropic APIを利用し要約/翻訳できるAIサービス機能で、LlamaやMistral, GemmaなどローカルLLMを管理できる「Ollama」を利用しインストールしたモデルを選択できるようになっています。

MacWhisper v10.0 Turbo

 MacWhisper v10.0のシステム要件はmacOS 13.3 Ventura以降のIntel/Apple Silicon Macで、Gumroadから無料(0€)でダウンロードできるので興味のある方は試してみてください。

MacWhisper v10.0 Turbo

 なお、macOS 15 SequoiaではAppleにより機械学習フレームワークCore MLがApple Siliconに最適化されたことで、AIや機械学習処理を利用したアプリのパフォーマンスが向上しており、MacWhisperもmacOSのアップデートで20%パフォーマンスが向上しています。

Whisper Transcription support macOS 15 Sequoia

MacWhisper v10.0 リリースノート

New:

  • Added the new Whisper Turbo model which has the same accuracy as Large, but can transcribe at 20x realtime. Try it out!
  • Local AI Models with Ollama support. You can now use any AI model that you run through Ollama on your Mac.
  • Custom AI providers. You can now add your own custom AI providers which use the OpenAI API spec. Add them from the AI Services tab in settings and then use it across the app.
  • Grog AI support. Use the Grog service to run AI prompts on your transcripts with your own API key.

コメント

タイトルとURLをコピーしました