音声認識

【AIリスキリング】Whisper超え?(ほんと?)IBM Granite Speech 3.3をGoogle Colabで実際に試してみた

ちょっと、タイトル言いすぎかもしれないので、すみません IBMが2025年にリリースした革新的な音声AIモデルGranite Speech 3.3(以下、Granite Speech)をご存知でしょうか? このオープンソースモデルは、Hugging Face Open ASR Leaderboardで業界トップク…

学会発表・プレゼン準備を効率化!PowerPointノート自動音声変換ツールを作ってみた

授業や研究発表の準備でPowerPointを使っていると、「発表者ノートを音声で聞きながら練習したい」「通勤中に耳で復習したい」という気分になってきます。自分も発表時間を気にするときに、どれくらいのスピードで話すと時間におさまるのか?こういうチェッ…

Whisperの文字起こし結果の検証に!タイムコード表示付き字幕の再生ツール開発

音声認識を行っていると、音声と認識された文字起こしデータを比較することが多いと思います。実際はあっている・あっていないは、開発側ではなく別の方に調べてもらうほうが良いのですが、最低限の確認をする必要はあると思います。他にも音声認識の結果が…