音声・話者認識

音声認識、話者認識とは?

音声認識とは、人が発する声(音声データ)をコンピュータがテキスト化する技術のことです。
音声認識の技術は、音響分析、音響モデル、発音辞書、言語モデルの4つの過程を経ることでコンピュータが音声認識をすることができます。

また、音声のテキスト化だけではなく事前に登録した声の特徴を解析し、話者が誰なのかを識別することを「話者認識」と呼びます。
スマートフォンに搭載されているSiriやAmazon echoやGoogle Homeなどのスマートスピーカーの登場によって、
音声認識技術の利用は身近なものになってきています。

音声認識を利用することで、コールセンターや医療カルテの音声作成、
ロボットの音声操作、議事録の書き起こしなど幅広い分野で活用ができます。

カタリナ
音声・話者認識の特長

  • 音声・話者認識

    事前に声を学習させることで、今話している人が誰なのかを認識可能。
  • 骨伝導マイク

    骨伝導マイクを使うことで、利用者の声だけをキャッチするため、ロボットなどの誤作動を防止。
  • カスタマイズ

    音声認識エンジンの提供や既存システムの組込など、用途に応じてカスタマイズが可能。

利用シーン

  • 病院や介護施設で複数人の会議の議事録で、話者名と共にテキストの書き起こしが可能。

  • 音声認識による操作でロボットで行う作業の効率UP。骨伝導マイクを利用することで誤作動を防止。

  • 車や家電、IoT機器に音声認識を組込むことで、両手を塞がずに操作が可能。

事例

  • 一般企業様

    音声・話者認識による議事録作成の自動化で、話者を判別した文字の書き起こしを行い、時間と人的負担を削減。
  • 臨床・検査関連企業様

    音声入力で、検査結果や報告書の作成を行うことで、機材と筆記用具の持ち替えを無くし、作業効率を向上。
  • コンテンツプロバイダー企業様

    音声認識技術を活用し、キャラクターを用いたコンシェルジュアプリの制作。

関連するカタリナのテクノロジー