音声・話者認識

 

音声認識、話者認識とは?

音声認識とは、人が発する声(音声データ)をコンピュータがテキスト化する技術のことです。
音声認識の技術は、音響分析、音響モデル、発音辞書、言語モデルの4つの過程を経ることでコンピュータが音声認識をすることができます。

また、音声のテキスト化だけではなく事前に登録した声の特徴を解析し、話者が誰なのかを識別することを「話者認識」と呼びます。
話者認識で特定の人だけに反応するデバイスやパスワードと音声を組み合わせたロック解除などセキュリティ面の活用の需要も高まっています。
SiriやAmazon echo、Google Homeなどのスマートスピーカーの登場によって、音声認識技術の利用は身近なものになってきています。

音声認識を利用することで、コールセンターや医療カルテの音声作成、
ロボットの音声操作、議事録の書き起こしなど幅広い分野で活用ができます。

 

Cotofure
音声・話者認識の特長

  • 音声・話者認識

    事前に声を学習させることで、話者の特定が可能。
  • ロボットや機械の遠隔操作

    作業者の声だけをキャッチして、ロボットなどの機械操作を効率化。
  • カスタマイズ

    音声認識エンジンの提供や既存システムの組込など、用途に応じてカスタマイズが可能。
 

利用シーン

  • 複数人の会議の議事録で、話者名と共にテキストの書き起こしが可能。

  • 音声認識による操作でロボットで行う作業の効率UP。骨伝導マイクを利用することで誤作動を防止。

  • 車や家電、IoT機器に音声認識を組込むことで、両手を塞がずに操作が可能。

 

事例

  • 一般企業様

    音声・話者認識による議事録作成の自動化で、話者を判別した文字の書き起こしを行い、時間と人的負担を削減。
  • 臨床・検査関連企業様

    音声入力で、検査結果や報告書の作成を行うことで、機材と筆記用具の持ち替えを無くし、作業効率を向上。
  • コンテンツプロバイダー企業様

    音声認識技術を活用し、キャラクターを用いたコンシェルジュアプリの制作。

関連するCotofureのテクノロジー