特許ウォッチ

公開番号2025044525
公報種別公開特許公報(A)
公開日2025-04-02
出願番号2023152133
出願日2023-09-20
発明の名称音声認識装置、音声認識方法、およびプログラム
出願人本田技研工業株式会社,国立大学法人大阪大学
代理人個人,個人,個人,個人
主分類G10L 15/20 20060101AFI20250326BHJP(楽器;音響)
要約【課題】認識器の学習環境が異なっても、認識性能を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【解決手段】音声認識装置は、発話区間を定める発話区間処理部と、第1モデルを用いて入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部と、第2モデルを用いて目標特徴量系列に基づいて隠れ状態特徴量系列を定める隠れ状態処理部と、発話区間内の強調特徴量系列と音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて目標特徴量系列のサンプル値を複数回サンプリングし、隠れ状態特徴量系列のサンプル値から隠れ状態特徴量系列の期待値を定めるサンプリング処理部と、第4モデルを用いて隠れ状態特徴量系列の期待値に基づいて発話区間の発話内容を定める発話処理部と、を備え、第3モデルはベータ分布の確率分布である。
【選択図】図1
特許請求の範囲【請求項１】
入力音声信号の音響特性に基づいて発話区間を定める発話区間処理部と、
第１モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部と、
第２モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理部と、
発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第３モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理部と、
第４モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理部と、を備え、
前記第３モデルはベータ分布の確率分布である、音声認識装置。
続きを表示（約 1,500 文字）【請求項２】
前記サンプリング処理部は、音声認識結果のスコアに基づき前記ベータ分布のパラメータを選択する、
請求項１に記載の音声認識装置。
【請求項３】
前記音声強調部と、前記サンプリング処理部と、前記発話処理部と、は、
前記強調特徴量を確率変数として扱うことで、音声強調処理と音声認識処理とをベイズの定理を用いて統合する、
請求項１に記載の音声認識装置。
【請求項４】
前記音声強調部は、音声強調用エンコーダと、音声強調用デコーダと、を備え、
前記隠れ状態処理部は、音声認識用エンコーダ、を備え、
前記発話処理部は、音声認識用デコーダ、を備え、
前記音声強調用エンコーダは、入力される前記入力音声信号の観測スペクトルをエンコードして潜在変数を求め、前記潜在変数を前記音声強調用デコーダに出力し、
前記音声強調用デコーダは、入力される前記観測スペクトルと前記潜在変数をデコードして音声特徴量を推定し、推定した前記音響特徴量を前記第３モデルに出力し、
前記第３モデルは、前記ベータ分布の確率分布を用いてサンプリングにより、前記推定された前記音響特徴量と前記観測スペクトルに内挿を行い、内挿した前記推定された前記音響特徴量を前記音声認識用エンコーダに出力し、
前記音声認識用エンコーダは、前記内挿した前記推定された前記音響特徴量をエンコードして前記隠れ状態特徴量系列を前記音声認識用デコーダに出力し、
前記音声認識用デコーダは、入力される前記隠れ状態特徴量系列をデコードして音声認識結果を出力する、
請求項１に記載の音声認識装置。
【請求項５】
前記サンプリング処理部は、
サンプリング毎に、音声認識される文字列と、前記第３モデルのパラメータまたは前記第３モデルと前記入力音声信号の観測スペクトルが与えられた場合に平滑化された符号化ベクトルと、前記観測スペクトルとを用いて算出される前記音声認識結果のスコアの最大値の総和を算出し、算出した前記総和に基づいて前記ベータ分布のパラメータを選択する、
請求項２に記載の音声認識装置。
【請求項６】
音声認識装置における音声認識方法であって、
前記音声認識装置が、
入力音声信号の音響特性に基づいて発話区間を定める発話区間処理ステップと、
第１モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調ステップと、
第２モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理ステップと、
発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示すベータ分布の確率分布である第３モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、
前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理ステップと、
第４モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理ステップと、を実行する、
音声認識方法。
【請求項７】
音声認識装置のコンピュータに、
請求項６の音声認識方法として機能させる、
プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、音声認識装置、音声認識方法、およびプログラムに関する。
続きを表示（約 2,300 文字）【背景技術】
【０００２】
音声認識は、多様な用途を有し、さまざまな環境で用いられる。雑音が混入した音声を音声認識に用いると、雑音が混入されていないクリーン音声よりも認識率が低下することが知られている。雑音下で認識率を向上させるため、音声認識システムに対して音声強調が適用されることがある。音声強調によれば、収録された入力音声成分の音声成分が強調され、相対的に雑音成分が低減する。雑音抑圧は、音声強調の一形態として捉えることができる。
【０００３】
音声強調を音声認識に適用した手法として、ミッシングデータ音声認識処理が提案されていた。例えば、非特許文献１、２に記載の手法では、エビデンス・モデル（evidence model）が適用される。エビデンス・モデルは、音声強調から音声認識に統計的情報を与えるデコード処理のモデルである。エビデンス・モデルは、認識結果を与える分類スコアの期待値を評価するための数理モデルとみなすことができ、誤分類を低減させるように学習された確率密度関数を用いて表わされる。
【先行技術文献】
【非特許文献】
【０００４】
A. C. Morris, J. Baker, and H. Bourlard, “FROM MISSING DATA TO MAYBE USEFUL DATA: SOFT DATA MODELLING FOR NOISE ROBUST ASR”, Proceedings of Workshop Innovation Speech Process, 2001
M. Kuhne, R. Togneri, and S. Nordholm, “Recognition with Applications in Reverberant Multi-Source Environments”, IEEE Transactions on Audio, Speech and Language Processing, vol. 19, No. 2, pp. 372-384, 2011
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来技術では、クリーン音源で学習した認識器に適用すると性能が上がるが、ノイズを含んだ音源で学習した認識器に適用すると性能が上がらないという問題があった。
【０００６】
本発明は、上記の問題点に鑑みてなされたものであって、認識器の学習環境が異なっても、認識性能を向上させることができる音声認識装置、音声認識方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
（１）上記目的を達成するため、本発明の一態様に係る音声認識装置は、入力音声信号の音響特性に基づいて発話区間を定める発話区間処理部と、第１モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部と、第２モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理部と、発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第３モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理部と、第４モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理部と、を備え、前記第３モデルはベータ分布の確率分布である。
【０００８】
（２）また、本発明の一態様は、上記（１）の音声認識装置において、前記サンプリング処理部は、音声認識結果のスコアに基づき前記ベータ分布のパラメータを選択するようにしてもよい。
【０００９】
（３）また、本発明の一態様は、上記（１）または（２）の音声認識装置において、前記音声強調部と、前記サンプリング処理部と、前記発話処理部と、は、
前記強調特徴量を確率変数として扱うことで、音声強調処理と音声認識処理とをベイズの定理を用いて統合するようにしてもよい。
【００１０】
（４）また、本発明の一態様は、上記（１）から（３）のうちのいずれか１つの音声認識装置において、前記音声強調部は、音声強調用エンコーダと、音声強調用デコーダと、を備え、前記隠れ状態処理部は、音声認識用エンコーダ、を備え、前記発話処理部は、音声認識用デコーダ、を備え、前記音声強調用エンコーダは、入力される前記入力音声信号の観測スペクトルをエンコードして潜在変数を求め、前記潜在変数を前記音声強調用デコーダに出力し前記音声強調用デコーダは、入力される前記観測スペクトルと前記潜在変数をデコードして音声特徴量を推定し、推定した前記音響特徴量を前記第３モデルに出力し、前記第３モデルは、前記ベータ分布の確率分布を用いてサンプリングにより、前記推定された前記音響特徴量と前記観測スペクトルに内挿を行い、内挿した前記推定された前記音響特徴量を前記音声認識用エンコーダに出力し、前記音声認識用エンコーダは、前記内挿した前記推定された前記音響特徴量をエンコードして前記隠れ状態特徴量系列を前記音声認識用デコーダに出力し、前記音声認識用デコーダは、入力される前記隠れ状態特徴量系列をデコードして音声認識結果を出力するようにしてもよい。
（【００１１】以降は省略されています）

関連特許