特許ウォッチ

公開番号2024134879
公報種別公開特許公報(A)
公開日2024-10-04
出願番号2023045310
出願日2023-03-22
発明の名称音認識システム、及び音認識方法
出願人菱洋エレクトロ株式会社
代理人個人
主分類G10L 15/10 20060101AFI20240927BHJP(楽器;音響)
要約【課題】物理音を対象とした認識精度の向上を図る音認識システム、及び音認識方法を提供する。
【解決手段】音素認識を用いた音認識システムであって、音声認識装置1は、取得部と、保存部と、導出部と、を備える。取得部は、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する。保存部は、予め設定された音素認識の認識条件が複数保存される。生成部は、物理音情報に対応する複数の認識履歴を、それぞれ異なる認識条件に基づき生成する。導出部は、複数の認識履歴に基づき、物理音に対応する認識結果を導出する。
【選択図】図4
特許請求の範囲【請求項１】
音素認識を用いた音認識システムであって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、
予め設定された前記音素認識の認識条件が複数保存された保存部と、
前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記認識条件に基づき生成する生成部と、
複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出部と、
を備えること
を特徴とする音認識システム。
続きを表示（約 1,500 文字）【請求項２】
前記導出部は、
複数の前記認識履歴毎に含まれる特徴量を特定し、
複数の前記特徴量を用いて、前記認識結果を導出すること
を含むこと
を特徴とする請求項１記載の音認識システム。
【請求項３】
前記生成部は、
第１認識条件に基づき、前記物理音情報に対応する第１認識履歴を生成し、
前記第１認識履歴に基づき、前記第１認識条件とは異なる第２認識条件を選択し、
前記第２認識条件に基づき、前記物理音情報に対応する第２認識履歴を生成すること
を含み、
前記導出部は、前記第１認識履歴、及び前記第２認識履歴を少なくとも含む複数の前記認識履歴に基づき、前記認識結果を導出することを含むこと
を特徴とする請求項１記載の音認識システム。
【請求項４】
前記生成部は、それぞれ異なる前記認識条件を用いて前記認識履歴を生成する第１認識部、及び第２認識部を含むこと
を特徴とする請求項１記載の音認識システム。
【請求項５】
前記生成部は、
前記第１認識部を介して生成された第１認識履歴、及び
前記第２認識部を介して生成された第２認識履歴
に基づき、前記第１認識部及び前記第２認識部における前記認識条件を選択し、
選択された前記認識条件に基づき、
前記第１認識部を介して第３認識履歴、及び
前記第２認識部を介して第４認識履歴
を生成すること
を含むこと
を特徴とする請求項４記載の音認識システム。
【請求項６】
前記認識履歴は、
前記物理音情報から抽出された音素情報と、
前記認識条件の特徴を示す認識条件情報と、
前記認識条件に基づき、前記音素情報を評価した結果を示す評価情報と、
を含むこと
を特徴とする請求項１～５の何れか１項記載の音認識システム。
【請求項７】
前記認識条件情報は、前記音素認識に用いられる学習モデルを特定する情報を含み、
前記学習モデルは、予め取得された参照用物理音情報と、前記参照用物理音情報に紐づく参照用音素とを用いて構築され、前記保存部に複数保存されること
を特徴とする請求項６記載の音認識システム。
【請求項８】
前記認識条件情報は、前記音素認識に用いられるデータベースを特定する情報を含み、
前記データベースは、予め取得された認識用音素と、前記認識用音素に紐づく認識情報とを用いて構築され、前記保存部に複数保存され、
前記生成部は、
前記認識条件に紐づく前記学習モデルを参照し、前記物理音情報から前記音素情報を抽出し、
前記認識条件に紐づく前記データベースを参照し、前記音素情報に対応する前記評価情報を導出し、
前記音素情報、参照した前記学習モデルの情報、参照した前記データベースの情報、及び前記評価情報を含む前記認識履歴を生成すること
を特徴とする請求項７記載の音認識システム。
【請求項９】
音素認識を用いた音認識方法であって、
媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得ステップと、
前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記音素認識の認識条件に基づき生成する生成ステップと、
複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出ステップと、
を備えること
を特徴とする音認識方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、音素認識を用いた音認識システム、及び音認識方法に関する。
続きを表示（約 1,400 文字）【背景技術】
【０００２】
従来、音素認識を用いた音認識に関する技術として、例えば特許文献１、２の音声認識システム等が提案されている。
【０００３】
特許文献１では、例えば複数混合のガウス混合モデルを生成し、所定の雑音のない音声ＨＭＭと生成された雑音ガウス混合モデルから複数の適応化されたＨＭＭを生成し、生成された複数の適応化されたＨＭＭを並置しマルチパス形式の音響モデルを生成し、抽出された特徴量に基づき上記適応化された音響モデルを用いて発話音声信号の音声認識を行う旨の技術が開示されている。
【０００４】
特許文献２では、少なくとも１つの音声データを取得する取得手段と、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、認識対象データとして抽出する抽出手段等を備えることを特徴とする音声認識システムが開示されている。
【先行技術文献】
【特許文献】
【０００５】
特開２００３－１７７７８１号公報
特許第６４６２９３６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ここで、媒質を介して伝播する物理音の認識技術は、様々な用途が期待される一方で、認識精度の向上が難しいという事情がある。この点、特許文献１では、雑音等の環境音が混入した場合においても、高い音声認識率を得ることを前提としており、環境音については、雑音（ノイズ）としての扱いを前提としている。即ち、音声以外の物理音を対象とした認識については、記載も示唆もされていない。また、特許文献２の開示技術においても、音声以外の物理音を対象とした認識については、記載も示唆もされていない。
【０００７】
そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、物理音を対象とした認識精度の向上を図る音認識システム、及び音認識方法を提供することにある。
【課題を解決するための手段】
【０００８】
第１発明に係る音認識システムは、音素認識を用いた音認識システムであって、媒質を介して伝播する物理音に基づき生成された物理音情報を取得する取得部と、予め設定された前記音素認識の認識条件が複数保存された保存部と、前記物理音情報に対応する複数の認識履歴を、それぞれ異なる前記認識条件に基づき生成する生成部と、複数の前記認識履歴に基づき、前記物理音に対応する認識結果を導出する導出部と、を備えることを特徴とする。
【０００９】
第２発明に係る音認識システムは、第１発明において、前記導出部は、複数の前記認識履歴毎に含まれる特徴量を特定し、複数の前記特徴量を用いて、前記認識結果を導出することを含むことを特徴とする。
【００１０】
第３発明に係る音認識システムは、第１発明において、前記生成部は、第１認識条件に基づき、前記物理音情報に対応する第１認識履歴を生成し、前記第１認識履歴に基づき、前記第１認識条件とは異なる第２認識条件を選択し、前記第２認識条件に基づき、前記物理音情報に対応する第２認識履歴を生成することを含み、前記導出部は、前記第１認識履歴、及び前記第２認識履歴を少なくとも含む複数の前記認識履歴に基づき、前記認識結果を導出することを含むことを特徴とする。
（【００１１】以降は省略されています）

関連特許