TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024032655
公報種別公開特許公報(A)
公開日2024-03-12
出願番号2023112121
出願日2023-07-07
発明の名称音声認識装置、音声認識方法、および、プログラム
出願人本田技研工業株式会社
代理人個人,個人,個人,個人
主分類G10L 15/04 20130101AFI20240305BHJP(楽器;音響)
要約【課題】システム全体としての演算量やパラメータ数の増加を抑え、より正確に音声区間を定める音声認識装置、音声認識方法及びプログラムを提供する。
【解決手段】音声認識装置10は、サブフレーム毎に音声信号の音響特徴量を分析する特徴分析部112と、1以上のサブフレームからなるフレームごとに前記音響特徴量に基づいて隠れ状態特徴量を定める隠れ状態処理部114と、隠れ状態特徴量を入力値とし、音声区間確率を算出する音声区間処理部116と、音声区間に属する複数のフレームからなるブロックごとの前記隠れ状態特徴量の系列に基づいて発話内容を定める発話処理部118と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
音声信号のサブフレームごとに音響特徴量を分析する特徴分析部と、
前記音響特徴量に基づいて複数のサブフレームからなるフレームごとに隠れ状態特徴量を定める隠れ状態処理部と、
前記隠れ状態特徴量に基づいてフレームごとに音声区間を定める音声区間処理部と、
音声区間に属する複数のフレームからなるブロックごとの前記隠れ状態特徴量の系列に基づいて発話内容を定める発話処理部と、を備える
音声認識装置。
続きを表示(約 1,100 文字)【請求項2】
前記音声区間処理部は、
音声区間に属するフレームである音声区間フレームからなる当該音声区間を2個以上有するブロックを、個々に音声区間を含むブロックに分割するように構成される
請求項1に記載の音声認識装置。
【請求項3】
前記隠れ状態処理部は、
前記隠れ状態特徴量に基づいてフレームごとに音声区間に属する確率を音声区間確率として算出し、
前記音声区間確率が所定の確率閾値以下となる不活性フレームのうち、当該不活性フレームが所定の閾値フレーム数を超えて連続する区間を非音声区間と判定する、それ以外の区間を音声区間として判定する
前記音声区間確率が前記確率閾値より大きいフレームと、前記不活性フレームが前記閾値フレーム数を超えて連続しない区間を音声区間と判定するように構成される
請求項2に記載の音声認識装置。
【請求項4】
前記隠れ状態処理部は、サブフレームごとの音響特徴量に基づいてフレームごとのフレーム特徴量に変換し、
前記フレーム特徴量に基づいて前記隠れ状態特徴量を推定するように構成される
請求項1の音声認識装置。
【請求項5】
前記発話処理部は、
音声区間をなす最新のブロックまでの前記隠れ状態特徴量の系列に対応する発話内容の候補ごとの推定確率を算出し、前記推定確率が最も高い発話内容を定めるように構成される
請求項1の音声認識装置。
【請求項6】
コンピュータに、
サブフレームごとに音声信号の音響特徴量を分析し、
前記音響特徴量に基づいて複数のサブフレームからなるフレームごとに隠れ状態特徴量を定め、
前記隠れ状態特徴量に基づいてフレームごとに音声区間を定め、
音声区間に属する複数のフレームからなるブロックごとの前記隠れ状態特徴量の系列に基づいて発話内容を定める
音声認識装置として機能させるためのプログラム。
【請求項7】
音声認識装置における音声認識方法であって、
前記音声認識装置が、
音声信号のサブフレームごとに音響特徴量を分析し、
前記音響特徴量に基づいて複数のサブフレームからなるフレームごとに隠れ状態特徴量を定め、
前記隠れ状態特徴量に基づいてフレームごとに音声区間を定め、
音声区間に属する複数のフレームからなるブロックごとの前記隠れ状態特徴量の系列に基づいて発話内容を定める
音声認識方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法、および、プログラムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
音声認識技術は、様々な場面で普及している。例えば、パーソナルコンピュータ(PC:Personal Computer)、携帯電話機などの情報機器の他、冷蔵庫、空調機などの家庭電化製品などへの音声入力に適用される。これらの機器では、ストリーミング音声認識が用いられることがある。ストリーミング音声認識は、音声区間ごとに音声認識処理を行って発話内容を定める手法である。ストリーム音声認識処理では、前処理として音声区間検出(VAD:Voice Activity Detection)が導入される。発話された文全体の入力が完了する前に音声区間ごとの発話内容が得られるため、応答性が向上する。音声認識処理として、例えば、コネクショニスト時系列分類エンドツーエンド自動音声認識(CTC-based E2E ASR:Connectionist Temporal Classification-based end-to-end Automatic Speech Recognition、特許文献1、非特許文献1 参照)などの手法が用いられうる。
【0003】
VADでは、様々な手法が提案されている。例えば、音量に基づく手法(energy-based method)、統計モデルまたは深層学習モデルを用いる手法、などがある。音量に基づく手法には、例えば、ゼロ交差法(zero-cross)がある。統計モデルとして、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)、ガウス混合モデル(GMM:Gaussian Mixture Model)などが用いられる。深層学習モデルとして、例えば、多層パーセプトロン(MLP:Multi-Layer Perceptron)、長・短期記憶(LSTM:Long Short Term Memory)、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、トランスフォーマ(Transformer)などが用いられる。
【先行技術文献】
【特許文献】
【0004】
国際公開第2018/207390号
【非特許文献】
【0005】
Suyoun Kim, Takaaki Hori, and Shinji Watanabe, “JOINT CTC-ATTENTION BASED END-TO-END SPEECH RECOGNITION USING MULTI-TASK LEARNING”, 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 05 - 09 March, 2017, DOI: 10.1109/ICASSP.2017.7953075
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記のゼロ交差法は、比較的演算量が少ない手法である。しかしながら、ノイズの音量が比較的大きい区間が音声区間として誤認識されることがある。統計モデルまたは深層学習モデルを用いる手法は、多くのパラメータを要し、演算量が多くなりがちである。また、いずれの手法も、音声認識処理を単にVADに後続することで個々の処理に起因する誤差が蓄積する。その結果、音声認識率の低下が顕在化することがあった。
【0007】
本明細書では、音声認識装置、音声認識方法およびプログラムが開示される。本装置、方法およびプログラムは、組合せて、または、別個に使用されうる。
【課題を解決するための手段】
【0008】
(1)本実施形態の一態様は、音声信号のサブフレームごとに音響特徴量を分析する特徴分析部と、前記音響特徴量に基づいて複数のサブフレームからなるフレームごとに隠れ状態特徴量を定める隠れ状態処理部と、前記隠れ状態特徴量に基づいてフレームごとに音声区間を定める音声区間処理部と、音声区間に属する複数のフレームからなるブロックごとの前記隠れ状態特徴量の系列に基づいて発話内容を定める発話処理部と、を備える音声認識装置である。
【0009】
(2)本実施形態の一態様は、(1)の音声認識装置であって、前記音声区間処理部は、音声区間に属するフレームである音声区間フレームからなる当該音声区間を2個以上有するブロックを、個々に音声区間を含むブロックに分割してもよい。
【0010】
(3)本実施形態の一態様は、(2)の音声認識装置であって、前記隠れ状態処理部は、
前記隠れ状態特徴量に基づいてフレームごとに音声区間に属する確率を音声区間確率として算出し、前記音声区間確率が所定の確率閾値以下となる不活性フレームのうち、当該不活性フレームが所定の閾値フレーム数を超えて連続する区間を非音声区間と判定する、それ以外の区間を音声区間として判定し、前記音声区間確率が前記確率閾値より大きいフレームと、前記不活性フレームが前記閾値フレーム数を超えて連続しない区間を音声区間と判定してもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社フジコー
吸音材
14日前
三井化学株式会社
防音構造体
18日前
三井化学株式会社
遮音構造体
20日前
株式会社JVCケンウッド
情報処理装置
4日前
株式会社SUBARU
エージェントシステム
21日前
大和ハウス工業株式会社
騒音低減設備
20日前
株式会社フェルナンデス
電気ギター用弦振動持続装置
4日前
ヤマハ株式会社
管楽器用スワブ
12日前
株式会社レゾナック
吸音材及び車両部材
5日前
キョーラク株式会社
樹脂製パネル
19日前
株式会社第一興商
カラオケシステム
21日前
株式会社河合楽器製作所
自動演奏装置及び自動演奏プログラム
14日前
株式会社河合楽器製作所
鍵盤装置の鍵
19日前
TDK株式会社
振動デバイス及びこれを備えるICカード
18日前
トヨタ自動車株式会社
車室の床下構造
12日前
富士通株式会社
評価プログラム、評価方法、評価装置
6日前
株式会社NTTドコモ
発話スタイル改善支援装置
11日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
13日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
13日前
日産自動車株式会社
対話装置及び対話制御方法
12日前
ヤマハ株式会社
音響モデルの訓練方法
13日前
ヤマハ株式会社
音響モデルの訓練方法
13日前
株式会社河合楽器製作所
鍵盤楽器の鍵ガイド構造
18日前
株式会社河合楽器製作所
鍵盤楽器のハンマー装置
18日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
18日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
18日前
ヤマハ株式会社
楽曲生成方法、およびプログラム
11日前
ヤマハ株式会社
音波形の特性分布に係る表示方法
13日前
ヤマハ株式会社
音響モデルの訓練システム及び方法
13日前
福井経編興業株式会社
吸音体
17日前
福井経編興業株式会社
吸音体
17日前
株式会社河合楽器製作所
ドロップアクションを有するピアノ
19日前
ヤマハ株式会社
プログラム、音響処理方法および音響処理システム
5日前
続きを見る