TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025079376
公報種別
公開特許公報(A)
公開日
2025-05-22
出願番号
2023191953
出願日
2023-11-10
発明の名称
音声処理装置、音声処理方法、プログラム及び記憶媒体
出願人
パイオニア株式会社
代理人
個人
主分類
G10L
15/20 20060101AFI20250515BHJP(楽器;音響)
要約
【課題】音声認識における誤認識を抑制することが可能な音声処理装置等を提供する。
【解決手段】音声処理装置は、推定部と、抑制部と、バッファ部と、制御部と、を有する。推定部は、マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する。抑制部は、第1のマイク音声からエコー成分を差し引くことにより、第1のマイク音声に含まれるシステム音声を抑制した第2のマイク音声を出力する。バッファ部は、第2のマイク音声を所定時間遅延させて出力する。制御部は、第1のマイク音声及びエコー成分の相関性に応じ、所定時間遅延された第2のマイク音声を減衰させるか否かを決定する。
【選択図】図3
特許請求の範囲
【請求項1】
マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定部と、
前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制部と、
前記第2のマイク音声を所定時間遅延させて出力するバッファ部と、
前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御部と、
を有する音声処理装置。
続きを表示(約 1,100 文字)
【請求項2】
前記制御部は、前記第1のマイク音声及び前記エコー成分の相関性が高い場合には、前記所定時間遅延された前記第2のマイク音声を減衰させる一方で、前記第1のマイク音声及び前記エコー成分の相関性が低い場合には、前記所定時間遅延された前記第2のマイク音声を減衰させない請求項1に記載の音声処理装置。
【請求項3】
前記第1のマイク音声及び前記エコー成分の相関性を示す相関係数を算出する算出部をさらに有し、
前記制御部は、前記相関係数が所定の閾値よりも大きい場合には、前記所定時間遅延された前記第2のマイク音声に対して適用されるゲイン値を1未満の値に設定し、前記相関係数が当該所定の閾値以下である場合には、前記所定時間遅延された前記第2のマイク音声に対して適用されるゲイン値を1に設定する請求項1に記載の音声処理装置。
【請求項4】
前記制御部は、前記相関係数が前記所定の閾値よりも大きい場合に、前記所定時間遅延された前記第2のマイク音声に対して適用されるゲイン値を0.1以上かつ0.5以下の値に設定する請求項3に記載の音声処理装置。
【請求項5】
コンピュータが実行する音声処理方法であって、
マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定工程と、
前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制工程と、
前記第2のマイク音声を所定時間遅延させて出力するバッファ工程と、
前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御工程と、
を有する音声処理方法。
【請求項6】
コンピュータにより実行されるプログラムであって、
マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定部、
前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制部、
前記第2のマイク音声を所定時間遅延させて出力するバッファ部、及び、
前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御部として前記コンピュータを機能させるプログラム。
【請求項7】
請求項6に記載のプログラムを記憶した記憶媒体。
発明の詳細な説明
【技術分野】
【0001】
本開示は、音声を処理する技術に関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
音声に含まれるエコー成分を除去するエコーキャンセルに係る技術が従来知られている。
【0003】
具体的には、例えば、特許文献1には、マイクに入力されたユーザの発話音声と、当該マイクに入力されたエコーと、を含む音声から当該エコーに相当する成分を除去する技術が開示されている。また、特許文献1には、閾値を超える音圧を有する音声部分をユーザの発話区間として検出する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
特開2009-109536号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えば、スマートスピーカ等のような、音声認識を利用した対話型の装置に入力された音声に対してエコーキャンセルを適用した場合には、当該装置自身から発せられた音声がエコー成分として十分に除去されず、誤った認識結果が得られてしまう、という問題点が生じる。
【0006】
そして、特許文献1に開示された技術によれば、例えば、閾値が頻繁に変動するような状況において、前述の問題点が生じる場合がある。そのため、特許文献1に開示された技術によれば、前述の問題点に応じた課題が生じている。
【0007】
本開示は、上記の課題を鑑み、音声認識における誤認識を抑制することが可能な音声処理装置を提供することを主な目的とする。
【課題を解決するための手段】
【0008】
請求項に記載の発明は、音声処理装置であって、マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定部と、前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制部と、前記第2のマイク音声を所定時間遅延させて出力するバッファ部と、前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御部と、を有する。
【0009】
請求項に記載の発明は、コンピュータが実行する音声処理方法であって、マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定工程と、前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制工程と、前記第2のマイク音声を所定時間遅延させて出力するバッファ工程と、前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御工程と、を有する。
【0010】
請求項に記載の発明は、コンピュータにより実行されるプログラムであって、マイクから入力された第1のマイク音声に含まれるシステム音声に対応する成分をエコー成分として推定する推定部、前記第1のマイク音声から前記エコー成分を差し引くことにより、前記第1のマイク音声に含まれる前記システム音声を抑制した第2のマイク音声を出力する抑制部、前記第2のマイク音声を所定時間遅延させて出力するバッファ部、及び、前記第1のマイク音声及び前記エコー成分の相関性に応じ、前記所定時間遅延された前記第2のマイク音声を減衰させるか否かを決定する制御部として前記コンピュータを機能させる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る