TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025027120
公報種別
公開特許公報(A)
公開日
2025-02-26
出願番号
2024209869,2021561019
出願日
2024-12-03,2020-04-13
発明の名称
ダイアログ検出器
出願人
ドルビー ラボラトリーズ ライセンシング コーポレイション
代理人
弁理士法人ITOH
主分類
G10L
25/78 20130101AFI20250218BHJP(楽器;音響)
要約
【課題】本願は、入力オーディオ信号に応答してダイアログ検出器においてオーディオ特徴を抽出する方法に関する。
【解決手段】本方法は、入力オーディオ信号を複数のフレームに分割する段階と、各フレームからフレーム・オーディオ特徴を抽出する段階と、コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は現在フレームのまわりのいくつかのフレームを含む、段階と、各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについての有意なコンテキスト・オーディオ特徴を導出する段階と、各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階とを含む。異なる長さのコンテキスト窓は、応答速度を改善し、堅牢性を改善することができる。
【選択図】図1
特許請求の範囲
【請求項1】
ダイアログ検出の機械学習方法であって、当該方法は:
入力オーディオ信号を受領し、前記入力オーディオ信号を複数のフレームに分割する段階と;
各フレームからフレーム・オーディオ特徴を抽出する段階と;
現在フレームについての第1、第2および第3のコンテキスト窓を決定する段階であって、前記第1、第2および第3のコンテキスト窓の各コンテキスト窓は、現在フレームに隣接する異なるそれぞれの数のフレームを含む、段階と;
前記第1、第2および第3のコンテキスト窓の各コンテキスト窓について、それぞれのコンテキスト窓におけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについてそれぞれのコンテキスト・オーディオ特徴を導出する段階と;
現在フレームを表す合成特徴ベクトルを生成する段階であって、該生成は、前記第1、第2および第3のコンテキスト窓のそれぞれのコンテキスト・オーディオ特徴を連結することを含む、段階と;
前記合成特徴ベクトルを使って、現在フレームにおけるダイアログの存在の確率を表す発話信頼スコアを得る段階と;
得られた発話信頼スコアに基づいて、ダイアログが存在することが判別されたとき、ダイアログ向上のために現在フレームをオーディオ改善装置に送る段階とを含む、
方法。
続きを表示(約 1,100 文字)
【請求項2】
前記第1のコンテキスト窓が現在フレームおよび現在フレームに先行および/または後続するいくつかのフレームを含み;
前記第2のコンテキスト窓が前記第1のコンテキスト窓のフレームおよび複数の回顧フレームを含み;
前記第3のコンテキスト窓が前記第2のコンテキスト窓のフレームおよび複数の長期履歴フレームを含む、
請求項1に記載の方法。
【請求項3】
前記第1、第2および第3のコンテキスト窓の各コンテキスト窓におけるフレームの前記それぞれの数はあらかじめ決定される、請求項1に記載の方法。
【請求項4】
前記第1のコンテキスト窓は現在フレームおよび先読みバッファからの先読みフレームの集合を含む、請求項1に記載の方法。
【請求項5】
前記第1、第2および第3のコンテキスト窓のうちの少なくとも1つのコンテキスト窓におけるフレームの前記それぞれの数が、抽出されたフレーム・オーディオ特徴に基づいて適応的に決定される、請求項1に記載の方法。
【請求項6】
前記第1、第2および第3のコンテキスト窓のうちの前記少なくとも1つのコンテキスト窓におけるフレームの前記それぞれの数が、フレーム・レベルのオーディオ特徴の定常性を解析することによって適応的に決定される、請求項5に記載の方法。
【請求項7】
前記第1、第2および第3のコンテキスト窓のうちの前記少なくとも1つのコンテキスト窓におけるフレームの前記それぞれの数の適応的な決定が、前記入力オーディオ信号の振幅に関係した情報に基づく、請求項6に記載の方法。
【請求項8】
前記第1、第2および第3のコンテキスト窓のうちの前記少なくとも1つのコンテキスト窓におけるフレームの前記数の適応的な決定が、前記入力オーディオ信号のスペクトルに関係した情報に基づく、請求項6に記載の方法。
【請求項9】
左チャネルおよび右チャネルにおけるフレームを、フレームのスペクトル表現に変換する段階と;
左チャネルおよび右チャネルにおける無相関信号を、それぞれ左チャネルおよび右チャネルにおける前記スペクトル表現に対して周波数依存の利得を適用することによって除去する段階と;
左チャネルおよび右チャネルからのダウンミックスされた信号を得る段階と;
前記ダウンミックスされた信号を前記入力オーディオ信号として使用する段階とを含む、
請求項1に記載の方法。
【請求項10】
前記周波数依存の利得は、共分散行列から推定される、請求項9に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
関連出願への相互参照
本願は、2019年4月18日に出願されたPCT特許出願第PCT/CN2019/083173号、2019年4月30日に出願された米国仮特許出願第62/840,839号、および2019年8月20日に出願されたEP特許出願第19192553.6号の優先権を主張するものであり、これらの各出願は、その全体が参照により本明細書に組み込まれる。
続きを表示(約 3,100 文字)
【0002】
技術分野
本願の開示は、概括的にはオーディオ信号処理に関し、詳細にはダイアログ検出器に関する。
【背景技術】
【0003】
ダイアログ検出器は、複数のオーディオ信号処理アルゴリズム、たとえば、ダイアログ向上、ノイズ削減、およびラウドネスメーターのキーとなるコンポーネントである。一般に、現在のダイアログ検出器では、入力オーディオ信号は、まず、サンプリングレート変換またはダウンミックスなどの手段によって、前処理コンポーネントにおいて一様なフォーマットに変換される。たとえば、前処理として、入力オーディオ信号はモノ・オーディオ信号にダウンミックスされてもよい。次に、処理されたオーディオ信号が短い時間的フレームに分割され、各フレームの特性を記述するために、固定数のフレームを含むコンテキストウィンドウからオーディオ特徴(features)が抽出される。次いで、機械学習法を用いて構築された分類器が適用されて、オーディオ特徴を自動的に、ダイアログの存在の確率を表す信頼スコアにマッピングする。最後に、得られた信頼スコアの望まれないゆらぎを除去または平滑化するために、メジアンまたは平均フィルタのような後処理が適用されることができる。信頼スコアが高い場合に、信号はダイアログにとして分類される。次いで、ダイアログ信号は、ダイアログ向上器のようなオーディオ改善装置に送られてもよい。
【発明の概要】
【課題を解決するための手段】
【0004】
本発明の第1の側面は、入力オーディオ信号に応答してダイアログ検出器内のオーディオ特徴を抽出する方法に関する。当該方法は、前記入力オーディオ信号を複数のフレームに分割する段階と、各フレームからフレーム・オーディオ特徴を抽出する段階と、コンテキスト窓の集合を決定する段階であって、各コンテキスト窓は、現在フレームを囲むいくつかのフレームを含む、段階と、各コンテキスト窓について、それぞれのコンテキストにおけるフレームのフレーム・オーディオ特徴に基づいて、現在フレームについて関連するコンテキスト・オーディオ特徴を導出する段階と、各コンテキスト・オーディオ特徴を連結して、現在フレームを表す合成特徴ベクトルを形成する段階と、を含む方法。
【0005】
このように、本発明は、異なるコンテキストにおけるフレームを表現するために、それぞれが異なる数のフレームを含むいくつかのコンテキスト窓を使用することを提案する。ここで、異なる長さのコンテキスト窓は、目標フレームのオーディオ特性を表現する際に異なる役割を果たす。異なる長さのコンテキスト窓は、応答速度を改善し、堅牢性を改善することができる。この目的のために、本願は、異なる長さまたは範囲の複数のコンテキスト窓、たとえば3つのコンテキスト窓、たとえば短期コンテキスト、中期コンテキストおよび長期コンテキストを決定するための、新しいプロセス、複合期間(combo-term)コンテキスト決定を導入する。すると、オーディオ特徴抽出コンポーネントにおいて、それらのコンテキストにおいてオーディオ特徴が抽出される。
【0006】
いくつかの実装では、フレーム特徴抽出コンポーネントは、入力オーディオ信号から分割された複数のフレームの各フレームからフレーム・オーディオ特徴(すなわち、フレームのオーディオ特徴)を抽出し、複合期間コンテキスト決定コンポーネントが、各コンテキスト窓の長さまたは範囲を決定する。次いで、それぞれの決定されたコンテキストにおけるフレーム・オーディオ特徴に基づいて、関連するコンテキスト・オーディオ特徴が導出される。次いで、各コンテキスト・オーディオ特徴が連結されて、現在フレームを表す合成特徴ベクトルを形成する。
【0007】
いくつかの実装では、コンテキスト窓は、短期コンテキスト、中期コンテキスト、長期コンテキストを含む。短期コンテキストは、現在フレームのまわりのローカルな情報を表す。中期コンテキストは、複数の回顧フレームをさらに含む。長期コンテキストは、複数の長期履歴フレームをさらに含む。
【0008】
いくつかの実装では、一つまたは複数のコンテキストの長さまたは範囲(すなわち、それぞれのコンテキスト窓内のフレームの数)は、あらかじめ決定されることができる。たとえば、先読みバッファが利用可能である場合、短期コンテキストは現在フレームと先読みフレームを含むことができる。中期コンテキストは、現在フレーム、先読みフレームおよび回顧フレームを含むことができる。長期コンテキストは、現在フレーム、先読みフレーム、回顧フレーム、および長期履歴フレームを含むことができる。ある実装では、先読みフレームの長さまたは範囲は、23フレームの長さとしてあらかじめ決定されることができ、回顧フレームの長さまたは範囲は、24フレームの長さとしてあらかじめ決定されることができ、長期履歴フレームの長さまたは範囲は、48~96フレームの長さとしてあらかじめ決定されることができる。別の例では、先読みバッファが利用可能でない場合、短期コンテキストは、現在フレームと回顧フレームの第1の部分とを含むことができる。中期コンテキストは、現在フレームと、回顧フレームの前記第1の部分と、回顧フレームの第2の部分とを含むことができる。長期コンテキストは、現在フレームと、回顧フレームの前記第1の部分と、回顧フレームの前記第2の部分と、長期履歴フレームとを含むことができる。したがって、回顧フレームの第1の部分の長さまたは範囲は、23フレームの長さとしてあらかじめ決定されることができ、回顧フレームの第2の部分の長さまたは範囲は、24フレームの長さとしてあらかじめ決定されることができ、長期履歴フレームの長さまたは範囲は48~96フレームの長さとしてあらかじめ決定されることができる。
【0009】
いくつかの実装では、一つまたは複数のコンテキストの長さまたは範囲は、フレーム・レベルの特徴の定常性(stationarity)を解析することによって適応的に決定できる。たとえば、適応的な決定は、入力オーディオ信号の振幅に関連する情報に基づく。具体的には、短期コンテキストの長さまたは範囲を適応的に決定する一つの仕方は、強力な立ち上がりまたは過渡検出に基づく。別の例では、適応的な決定は、入力オーディオ信号のスペクトルに関連する情報に基づく。具体的には、短期コンテキストの長さまたは範囲を適応的に決定する一つの仕方は、ベイズ情報基準(Bayesian Information Criteria)を使用することによって最大スペクトル不整合(inconsistency)を識別することに基づいている。さらに、適応的な決定の実装において、短期コンテキストは、先読みおよび回顧の両方の方向に拡張する、または、一方の方向のみに拡張することができる。いくつかの実装では、コンテキストの長さまたは範囲は、適応的な決定と組み合わせて事前に定義されることができる。
【0010】
さらに、本願は、低SNRダイアログにおける検出精度を改善するために、信号における無相関ノイズを除去する事前クリーニング法を提案する。この目的のために、本願は、相関した信号に、より重点を置いて、時間‐周波数依存利得によるダウンミックスを利用する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
アクセサリー型集音器
今日
横浜ゴム株式会社
音響材
7日前
横浜ゴム株式会社
音響材
7日前
横浜ゴム株式会社
音響材
7日前
横浜ゴム株式会社
水中音響材
10日前
ヤマハ株式会社
ヘルムホルツ共鳴器
1か月前
大和ハウス工業株式会社
音再現設備
14日前
日産自動車株式会社
防音構造体
28日前
岡山県
吸音構造
7日前
セイコーエプソン株式会社
吸音ボード
28日前
株式会社第一興商
カラオケ装置
14日前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
6日前
京セラ株式会社
音出力装置及び音出力方法
28日前
コスモネクスト株式会社
入力支援プログラム及び入力支援方法
21日前
本田技研工業株式会社
能動型騒音低減装置
28日前
本田技研工業株式会社
能動型騒音低減装置
6日前
本田技研工業株式会社
能動型騒音低減装置
6日前
日本放送協会
音声認識装置およびプログラム
28日前
本田技研工業株式会社
能動型騒音低減装置
1か月前
個人
発音体モジュール
1日前
株式会社アナザーウェア
鍵盤画面表示プログラム及びそのシステム
1か月前
カシオ計算機株式会社
楽器用電子機器
6日前
トヨタ自動車株式会社
異音診断システム
1か月前
株式会社コルグ
音波生成装置、音波生成方法、プログラム
21日前
株式会社永セ仁
「パワハラ」等ハラスメント発言に係る職場環境測定システム
10日前
ソフトバンクグループ株式会社
行動制御システム
21日前
株式会社AZSTOKE
調整装置、およびプログラム
6日前
本田技研工業株式会社
音声認識装置、音声認識方法、およびプログラム
13日前
永楽電気株式会社
放送音声文字化システム及び放送設備における故障診断方法
28日前
東日本電信電話株式会社
演奏補助装置、演奏補助方法、及び、演奏補助プログラム
13日前
パイオニア株式会社
情報処理装置
15日前
ヤマハ株式会社
響板、その製造方法および響板を備える楽器
13日前
ヤマハ株式会社
信号生成方法、表示制御方法およびプログラム
7日前
ドーナッツロボティクス株式会社
音声処理システム、音声処理方法
21日前
株式会社イノアックコーポレーション
防音カバー
6日前
続きを見る
他の特許を見る