TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024038691
公報種別公開特許公報(A)
公開日2024-03-21
出願番号2022142915
出願日2022-09-08
発明の名称音響信号推定装置、音響信号推定方法、およびプログラム
出願人日本電信電話株式会社
代理人個人,個人,個人
主分類G10L 25/51 20130101AFI20240313BHJP(楽器;音響)
要約【課題】歪みの大きな信号に対して精度が高く、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する。
【解決手段】第1推定部10は、第2推定信号v[k]と、双対変数u[k]とを入力として第1推定信号x[k+1]を生成する。第2推定部20は、時間周波数表現に変換されたx[k+1]と、u[k]とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行し、スパース最適化法により第2推定信号v[k+1]を生成する。変数更新部30は、u[k]と、時間周波数表現に変換されたx[k+1]と、v[k+1]とを入力として、新たな双対変数双対変数u[k+1]を生成する。出力部40は、x[k+1]の生成回数がK-1以上の場合に、x[K]を推定結果として出力する。
【選択図】図1
特許請求の範囲【請求項1】
所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定装置であって、
k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x
[k]
は第1推定信号であり、v
[k]
は第2推定信号であり、u
[k]
は双対変数uであり、x
[0]
は前記クリップ後信号の波形であり、v
[0]
はx
[0]
の時間周波数表現であり、u
[0]
は任意の数である場合に、
前記第2推定信号v
[k]
と、前記双対変数u
[k]
とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素Π
Γ
を適用することにより新たな波形である第1推定信号x
[k+1]
を生成する第1推定部と、
前記第1推定信号x
[k+1]
を時間周波数表現に変換し、この時間周波数表現に変換された前記第1推定信号x
[k+1]
と、前記双対変数u
[k]
とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v
[k+1]
を生成する第2推定部と、
前記双対変数u
[k]
と、前記時間周波数表現に変換された前記第1推定信号x
[k+1]
と、前記第2推定信号v
[k+1]
とを入力として、新たな双対変数双対変数u
[k+1]
を生成する変数更新部と、
前記実行回数kがK-1に満たない場合には、kを1つ増加させ、前記第1推定部、前記第2推定部、前記変数更新部の各処理を実施させ、前記実行回数kがK-1以上の場合には、生成した第1推定信号x
[K]
を、クリップ前信号~yの波形の推定結果として出力する出力部と、
を有する音響信号推定装置。
続きを表示(約 2,000 文字)【請求項2】
前記ディープニューラルネットワークを用いたソフト閾値処理は、推定学習装置により生成された学習済モデルを用いるものであり、
前記推定学習装置は、
入力された学習用クリップ前信号に対して、擬似的振幅制限であるハードクリップを適用して学習用クリップ後信号を生成する、クリップ適用部と、
前記学習用クリップ後信号から前記学習用クリップ前信号を推定する学習用推定部と、
前記学習用推定部により推定された学習用クリップ前信号と、前記入力された学習用クリップ前信号との間の損失を算出する損失算出部と、
前記損失が所定基準を満たさない場合には、前記損失を元に前記学習用推定部が使用するパラメータを更新して前記学習用推定部による推定を実施させ、前記損失が所定基準を満たす場合には、直前に使用したパラメータを有した前記学習用推定部を、学習済モデルとして出力する、パラメータ更新部と、
を有する、請求項1に記載の音響信号推定装置。
【請求項3】

*
は離散Gabor変換の作用素Gの随伴作用素であり、Γは前記所定の閾値に基づいた実行可能解の集合である場合に、前記第1推定信号x
[k+1]
は、次式を用いて算出される請求項1に記載の音響信号推定装置。
TIFF
2024038691000012.tif
18
71
【請求項4】

θ
は重み付き閾値作用素である場合に、前記第2推定信号v
[k+1]
は次式を用いて生成される請求項3に記載の音響信号推定装置。
TIFF
2024038691000013.tif
9
58
【請求項5】
前記変数更新部により生成される新たな双対変数u
[k+1]
は次式を用いて生成される請求項4に記載の音響信号推定装置。
TIFF
2024038691000014.tif
9
65
【請求項6】
所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定方法であって、
k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x
[k]
は第1推定信号であり、v
[k]
は第2推定信号であり、u
[k]
は双対変数uであり、x
[0]
は前記クリップ後信号の波形であり、v
[0]
はx
[0]
の時間周波数表現であり、u
[0]
は任意の数である場合に、
音響信号推定装置の第1推定部が、前記第2推定信号v
[k]
と、前記双対変数u
[k]
とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第1推定信号x
[k+1]
を生成し、
前記音響信号推定装置の第2推定部が、前記第1推定信号x
[k+1]
を時間周波数表現に変換し、この時間周波数表現に変換された前記第1推定信号x
[k+1]
と、前記双対変数u
[k]
とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v
[k+1]
を生成し、
前記音響信号推定装置の変数更新部が、前記双対変数u
[k]
と、前記時間周波数表現に変換された前記第1推定信号x
[k+1]
と、前記第2推定信号v
[k+1]
とを入力として、新たな双対変数双対変数u
[k+1]
を生成し、
前記音響信号推定装置の出力部が、前記実行回数kがK-1に満たない場合には、kを1つ増加させ、前記第1推定部、前記第2推定部、前記変数更新部の各処理を実施させ、前記実行回数kがK-1以上の場合には、生成した第1推定信号x
[K]
を、クリップ前信号~yの波形の推定結果として出力する、
音響信号推定方法。
【請求項7】
請求項1から5のいずれかに記載の音響信号推定装置をコンピュータに機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、クリップ後の信号からクリップ前の信号を復元する技術に関する。
続きを表示(約 3,700 文字)【背景技術】
【0002】
録音機器などの音響機器の性能の制約により、録音の際に、音響信号において振幅制限を超過した部分が失われるというクリッピングが生じることがある。このクリッピングされた信号の波形から元の信号の波形を復元する技術にAudio declippingがある。Audio declippingには、大別すると2つの手法がある。一の手法としては、ディープニューラルネットワーク(DNN)に基づく手法がある。この手法は、信号の歪みが大きい場合であっても高い復元性能を達成できる一方で、学習データに含まれていなかったようなデータの場合には復元性能が劣化してしまうという問題がある。他の手法としては、スパース最適化に基づく手法がある。この手法は、DNNに基づく手法とは異なり、学習データと異なる信号の場合であっても復元対応が可能である。つまり、歪みの大きさに応じて(換言すれば問題の難しさに応じて)適切な復元処理を行うことが可能である(例えば非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
P.Zaviska, P.Rajmic, A.Ozerov and L.Rencker, "A survey and an extensive evaluation of popular audio declipping methods," IEEE J. Sel. Top. Signal Process., 15(1), 5-24 (2021).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述したスパース最適化に基づく手法の場合には、クリッピングによる信号の歪み方というデータの性質を考慮できないことから、時間周波数領域の各成分を適切に取捨することができないという問題があった。一方で、上述のDNNに基づく手法の場合には、機械学習(以下「学習」ともいう。)によりデータの性質を考慮できるようになるものの、復元対象であるクリッピングされた信号(以下、「クリップ後信号」ともいう。)が、学習データと比較して、振幅などの差が大きい場合には、復元のための十分な推定ができないという問題があった。
【0005】
そこで、本開示は、上記課題を解決するためになされたものであり、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する音響信号推定装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本開示の一態様の音響信号推定装置は、所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定装置であり、第1推定部と、第2推定部と、変数更新部と、出力部とを有する。k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x
[k]
は第1推定信号であり、v
[k]
は第2推定信号であり、u
[k]
は双対変数uであり、x
[0]
はクリップ後信号の波形であり、v
[0]
はx
[0]
の時間周波数表現であり、u
[0]
は任意の数であるとする。この場合に、第1推定部は、第2推定信号v
[k]
と、双対変数u
[k]
とを入力として制約対象の波形を生成し、制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素Π
Γ
を適用することにより新たな波形である第1推定信号x
[k+1]
を生成する。第2推定部は、第1推定信号x
[k+1]
を時間周波数表現に変換し、この時間周波数表現に変換された第1推定信号x
[k+1]
と、双対変数u
[k]
とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v
[k+1]
を生成する。変数更新部は、双対変数u
[k]
と、時間周波数表現に変換された第1推定信号x
[k+1]
と、第2推定信号v
[k+1]
とを入力として、新たな双対変数u
[k+1]
を生成する。出力部は、実行回数kがK-1に満たない場合には、kを1つ増加させ、第1推定部、第2推定部、変数更新部の各処理を実施させ、実行回数kがK-1以上の場合には、生成した第1推定信号x
[K]
を、クリップ前信号~yの波形の推定結果として出力する。
【発明の効果】
【0007】
本開示によれば、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理の閾値を、DNNに基づいてデータドリブンに決定しているため、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現できる。
【図面の簡単な説明】
【0008】
図1は本実施の形態に係る音響信号推定装置の機能構成例を示した図である。
図2は本実施の形態に係る音響信号推定方法の処理フロー例を示した図である。
図3は学習済モデルF
θ
を生成するための推定学習装置の機能構成例を示した図である。
図4は学習済モデルF
θ
を生成するための推定学習方法の処理フロー例を示した図である。
図5は音響信号推定装置1における、学習データの歪の大きさを変えた場合の性能結果を示した図である。
図6は従来手法と比較した場合の音響信号推定装置1の性能結果を示した図である。
図7はコンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0009】
<文字表記>
文中で使用する記号「~」(上付きチルダ)は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「~y」は数式中では次式で表される。
TIFF
2024038691000002.tif
9
5
本開示の実施の形態は、クリップ後の信号からクリップ前の信号を復元する技術において、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理を、DNNに基づいてデータドリブンに決定する。本開示の手法は、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現可能とする技術である。本開示の実施の形態の詳細を説明するにあたり、はじめに、Audio declippingの概要と、スパース最適化法に基づく従来の手法について説明する。また、DNNに基づく手法にも言及する。
【0010】
(Audio declippingについて)
時間をtとした場合に、次式のように、元の信号であるクリップ前の信号(以下、「クリップ前信号」ともいう。)~yと閾値τによって振幅が制限された信号y(以下、「クリップ後信号」ともいう。)を考える。
TIFF
2024038691000003.tif
27
85
上記のクリップ後信号yのインデックスは、3つの素集合H={t∈[1,T]|y[t]≧τ},R={t∈[1,T]||y[t]|<τ},L={t∈[1,T]|y[t]≦-τ}に分けられる。Audio declippingとは、信号yと上述のインデックスの情報(H,R,L)のみから、元の信号であるクリップ前信号~yを推定する技術のことである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社フジコー
吸音材
14日前
三井化学株式会社
遮音構造体
20日前
三井化学株式会社
防音構造体
18日前
株式会社JVCケンウッド
情報処理装置
4日前
株式会社SUBARU
エージェントシステム
21日前
大和ハウス工業株式会社
騒音低減設備
20日前
株式会社フェルナンデス
電気ギター用弦振動持続装置
4日前
ヤマハ株式会社
管楽器用スワブ
12日前
株式会社レゾナック
吸音材及び車両部材
5日前
キョーラク株式会社
樹脂製パネル
19日前
株式会社河合楽器製作所
自動演奏装置及び自動演奏プログラム
14日前
株式会社第一興商
カラオケシステム
21日前
TDK株式会社
振動デバイス及びこれを備えるICカード
18日前
日産自動車株式会社
音声認識方法及び音声認識装置
26日前
日産自動車株式会社
音声認識方法及び音声認識装置
26日前
株式会社河合楽器製作所
鍵盤装置の鍵
19日前
トヨタ自動車株式会社
車室の床下構造
12日前
富士通株式会社
評価プログラム、評価方法、評価装置
6日前
株式会社NTTドコモ
発話スタイル改善支援装置
11日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
13日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
13日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
18日前
ヤマハ株式会社
音響モデルの訓練方法
13日前
日産自動車株式会社
対話装置及び対話制御方法
12日前
ヤマハ株式会社
音響モデルの訓練方法
13日前
株式会社河合楽器製作所
鍵盤楽器のハンマー装置
18日前
株式会社河合楽器製作所
鍵盤楽器の鍵ガイド構造
18日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
18日前
株式会社河合楽器製作所
鍵盤用錘及び鍵盤楽器の鍵
18日前
ヤマハ株式会社
音波形の特性分布に係る表示方法
13日前
ヤマハ株式会社
楽曲生成方法、およびプログラム
11日前
株式会社河合楽器製作所
ドロップアクションを有するピアノ
19日前
福井経編興業株式会社
吸音体
17日前
福井経編興業株式会社
吸音体
17日前
続きを見る