TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024160451
公報種別
公開特許公報(A)
公開日
2024-11-14
出願番号
2023075445
出願日
2023-05-01
発明の名称
音源信号推定装置、音源信号推定方法、プログラム
出願人
日本電信電話株式会社
,
東京都公立大学法人
代理人
個人
,
個人
,
個人
主分類
G10L
21/028 20130101AFI20241107BHJP(楽器;音響)
要約
【課題】マイクロホンの数が多くても高速に動作する音源追跡技術を提供する。
【解決手段】分離行列W(f, t-1)を用いて、観測信号x(f, t)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t)を計算する第1計算部と、近似分離信号^y(f, t)を用いて、値r
k
(t)を更新する第2計算部と、近似分離信号^y(f, t)と値r
k
(t)を用いて、k=λに対しては重みG
λ
(f, t)を更新し、k≠λに対しては重みG
k
(f, t)と重みg
k
(f, t)を更新する第3計算部と、重みG
k
(f, t)と重みg
k
(f, t)を用いて、分離行列W(f, t)と分離信号y(f, t)を更新する第4計算部とを含む。
【選択図】図1
特許請求の範囲
【請求項1】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、y
k
(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y
1
(f, t),…, y
K
(f, t)]
T
(f=1, …, F, t=T’+1, …,T)を分離信号、w
k
(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w
1
(f, t),…, w
K
(f, t)]
H
(f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
時間フレームtをt<-T’+1により初期化する初期化部と、
分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、
近似分離信号^y(f, t) (f=1, …, F)を用いて、値r
k
(t) (k=1, …, K)を更新する第2計算部と、
近似分離信号^y(f, t) (f=1, …, F)と値r
k
(t) (k=1, …, K)を用いて、k=λに対しては重みG
λ
(f, t) (f=1, …, F)を更新し、k≠λに対しては重みG
k
(f, t) (f=1, …, F)と重みg
k
(f, t) (f=1, …, F)を更新する第3計算部と、
重みG
k
(f, t) (k=1, …, K, f=1, …, F)と重みg
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、
時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、
を含む音源信号推定装置。
続きを表示(約 6,000 文字)
【請求項2】
請求項1に記載の音源信号推定装置であって、
前記第1計算部は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算するものであり、
TIFF
2024160451000041.tif
9
53
前記第2計算部は、次式により、値r
k
(t) (k=1, …, K)を更新するものであり、
TIFF
2024160451000042.tif
18
50
αを0<α≦1を満たす定数、φ(r)をφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R
≧0
から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数とし、
前記第3計算部は、次式により、重みG
k
(f, t) (k=1, …, K, f=1, …, F), g
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を更新するものであり、
TIFF
2024160451000043.tif
23
119
TIFF
2024160451000044.tif
14
96
前記第4計算部は、次式により、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新するものである
TIFF
2024160451000045.tif
27
105
TIFF
2024160451000046.tif
27
89
ことを特徴とする音源信号推定装置。
【請求項3】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、y
k
(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y
1
(f, t),…, y
K
(f, t)]
T
(f=1, …, F, t=T’+1, …,T)を分離信号、w
k
(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w
1
(f, t),…, w
K
(f, t)]
H
(f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
時間フレームtをt<-T’+1により初期化する初期化部と、
W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算部と、
近似分離信号^y(f, t) (f=1, …, F)を用いて、値r
k
(t) (k=1, …, K)を更新する第2計算部と、
近似分離信号^y(f, t) (f=1, …, F)と値r
k
(t) (k=1, …, K)を用いて、k=λに対しては重みG
λ
(f, t) (f=1, …, F)を更新し、k≠λに対しては重みG
k
(f, t) (f=1, …, F)と重みg
k
(f, t) (f=1, …, F)を更新する第3計算部と、
重みG
k
(f, t) (k=1, …, K, f=1, …, F)と重みg
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算部と、
時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定部と、
を含む音源信号推定装置。
【請求項4】
請求項3に記載の音源信号推定装置であって、
前記第1計算部は、次式により、近似分離信号^y(f, t) (f=1, …, F)を計算するものであり、
TIFF
2024160451000047.tif
9
71
前記第2計算部は、次式により、値r
k
(t) (k=1, …, K)を更新するものであり、
TIFF
2024160451000048.tif
18
50
αを0<α≦1を満たす定数、φ(r)をφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R
≧0
から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数とし、
前記第3計算部は、次式により、重みG
k
(f, t) (k=1, …, K, f=1, …, F), g
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を更新するものであり、
TIFF
2024160451000049.tif
23
119
TIFF
2024160451000050.tif
14
96
前記第4計算部は、次式により、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新するものである
TIFF
2024160451000051.tif
9
70
TIFF
2024160451000052.tif
18
103
(ただし、e
k
は第k要素が1、それ以外の要素は0である単位ベクトル)
TIFF
2024160451000053.tif
9
53
(ただし、~Q(f, T’)は単位行列)
TIFF
2024160451000054.tif
9
44
ことを特徴とする音源信号推定装置。
【請求項5】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、y
k
(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y
1
(f, t),…, y
K
(f, t)]
T
(f=1, …, F, t=T’+1, …,T)を分離信号、w
k
(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w
1
(f, t),…, w
K
(f, t)]
H
(f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
音源信号推定装置が、時間フレームtをt<-T’+1により初期化する初期化ステップと、
前記音源信号推定装置が、分離行列W(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)を用いて、値r
k
(t) (k=1, …, K)を更新する第2計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)と値r
k
(t) (k=1, …, K)を用いて、k=λに対しては重みG
λ
(f, t) (f=1, …, F)を更新し、k≠λに対しては重みG
k
(f, t) (f=1, …, F)と重みg
k
(f, t) (f=1, …, F)を更新する第3計算ステップと、
前記音源信号推定装置が、重みG
k
(f, t) (k=1, …, K, f=1, …, F)と重みg
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、分離行列W(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算ステップと、
前記音源信号推定装置が、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定ステップと、
を含む音源信号推定方法。
【請求項6】
x(f, t)(f=1, …, F, t=T’+1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックス、T’は1以上の整数)をK個(ただし、Kは2以上の整数)のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、y
k
(f, t)(k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源からの信号(以下、第k音源信号という)の推定信号である第k分離信号、y(f, t)=[y
1
(f, t),…, y
K
(f, t)]
T
(f=1, …, F, t=T’+1, …,T)を分離信号、w
k
(f, t) (k=1, …, K, f=1, …, F, t=T’+1, …,T)を第k音源信号を分離するためのフィルタである第k分離フィルタ、W(f, t)=[w
1
(f, t),…, w
K
(f, t)]
H
(f=1, …, F, t=T’+1, …,T)を分離行列とし、
K個の音源のうち、第λ音源(ただし、λは1≦λ≦Kを満たす)は移動し、第λ音源以外のK-1個の音源は移動しないものとし、
分離行列W(f, t)の初期値W(f, T’) (f=1, …, F)は得られているものとし、
音源信号推定装置が、時間フレームtをt<-T’+1により初期化する初期化ステップと、
前記音源信号推定装置が、W(f, t-1)=~Q(f, t-1)W(f, T’)を満たす補助分離行列~Q(f, t-1) (f=1, …, F)を用いて、観測信号x(f, t) (f=1, …, F)から分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する第1計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)を用いて、値r
k
(t) (k=1, …, K)を更新する第2計算ステップと、
前記音源信号推定装置が、近似分離信号^y(f, t) (f=1, …, F)と値r
k
(t) (k=1, …, K)を用いて、k=λに対しては重みG
λ
(f, t) (f=1, …, F)を更新し、k≠λに対しては重みG
k
(f, t) (f=1, …, F)と重みg
k
(f, t) (f=1, …, F)を更新する第3計算ステップと、
前記音源信号推定装置が、重みG
k
(f, t) (k=1, …, K, f=1, …, F)と重みg
k
(f, t) (k=1, …, λ-1, λ+1, …, K, f=1, …, F)を用いて、補助分離行列~Q(f, t) (f=1, …, F)と分離信号y(f, t) (f=1, …, F)を更新する第4計算ステップと、
前記音源信号推定装置が、時間フレームtをt<-t+1により更新し、t>Tを満たす場合は処理を終了し、それ以外の場合は第1計算部の処理に戻る終了条件判定ステップと、
を含む音源信号推定方法。
【請求項7】
請求項1ないし4のいずれか1項に記載の音源信号推定装置としてコンピュータを機能させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、複数のマイクロホンを用いて観測された混合音響信号に含まれる混合前の音源からの信号を逐次的に分離するオンライン音源分離技術に関する。
続きを表示(約 3,300 文字)
【背景技術】
【0002】
補聴器に内蔵されているマイクロホンにより集音された信号には、複数の音声信号や音響信号が混入する。補聴器の利用者が複数の音声信号や音響信号を高精度かつリアルタイムに聞き分けることができるようにするために、オンライン音源分離技術が盛んに研究されている。オンライン音源分離技術とは、複数のマイクロホンを用いて観測された混合音響信号(以下、単に観測信号という)から混合前の音源からの信号(以下、音源信号という)を逐次的に分離する技術のことである。
【0003】
以下、オンライン音源分離を短時間フーリエ変換領域における問題として定式化し説明する。
【0004】
K個(Kは2以上の整数)のマイクロホンを用いてK個の音源からの信号が観測されている状況を考える。ただし、K個の音源は移動してもよいものとする。fを周波数ビンを表すインデックス、tを時間フレームを表すインデックスとして、短時間フーリエ変換領域における観測信号x(f, t)(f=1, …, F, t=1, …,T)は以下のように表される。
TIFF
2024160451000002.tif
9
65
TIFF
2024160451000003.tif
9
81
TIFF
2024160451000004.tif
14
85
ここで、Cは複素数の集合を表し、s
k
(f, t)∈C (k=1, …, K)は第k音源からの信号(以下、第k音源信号という)、a
k
(f, t)∈C
K
(k=1, …, K)は第k音源のステアリングベクトルである。また、式(2)のTは転置を表す。
【0005】
y
k
(f, t)を第k音源信号s
k
(f, t)の推定信号(以下、第k分離信号という)、y(f, t)を式(4)で定義されるベクトル(以下、分離信号という)とする。
TIFF
2024160451000005.tif
9
82
式(5)で定義される分離行列W(f, t)を用いると、分離信号y(f, t)は観測信号x(f, t)から式(6)により得られる。
TIFF
2024160451000006.tif
14
90
TIFF
2024160451000007.tif
9
67
ここで、w
k
(f, t)∈C
K
(k=1, …, K)は第k音源信号を分離するためのフィルタ(以下、第k分離フィルタという)である。また、式(5)のHはエルミート転置を表す。
【0006】
オンライン音源分離は、K個の音源が移動する場合において、現在の時間フレームにおける観測信号やそれより前の時間フレームにおける観測信号を用いて現在の時間フレームにおける分離行列を逐次的に推定する問題として定式化される。特に、1個の音源のみが移動し、その他のK-1個の音源が移動しない場合は、音源追跡という。移動する1個の音源のことを目的音源、移動しないK-1個の音源のことを非目的音源という。第λ音源(λは1≦λ≦Kを満たす)が目的音源であるものとすると、第λ音源のステアリングベクトルa
λ
(f, t)は時間的に変化するが、その他の音源のステアリングベクトルa
k
(f, t) (k≠λ)は時間的に変化しない。したがって、非目的音源のステアリングベクトルa
k
(f, t) (k≠λ)は既知としてもよい。
【0007】
オンライン音源分離及び音源追跡を実現するアルゴリズムとして、例えば非特許文献1に開示されているアルゴリズムがある。非特許文献1のアルゴリズムを以下に示す。
【0008】
<<非特許文献1のアルゴリズム>>
------------------------------------------------------------------
1: for t=1, …, T
2: 観測信号x(f, t) (f=1, …, F)を取得する
3: 次式により、分離信号y(f, t)の近似信号である近似分離信号^y(f, t) (f=1, …, F)を計算する。
TIFF
2024160451000008.tif
9
53
4: 次式により、第k重み付き共分散行列V
k
(f, t) (k=1, …, K, f=1, …, F)を更新する。
TIFF
2024160451000009.tif
14
107
(ただし、αは0<α≦1を満たす定数)
TIFF
2024160451000010.tif
18
50
5: if オンライン音源分離
6: for k=1, …, K
7: 次式により、第k分離フィルタw
k
(f, t) (f=1, …, F)を更新する。
TIFF
2024160451000011.tif
27
105
TIFF
2024160451000012.tif
14
83
TIFF
2024160451000013.tif
14
83
8: eise if 音源追跡
9: 次式により、第λ分離フィルタw
λ
(f, t) (f=1, …, F)を更新する。
TIFF
2024160451000014.tif
9
66
TIFF
2024160451000015.tif
14
82
------------------------------------------------------------------
ここで、ステップ4におけるφ(r)はφ(r)=ψ’(r)/2r(ただし、ψ(r)は0以上の実数の集合R
≧0
から実数の集合Rへの微分可能な関数であり、ψ’はψの微分を表す)により定義される音源の特性を表す関数である。
【先行技術文献】
【非特許文献】
【0009】
T. Nakashima and N. Ono, “Inverse-free online independent vector analysis with flexible iterative source steering,” in Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), pp.750-754, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1のアルゴリズムの計算量は、ステップ4における重み付き共分散行列の計算をみればわかるように、オンライン音源分離、音源追跡のいずれの場合もO(K
3
)となり、補聴器のように計算能力が限られる機器ではマイクロホンの数が増加するとリアルタイムでの動作を保証することが困難となる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
横浜ゴム株式会社
水中音響材
今日
大和ハウス工業株式会社
音再現設備
4日前
株式会社第一興商
カラオケ装置
4日前
株式会社コルグ
音波生成装置、音波生成方法、プログラム
11日前
株式会社永セ仁
「パワハラ」等ハラスメント発言に係る職場環境測定システム
今日
本田技研工業株式会社
音声認識装置、音声認識方法、およびプログラム
3日前
パイオニア株式会社
情報処理装置
5日前
東日本電信電話株式会社
演奏補助装置、演奏補助方法、及び、演奏補助プログラム
3日前
ヤマハ株式会社
響板、その製造方法および響板を備える楽器
3日前
カシオ計算機株式会社
情報処理装置、情報処理方法及びプログラム
5日前
カシオ計算機株式会社
楽音制御システム
3日前
ローランド株式会社
電子打楽器、制御装置、ベロシティ算出プログラム及びベロシティ算出方法
3日前
VIE株式会社
情報処理方法、記録媒体及び情報処理装置
今日
株式会社東芝
推定プログラム、学習プログラム、推定装置、学習装置、推定方法、学習方法、および学習モデル
11日前
ハーマン インターナショナル インダストリーズ インコーポレイテッド
音響スクランブルを介した空間インパルス応答の決定
4日前
グーグル エルエルシー
自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録
5日前
ドルビー ラボラトリーズ ライセンシング コーポレイション
没入的オーディオ信号を含むビットストリームを生成するための方法および装置
5日前
ヌマブ セラピューティクス アクチェンゲゼルシャフト
CD137を標的とする抗体およびその使用方法
5日前
他の特許を見る