TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025117508
公報種別
公開特許公報(A)
公開日
2025-08-12
出願番号
2024100096
出願日
2024-06-21
発明の名称
音響信号処理方法、音響信号処理装置、及び音響信号処理プログラム
出願人
公立大学法人秋田県立大学
,
パナソニックホールディングス株式会社
代理人
個人
,
個人
,
個人
主分類
H04S
7/00 20060101AFI20250804BHJP(電気通信技術)
要約
【課題】パニングにより音源信号を合成する際の合成された音響信号の歪みの偏りを抑える音響信号処理方法を提供する。
【解決手段】
音源信号Sの音源方向を取得する。そして、取得された音源方向に基づいて、音源信号Sを複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングする。また、振り分けられた信号に複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行う。この際の複数の代表HRIRのそれぞれは、学習により算出されたものである。そして、複数の代表HRIRのそれぞれは、全天球又は水平面内の全周におけるパニングによる合成HRIRと真のHRIRとの誤差の期待値を最小化するコスト関数に基づいて学習される。
【選択図】図3
特許請求の範囲
【請求項1】
音響信号処理装置により実行される音響信号処理方法であって、
音源信号の音源方向を取得し、
取得された音源方向に基づいて前記音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、
振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行い、
前記複数の代表HRIRのそれぞれは、学習により算出されたものである
ことを特徴とする音響信号処理方法。
続きを表示(約 1,000 文字)
【請求項2】
前記複数の代表HRIRのそれぞれは、
全天球又は水平面内の全周におけるパニングによる合成HRIRと真のHRIRとの誤差の期待値を最小化するコスト関数に基づいて学習される
ことを特徴とする請求項1に記載の音響信号処理方法。
【請求項3】
前記複数の代表HRIRのそれぞれは、
全天球又は水平面内の全周におけるパニングによる合成HRIRと真のHRIRとの誤差の期待値を最小化する項、及び方位並びに/若しくは仰角方向で隣接するHRIR間の誤差の変化の期待値を最小化する項を含むコスト関数に基づいて学習される
ことを特徴とする請求項1に記載の音響信号処理方法。
【請求項4】
前記誤差の期待値は、誤差の平均値を用いる
ことを特徴とする請求項2又は3に記載の音響信号処理方法。
【請求項5】
前記誤差の期待値は、誤差のパワーと信号のパワーの比の平均値を用いる
ことを特徴とする請求項2又は3に記載の音響信号処理方法。
【請求項6】
前記複数の代表HRIRのそれぞれは、前記バイノーラルレンダリングの左耳用信号と、右耳用信号とで異なる
ことを特徴とする請求項1に記載の音響信号処理方法。
【請求項7】
前記コスト関数は、前記学習において、各代表方向のHRIRに乗ずる前記ゲインの変化をペナルティとして加える歪尺度を含む
ことを特徴とする請求項2又は3に記載の音響信号処理方法。
【請求項8】
前記歪尺度は、前記学習の際、及び/又は再生の際に用いられる
ことを特徴とする請求項7に記載の音響信号処理方法。
【請求項9】
前記ゲインは、下記の式(13)で算出される
TIFF
2025117508000031.tif
16
166
ことを特徴とする請求項7に記載の音響信号処理方法。
【請求項10】
前記A
i
、B
i
、C
i
は、再生の際には、前記複数の代表HRIRのそれぞれに分配した各信号に乗ぜられるゲインとして使用される
ことを特徴とする請求項9に記載の音響信号処理方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、特に音響信号処理方法、音響信号処理装置、及び音響信号処理プログラムに関する。
続きを表示(約 4,900 文字)
【背景技術】
【0002】
従来から、映画、VR(Virtual Reality)、AR(Augmented Reality)等のコンテンツの再生が可能なVRヘッドフォンやHMD(Head Mounted Display)が存在する。
このようなVRヘッドフォンやHMDでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数(Head-Related Transfer Function、以下、「HRTF」という。)を用いて、頭外定位させる立体音響の生成(Binaural Rendering、バイノーラルレンダリング)が行われていた。
ここで、ヘッドフォン等でHRTFを用いたバイノーラルレンダリング音声を再生する際に、実際の音響信号への演算では、頭部伝達関数を時間軸上で表現した頭部インパルスレスポンス(Head-Related Impulse Response、以下「HRIR」という。)を用いることも多かった。
【0003】
HRIRを用いる典型的な装置として、特許文献1には、音源の個数が多くても演算負荷を抑えるHRIRを用いた立体音声の生成装置が記載されている(以下、「従来技術」という。)。従来技術では、複数個の音源(目的信号)を、それより少ない数の代表方向にまとめ、代表方向のHRIRのみで音像を合成することで、耳元の信号を生成するための演算量を削減することができる。
この従来技術では、HRIRをまとめるための代表方向を、予め設定された規定の全天球のHRIRセットから所定の間隔、例えば、水平面60度間隔で6方向、及び天頂、天底等のように人為的に選択していた。
【先行技術文献】
【特許文献】
【0004】
特開2023-164284号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、従来技術では、人為的に代表方向を選択するため、その選択に依存して合成された再生信号の歪みに、音源信号の到来方向に依存して偏りが生じることがあった。
このため、この偏りを減少させ、パニングによる合成によって引き起こされる劣化を、より低下させたいという技術的な要求があった。
【0006】
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
【課題を解決するための手段】
【0007】
本発明の音響信号処理方法は、音響信号処理装置により実行される音響信号処理方法であって、音源信号の音源方向を取得し、取得された音源方向に基づいて前記音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行い、前記複数の代表HRIRのそれぞれは、学習により算出されたものであることを特徴とする。
本発明の音響信号処理方法は、前記複数の代表HRIRのそれぞれは、全天球又は水平面内の全周におけるパニングによる合成HRIRと真のHRIRとの誤差の期待値を最小化するコスト関数に基づいて学習されることを特徴とする。
本発明の音響信号処理方法は、前記複数の代表HRIRのそれぞれは、全天球又は水平面内の全周におけるパニングによる合成HRIRと真のHRIRとの誤差の期待値を最小化する項、及び方位並びに/若しくは仰角方向で隣接するHRIR間の誤差の変化の期待値を最小化する項を含むコスト関数に基づいて学習されることを特徴とする。
本発明の音響信号処理方法は、前記誤差の期待値は、誤差の平均値を用いることを特徴とする。
本発明の音響信号処理方法は、前記誤差の期待値は、誤差のパワーと信号のパワーの比の平均値を用いることを特徴とする。
本発明の音響信号処理方法は、前記複数の代表HRIRのそれぞれは、前記バイノーラルレンダリングの左耳用信号と、右耳用信号とで異なることを特徴とする。
本発明の音響信号処理方法は、前記コスト関数は、前記学習において、各代表方向のHRIRに乗ずる前記ゲインの変化をペナルティとして加える歪尺度を含むことを特徴とする。
本発明の音響信号処理方法は、前記歪尺度は、前記学習の際、及び/又は再生の際に用いられることを特徴とする。
本発明の音響信号処理方法は、前記ゲインは、下記の式(13)で算出される
TIFF
2025117508000002.tif
16
166
ことを特徴とする。
本発明の音響信号処理方法は、前記A
i
、B
i
、C
i
は、再生の際には、前記複数の代表HRIRのそれぞれに分配した各信号に乗ぜられるゲインとして使用されることを特徴とする。
本発明の音響信号処理方法は、前記コスト関数は、前記学習において、移動音をスムーズに再生するために、隣接する合成HRIRの変化に周波数重みを付加してエネルギーを算出し、該エネルギーの大きさをペナルティとして加える歪尺度を含むことを特徴とする。
本発明の音響信号処理方法は、前記歪尺度は、前記学習の際、及び/又は再生の際に用いられることを特徴とする。
本発明の音響信号処理方法は、前記ゲインは、下記の式(17)で算出される
TIFF
2025117508000003.tif
19
166
ことを特徴とする。
本発明の音響信号処理方法は、前記A
i
、B
i
、C
i
、D
i
、E
i
は、再生の際には、前記複数の代表HRIRのそれぞれに分配した各信号に乗ぜられるゲインとして使用されることを特徴とする。
本発明の音響信号処理方法は、前記学習の際、下記の式(18)により前記複数の代表HRIRを更新する
TIFF
2025117508000004.tif
89
166
ことを特徴とする。
本発明の音響信号処理方法は、代表方向の選択の際に、過去に選択された代表方向を継続して選択され易くするような重みづけを行うことを特徴とする。
本発明の音響信号処理方法は、音響信号処理装置により実行される音響信号処理方法であって、音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行うための前記複数の代表HRIRのそれぞれを、初期値から反復的に学習することを特徴とする。
本発明の音響信号処理装置は、音源信号の音源方向を取得する方向取得部と、前記方向取得部により取得された音源方向に基づいて前記音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行うパニング部とを備え、前記複数の代表HRIRのそれぞれは、学習により算出されたものであることを特徴とする。
本発明の音響信号処理装置は、音響信号を処理する音響信号処理装置であって、音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行うための前記複数の代表HRIRのそれぞれを、初期値から反復的に学習する学習部を備えることを特徴とする。
本発明の音響信号処理プログラムは、音響信号処理装置により実行される音響信号処理プログラムであって、前記音響信号処理装置により、音源信号の音源方向を取得させ、取得された音源方向に基づいて前記音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングさせ、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行わせ、前記複数の代表HRIRのそれぞれは、学習により算出されたものであることを特徴とする。
本発明の音響信号処理プログラムは、音響信号処理装置により実行される音響信号処理プログラムであって、音源信号を時間シフト及びゲイン調整して複数の代表頭部インパルスレスポンス(HRIR)に振り分けることによってパニングし、振り分けられた信号に前記複数の代表HRIRを畳み込むことでバイノーラルレンダリングを行うための前記複数の代表HRIRのそれぞれを、初期値から反復的に学習させることを特徴とする。
【発明の効果】
【0008】
本発明によれば、取得された音源方向に基づいて、パニングしてバイノーラルレンダリングを行う際に、特定の代表方向のHRIRとして学習により算出されたものを用い、パニングに用いる代表方向自体を最適化することで、HRIRの歪みによる偏りを減少させ、パニングによる合成によって引き起こされる劣化を、従来技術より低下させることが可能な音響信号処理方法を提供することができる。
【図面の簡単な説明】
【0009】
本発明の第一実施形態に係る音響信号処理装置の制御構成図である。
図1に示すパニングによる再生音の合成の概念を示す概念図である。
本発明の第一実施形態に係る学習処理のフローチャートである。
図4に示す学習処理における代表方向の初期値の概念図である。
本発明の第一実施形態に係る再生処理のフローチャートである。
本発明の他の実施形態に係る音響信号処理装置の制御構成図である。
本発明の実施例1に係るSNRのグラフである。
本発明の実施例1に係る代表方向のHRIRをマッピングしたグラフ(仰角0°)である。
本発明の実施例1に係る代表方向のHRIRをマッピングしたグラフ(仰角46°)である。
本発明の実施例1に係る代表方向のHRIRをマッピングしたグラフ(仰角-46°)である。
本発明の実施例1に係る移動音源の生成の概念図である。
本発明の実施例1に係る移動音源波形のグラフ(仰角0°)である。
本発明の実施例1に係る移動音源波形のグラフ(仰角46°)である。
本発明の実施例1に係る移動音源波形のグラフ(仰角-46°)である。
本発明の実施例1に係る代表方向のHRIRをプロットした該平面図である。
本発明の実施例1に係る代表方向のHRIRをプロットした背面図である。
本発明の実施例2に係る合成HRIR(α=1、β=0)の左耳のゲイン(仰角0)のグラフである。
本発明の実施例2に係る合成HRIR(α=1、β=0)の移動音源波形のグラフ(仰角0°)である。
本発明の実施例2に係る合成HRIR(α=0.8、β=0.2)の左耳のゲイン(仰角0)のグラフである。
本発明の実施例2に係る合成HRIR(α=0.8、β=0.2)の移動音源波形のグラフ(仰角0°)である。
【発明を実施するための形態】
【0010】
<第一実施形態>
〔音響信号再生装置1の制御構成〕
まず、図1を参照して、本発明の第一実施形態に係る音響信号再生装置1の制御構成について説明する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
イヤーマフ
8日前
個人
監視カメラシステム
17日前
キーコム株式会社
光伝送線路
18日前
個人
スイッチシステム
2日前
サクサ株式会社
中継装置
24日前
WHISMR合同会社
収音装置
1か月前
個人
スキャン式車載用撮像装置
17日前
サクサ株式会社
中継装置
23日前
キヤノン株式会社
撮像装置
2か月前
アイホン株式会社
電気機器
1か月前
キヤノン電子株式会社
画像読取装置
16日前
株式会社リコー
画像形成装置
2か月前
サクサ株式会社
無線システム
22日前
サクサ株式会社
無線通信装置
23日前
サクサ株式会社
無線通信装置
23日前
個人
ワイヤレスイヤホン対応耳掛け
1か月前
株式会社リコー
画像形成装置
10日前
キヤノン電子株式会社
画像読取装置
2日前
株式会社リコー
画像形成装置
2か月前
ヤマハ株式会社
放音制御装置
2日前
キヤノン電子株式会社
画像読取装置
1か月前
株式会社リコー
画像形成装置
2か月前
個人
映像表示装置、及びARグラス
3日前
個人
発信機及び発信方法
22日前
ブラザー工業株式会社
読取装置
2か月前
キヤノン株式会社
撮像システム
1か月前
日本電気株式会社
海底分岐装置
18日前
株式会社小糸製作所
画像照射装置
2か月前
国立大学法人電気通信大学
小型光学装置
2か月前
パテントフレア株式会社
超高速電波通信
1か月前
株式会社NTTドコモ
端末
17日前
シャープ株式会社
端末装置
15日前
大日本印刷株式会社
写真撮影装置
1か月前
パテントフレア株式会社
水中電波通信法
2か月前
株式会社NTTドコモ
端末
18日前
株式会社NTTドコモ
端末
17日前
続きを見る
他の特許を見る