TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025043877
公報種別
公開特許公報(A)
公開日
2025-04-01
出願番号
2023151427
出願日
2023-09-19
発明の名称
音声処理装置およびプログラム
出願人
日本放送協会
代理人
個人
,
個人
,
個人
,
個人
主分類
H04S
7/00 20060101AFI20250325BHJP(電気通信技術)
要約
【課題】制作者が聴取してもらいたいと考えるオブジェクトに対し、より聞き取り易くする音声処理装置及びプログラムを提供する。
【解決手段】音声処理装置10において、取得した音声信号に対してレンダリングを行って再生用の音声を合成して再生部130に出力する制御部110は、オブジェクト毎に聴取位置を基準とした音源方向に応じて音声をレンダリングし、マスキング分析部はオブジェクトのうち第1種オブジェクトの音源方向である第1方向と第2種オブジェクトの音源方向である第2方向とのなす角度が大きいほど小さくなるように第2種オブジェクトの音声による第1種オブジェクトの音声に対するマスキング量を算出する出力処理部と、第1種オブジェクトの音声のレベルとマスキング量とのレベル差が、所定の基準レベル差より小さいとき、レベル差が所定の基準レベル差以上となるように第2種オブジェクトの音声のレベルを調整する音量調整部と、を含む。
【選択図】図1
特許請求の範囲
【請求項1】
オブジェクトごとに聴取位置を基準とした音源方向に応じて音声をレンダリングする出力処理部と、
前記オブジェクトのうち第1種オブジェクトの音源方向である第1方向と第2種オブジェクトの音源方向である第2方向とのなす角度が大きいほど小さくなるように前記第2種オブジェクトの音声による前記第1種オブジェクトの音声に対するマスキング量を算出する分析部と、
前記第1種オブジェクトの音声のレベルと前記マスキング量とのレベル差が、所定の基準レベル差より小さいとき、
前記レベル差が所定の基準レベル差以上となるように前記第2種オブジェクトの音声のレベルを調整する調整部と、を備える
音声処理装置。
続きを表示(約 570 文字)
【請求項2】
前記分析部は、
前記第1方向と前記第2方向とのなす角度である第1角度と、前記第1方向に対して前後反転した方向である反転方向と前記第2方向とのなす角度である第2角度のうち、
小さい方の角度に基づいて前記マスキング量を算出する
請求項1に記載の音声処理装置。
【請求項3】
前記調整部は、
前記第2種オブジェクトの数が複数個であるとき、前記第2種オブジェクトごとの前記第1種オブジェクトの音声に対する個別マスキング量の加重和を、前記角度が大きいほど小さい重み係数を用いて第2種オブジェクト全体の前記マスキング量として算出し、
前記レベル差に基づいて前記第2種オブジェクトごとの音声のレベルを調整する
請求項1に記載の音声処理装置。
【請求項4】
前記分析部は、所定の周波数帯域ごとに、前記マスキング量を算出し、
前記調整部は、前記周波数帯域ごとに、前記第1種オブジェクトの音声のレベルと前記マスキング量とのレベル差に基づいて前記第2種オブジェクトの音声のレベルを調整する
請求項1に記載の音声処理装置。
【請求項5】
コンピュータに
請求項1に記載の音声処理装置として機能させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本願は、音声処理装置およびプログラムに関する。本願は、例えば、音源と聴取者との位置関係に応じた音声のレンダリングにおけるオブジェクトの音量調整に関する。
続きを表示(約 3,700 文字)
【背景技術】
【0002】
6DoF(Degrees of Freedom)コンテンツは、様々な位置または方向から視聴される映像ならびに音声が合成されてなり、拡張現実(AR:Augmented Reality)もしくは仮想現実(VR:Virtual Reality)(本願では、「AR/VR」と総称することがある)に適用されることがある。
AR/VRコンテンツでは、リアリティ(現実感)や没入感の向上を目的として、三次元空間において再現された音源の放射特性を考慮して、音源と聴取者との位置関係に応じた音の再生が提案されている(非特許文献1-3)。
【0003】
通常のチャンネルベース音響に基づくコンテンツは、所定の聴取位置における音の聞こえを調整して制作される。これに対し、6DoFコンテンツでは、ユーザが自由に聴取位置を設定可能とする。コンテンツ空間における、あらゆる聴取位置や聴取方向に対して、音の聞こえを調整することは現実的ではない。制作者が想定していない聴取位置または聴取方向に対しては、音の聞こえが調整されないために、音質が担保されなくなるおそれがある。
【0004】
一般に、ある音源から放射される音波が他の物体により遮蔽される場合、その物体の表面を回折して伝播する回折波では、波長が短い高域成分ほど減衰が著しい。制作者が聴取者に対して必ず聴取してもらいたいと考えるオブジェクトに対して、その物体による音の放射特性を付与する場合を仮定する。その場合、その物体の背面に設定される聴取位置では、高域成分の著しい減衰のため、レンダリングされる音声が聞き取りにくくなることが想定される。
【0005】
放送においてセリフなどのダイアログ音声が聞き取りにくい場合、背景音と独立にダイアログ音声の音量レベルを調整(ダイアログエンハンスメント)することが提案されていた(非特許文献4)。ダイアログエンハンスメント機能では、周波数帯域に関わらず音量レベルが調整される。高域成分の減衰に対応するため、高域成分の聞き取りに十分なダイアログ対背景音のレベル差が得られるまでダイアログ音声の音量レベルを増加させる。そのため、より周波数が低い低域成分に対しては、必要以上に音量レベルが上昇することがある。
【0006】
他方、オブジェクトベース音響(非特許文献7、8)を6DoFコンテンツに応用することが提案されている(非特許文献9)。オブジェクトベース音響では、オブジェクトの位置やゲインなどの制御情報がメタデータ(非特許文献5、6)の要素情報として記述され、オブジェクトの音声信号から再生用の出力音声信号を生成する際に参照される。メタデータは、オブジェクトの重要度や音源種別などの情報も記述可能とし、制作者により聴取して欲しいと考えられるオブジェクトが指示されうる。また、メタデータにはオブジェクトの重要度に基づく音量の設定も可能とする。
【先行技術文献】
【非特許文献】
【0007】
木下光太郎,杉本岳大,小野一穂,日本語発声時の3次元放射特性の測定法の検討,日本音響学会研究発表会講演論文集,2020秋季,1-1-18,2020年8月26日
木下光太郎,杉本岳大,中山靖茂,人声の3次元放射特性の推定法における検討,日本音響学会研究発表会講演論文集,2021秋季,2-2-12,2021年8月24日
杉本岳大,木下光太郎,任意の3次元放射方向の人声の再現に必要な角度の分解能-水平面および正中面における検討,日本音響学会研究発表会講演論文集,2021秋季,2-8-8,2021年8月24日
杉本岳大 他,放送サービスにおける22.2マルチチャンネル音響の多機能化,AESジャパンコンファレンス・名古屋2015,2015年9月11日
Recommendation ITU-R BS.2076-2, Audio definition model, 10/2019
Recommendation ITU-R BS.2125-0, A serial representation of the Audio Definition Model, 01/2019
Recommendation ITU-R BS.2127-0, Audio Definition Model renderer for advanced sound systems, 06/2019
ISO/IEC 23008-3:2019, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part3: 3D Audio, 2019-02
AR技術を活用した番組への没入体験,技研公開2021,日本放送協会,2021/6/1 - 2021/6/30,[令和5年8月10日検索],インターネット<URL:https://www.nhk.or.jp/strl/open2021/tenji/2/ >
村瀬敦信,中村一啓,飯田一博,周囲雑音によるマスキングを考慮した音質制御方式,日本音響学会講演論文集,1997春,p.523-524,1997年03月
村瀬敦信,中村一啓,飯田一博,騒音適応型拡声方式による文章了解度の改善,日本音響学会研究発表会講演論文集,2000(2),p.459-460,2000-09-01
Nishiguchi Masayuki, et al., Spatial Auditory Masking for Three-Dimensional Audio Coding, AES Convention 147, Paper 10259, October 8, 2019
小森智康,小宮山摂,壇寛哉,ラウドネスを指標として音声ミキシングバランスに関する調査,電子情報通信学会技術研究報告,107(432),p.37-42,2008-01-24
Torcoli, Matteo et al., Background Ducking to Produce Esthetically Pleasing Audio for TV with Clear Speech, AES Convention 146, Paper 10175, March 10, 2019
【発明の概要】
【発明が解決しようとする課題】
【0008】
オブジェクトベース音響では、聴取者により任意に聴取位置が設定されることがある。制作者が聴取者に対して聴取してもらいたいと考えるオブジェクトに対して、聞き取りにくくなるケースが一層生じるおそれがある。例えば、聴取位置からの距離が大きいオブジェクトの音声については、距離減衰により音量が小さくなる。さらに他のオブジェクトの音声が再生される場合には、その音声によるマスキングにより埋もれてしまうことがある。
【0009】
本願の実施形態は上記の課題を解決するためになされたものであり、制作者が聴取してもらいたいと考えるオブジェクトを、より聞き取りやすくする音声処理装置およびプログラムを提供することを一つの課題とする。
【課題を解決するための手段】
【0010】
[1]本実施形態の一態様は、オブジェクトごとに聴取位置を基準とした音源方向に応じて音声をレンダリングする出力処理部と、前記オブジェクトのうち第1種オブジェクトの音源方向である第1方向と第2種オブジェクトの音源方向である第2方向とのなす角度が大きいほど小さくなるように前記第2種オブジェクトの音声による前記第1種オブジェクトの音声に対するマスキング量を算出する分析部と、前記第1種オブジェクトの音声のレベルと前記マスキング量とのレベル差が、所定の基準レベル差より小さいとき、前記レベル差が所定の基準レベル差以上となるように前記第2種オブジェクトの音声のレベルを調整する調整部と、を備える音声処理装置である。
[1]の構成によれば、第1方向と第2方向とのなす角度が小さくなることで第2種オブジェクトによるマスキング量が増加し、第1種オブジェクトの音声のレベルと第2種オブジェクトによるマスキング量とのレベル差が基準レベル差よりも小さくなる場合、レベル差が基準レベル差以上となるように第2種オブジェクトの音声のレベルが低下する。そのため、第2種オブジェクトの音声が再生される状況で、第1種オブジェクトの音声を聴取者に対して明瞭に聴取させることができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
日本放送協会
撮像装置
2か月前
日本放送協会
撮像装置
10か月前
日本放送協会
撮像装置
10か月前
日本放送協会
無線通信装置
1日前
日本放送協会
液晶表示装置
7か月前
日本放送協会
マイクロホン
15日前
日本放送協会
光学計測装置
29日前
日本放送協会
光制御デバイス
7か月前
日本放送協会
カメラ正対治具
11か月前
日本放送協会
360度撮影装置
9か月前
日本放送協会
情報提示システム
9か月前
日本放送協会
有機光電変換素子
8か月前
日本放送協会
レンズアダプター
4か月前
日本放送協会
無線伝送システム
2か月前
日本放送協会
磁性細線デバイス
2か月前
日本放送協会
データ管理システム
2か月前
日本放送協会
LDM送信システム
9か月前
日本放送協会
3次元映像表示装置
11か月前
日本放送協会
垂直分離型撮像素子
6か月前
日本放送協会
データ管理システム
11か月前
日本放送協会
受信装置及び送出装置
3か月前
日本放送協会
送信装置及び受信装置
1か月前
日本放送協会
送信装置及び受信装置
1か月前
日本放送協会
送信装置及び受信装置
4か月前
日本放送協会
衛星放送受信システム
4か月前
日本放送協会
送信装置及び受信装置
10か月前
日本放送協会
送信装置及び受信装置
8か月前
日本放送協会
送出装置及び受信装置
8か月前
日本放送協会
送信装置及び受信装置
11か月前
日本放送協会
送信装置及び受信装置
5か月前
日本放送協会
送信装置及び受信装置
2か月前
日本放送協会
撮像素子及び撮像装置
7か月前
日本放送協会
同軸切替器の着脱機構
6か月前
日本放送協会
撮像装置及び撮像方法
9か月前
日本放送協会
送信装置及び受信装置
11か月前
日本放送協会
送信装置及び受信装置
7か月前
続きを見る
他の特許を見る