特許ウォッチ

公開番号2025058482
公報種別公開特許公報(A)
公開日2025-04-09
出願番号2023168443
出願日2023-09-28
発明の名称音声信号処理装置ならびにそのプログラム
出願人日本放送協会
代理人個人,個人,個人,個人
主分類H04S 7/00 20060101AFI20250402BHJP(電気通信技術)
要約【課題】制作意図が反映された再生音を提供できる音声信号処理装置ならびにそのプログラムを提供する。
【解決手段】音声信号調節部は、音声オブジェクトごとに聴取位置からの目標位置までの距離に応じてレベルが調整された音声信号を取得し、優先順位が高い音声オブジェクトほど高くなるように、少なくともいずれか1つの音声オブジェクトの音声信号のレベルを調節する。本実施形態は、音声信号処理装置、コンピュータに音声信号処理装置として機能させるためのプログラムとしても実現することができる。
【選択図】図1
特許請求の範囲【請求項１】
音声オブジェクトごとに聴取位置からの目標位置までの距離に応じてレベルが調整された音声信号を取得し、
優先順位が高い音声オブジェクトほど高くなるように、前記音声オブジェクトの音声信号のレベルを調節する音声信号調節部を備える
音声信号処理装置。
続きを表示（約 620 文字）【請求項２】
前記音声信号調節部は、
処理対象として注目する音声オブジェクトである第１オブジェクトと、当該第１オブジェクトよりも優先順位が下位に隣接する音声オブジェクトである第２オブジェクトとのレベル差が、予め定めたレベル差以上となるように、前記第２オブジェクトの音声信号のレベルの調節量を定める
請求項１に記載の音声信号処理装置。
【請求項３】
前記音声信号調節部は、
前記第１オブジェクトと前記第２オブジェクトとの平均ラウドネスレベルの差が、予め定めたレベル差の前記第１オブジェクトの優先順位の倍数となるように、前記調節量を定める
請求項２に記載の音声信号処理装置。
【請求項４】
前記音声信号調節部は、
音声オブジェクトごとに有効性を判定し、
無効な音声オブジェクトを除外して、有効な音声オブジェクトの優先順位を再設定する
請求項１に記載の音声信号処理装置。
【請求項５】
前記音声信号調節部は、
前記第２オブジェクトの音声信号のレベルの調節を停止するとき、
調節前のレベルからの当該レベルの変化量を、前記調節量から一定時間以上かけて解消する
請求項２に記載の音声信号処理装置。
【請求項６】
コンピュータに、請求項１に記載の音声信号処理装置として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本願は、音声信号処理装置ならびにそのプログラム、例えば、聴取者により音声オブジェクトの聴取位置または聴取方向を設定可能とする６ＤｏＦ（Degrees of Freedom）コンテンツにおいて、個々の音声オブジェクトの優先順位に応じて再生レベルを調整するための技術に関する。
続きを表示（約 2,800 文字）【背景技術】
【０００２】
近年、音声信号に音響メタデータ（非特許文献１、２参照）を付随して構成された音響コンテンツを操作できるオブジェクトベース音響システム（非特許文献３－５参照）を拡張し、６ＤｏＦコンテンツに対応したオーディオ技術（非特許文献６、７参照）が開発されている。６ＤｏＦとは、三次元空間における６方向のオブジェクトの動きの自由度を意味する。６ＤｏＦコンテンツでは、聴取者が任意の位置および向きを設定し、設定した位置および向きにおいて聴取されるコンテンツが模擬される。設定された位置または向きに応じて再生音の音響特性が変化する点で従来の３Ｄ（Dimensional）オーディオと異なる。
【先行技術文献】
【非特許文献】
【０００３】
ITU-R BS.2076-1, Audio Definition Model, June 2017
ITU-R BS.2125-0, A serial representation of the Audio Definition Model, January 2019
ISO/IEC 23008-3:2019, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3 3D audio, 2019
ETSI TS 103 190-2, Digital Audio Compression (AC-4) Standard; Part2: immersive and personalized audio, V1.2.1,2018-02
ATSC Standard: A/342:2021 Part 3, MPEG-H System, 11 March 2021
MPEG-I Immersive Audio Encoder Input Format, Version 5, April 4, 2023
Report ITU-R BT.2420-5, Collection of usage scenarios of advanced immersive sensory media systems (09/2022)
【発明の概要】
【発明が解決しようとする課題】
【０００４】
一般に音響・音声制作では、予め規定された聴取位置における聴感を最適化することが目標とされる。６ＤｏＦコンテンツでは、聴取位置が一定に定まらない。そのため、聴取される再生音の品質管理が困難である。例えば、音声オブジェクトとして制作者が聴取者に対して必ず聞いて貰いたいセリフがあるとき、聴取者の位置が話者から遠く離れると、セリフの音声レベルが低下する。その結果、聴取者はセリフを聞き損じてしまう可能性がある。つまり、聴取者に自由度が与えられるために、再生音が制作意図から逸脱してしまう可能性がある。
【０００５】
本願の実施形態は上記の課題を解決するためになされたものであり、制作意図が反映された再生音を提供できる音声信号処理装置ならびにそのプログラムを提供することを一つの課題とする。
【課題を解決するための手段】
【０００６】
［１］本実施形態の一態様は、音声オブジェクトごとに聴取位置からの目標位置までの距離に応じてレベルが調整された音声信号を取得し、優先順位が高い音声オブジェクトほど高くなるように、前記音声オブジェクトの音声信号のレベルを調節する音声信号調節部を備える音声信号処理装置である。
［１］の構成によれば、聴取位置からの距離に応じて音声信号のレベルが調整されても、優先順位の降順に音声オブジェクトの音声信号のレベルが定まるため、優先順位が高い音声オブジェクトほど聴取者により容易に感知される。そのため、優先的に聴取されるべき音声オブジェクトに係る制作意図を再生音の再生において反映させることができる。
【０００７】
［２］本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、処理対象として注目する音声オブジェクトである第１オブジェクトと、当該第１オブジェクトよりも優先順位が下位に隣接する音声オブジェクトである第２オブジェクトとのレベル差が、予め定めたレベル差以上となるように、前記第２オブジェクトの音声信号のレベルの調節量を定めてもよい。
［２］の構成によれば、優先順位が隣接する音声オブジェクト間のレベル差が予め定めたレベル差以上となる。聴取者により音声オブジェクト間のレベル差が容易に識別されるため、音声オブジェクト間の優先順位が直感的に認識される。
【０００８】
［３］本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、前記第１オブジェクトと前記第２オブジェクトとの平均ラウドネスレベルの差が、予め定めたレベル差の前記第１オブジェクトの優先順位の倍数となるように、前記調節量を定めてもよい。
［３］の構成によれば、優先順位が下位の音声オブジェクトほど、優先順位が下位に隣接する音声オブジェクトとのラウドネスレベルの差が大きくなる。そのため、感知される音量が小さくなる優先順位が下位の音声オブジェクトでも、他の音声オブジェクトとの音量の差が容易に識別される。
【０００９】
［４］本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、音声オブジェクトごとに有効性を判定し、無効な音声オブジェクトを除外して、有効な音声オブジェクトの優先順位を再設定してもよい。
［４］の構成によれば、個々の時点において有効な音声オブジェクトに対して音声信号のレベルが設定される。無効な音声オブジェクトに対するレベル設定が省略されることで、優先順位が下位の音声オブジェクトに対し、必要以上にレベルが低下することが回避される。
【００１０】
［５］本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、前記第２オブジェクトの音声信号のレベルの調節を停止するとき、調節前の基準レベルからの前記レベルの変化量を、前記調節量から一定時間以上かけて解消してもよい。
［５］の構成によれば、音声信号のレベルの調整を停止するとき、調整により低下したレベルが一定時間かけて増加する。そのため、急激なレベル増加による聴取者に対する違和感を回避することができる。
（【００１１】以降は省略されています）

関連特許