発明の詳細な説明【技術分野】 【0001】 本願は、音声信号処理装置ならびにそのプログラム、例えば、聴取者により音声オブジェクトの聴取位置または聴取方向を設定可能とする6DoF(Degrees of Freedom)コンテンツにおいて、個々の音声オブジェクトの優先順位に応じて再生レベルを調整するための技術に関する。 続きを表示(約 2,800 文字)【背景技術】 【0002】 近年、音声信号に音響メタデータ(非特許文献1、2参照)を付随して構成された音響コンテンツを操作できるオブジェクトベース音響システム(非特許文献3-5参照)を拡張し、6DoFコンテンツに対応したオーディオ技術(非特許文献6、7参照)が開発されている。6DoFとは、三次元空間における6方向のオブジェクトの動きの自由度を意味する。6DoFコンテンツでは、聴取者が任意の位置および向きを設定し、設定した位置および向きにおいて聴取されるコンテンツが模擬される。設定された位置または向きに応じて再生音の音響特性が変化する点で従来の3D(Dimensional)オーディオと異なる。 【先行技術文献】 【非特許文献】 【0003】 ITU-R BS.2076-1, Audio Definition Model, June 2017 ITU-R BS.2125-0, A serial representation of the Audio Definition Model, January 2019 ISO/IEC 23008-3:2019, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3 3D audio, 2019 ETSI TS 103 190-2, Digital Audio Compression (AC-4) Standard; Part2: immersive and personalized audio, V1.2.1,2018-02 ATSC Standard: A/342:2021 Part 3, MPEG-H System, 11 March 2021 MPEG-I Immersive Audio Encoder Input Format, Version 5, April 4, 2023 Report ITU-R BT.2420-5, Collection of usage scenarios of advanced immersive sensory media systems (09/2022) 【発明の概要】 【発明が解決しようとする課題】 【0004】 一般に音響・音声制作では、予め規定された聴取位置における聴感を最適化することが目標とされる。6DoFコンテンツでは、聴取位置が一定に定まらない。そのため、聴取される再生音の品質管理が困難である。例えば、音声オブジェクトとして制作者が聴取者に対して必ず聞いて貰いたいセリフがあるとき、聴取者の位置が話者から遠く離れると、セリフの音声レベルが低下する。その結果、聴取者はセリフを聞き損じてしまう可能性がある。つまり、聴取者に自由度が与えられるために、再生音が制作意図から逸脱してしまう可能性がある。 【0005】 本願の実施形態は上記の課題を解決するためになされたものであり、制作意図が反映された再生音を提供できる音声信号処理装置ならびにそのプログラムを提供することを一つの課題とする。 【課題を解決するための手段】 【0006】 [1]本実施形態の一態様は、音声オブジェクトごとに聴取位置からの目標位置までの距離に応じてレベルが調整された音声信号を取得し、優先順位が高い音声オブジェクトほど高くなるように、前記音声オブジェクトの音声信号のレベルを調節する音声信号調節部を備える音声信号処理装置である。 [1]の構成によれば、聴取位置からの距離に応じて音声信号のレベルが調整されても、優先順位の降順に音声オブジェクトの音声信号のレベルが定まるため、優先順位が高い音声オブジェクトほど聴取者により容易に感知される。そのため、優先的に聴取されるべき音声オブジェクトに係る制作意図を再生音の再生において反映させることができる。 【0007】 [2]本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、処理対象として注目する音声オブジェクトである第1オブジェクトと、当該第1オブジェクトよりも優先順位が下位に隣接する音声オブジェクトである第2オブジェクトとのレベル差が、予め定めたレベル差以上となるように、前記第2オブジェクトの音声信号のレベルの調節量を定めてもよい。 [2]の構成によれば、優先順位が隣接する音声オブジェクト間のレベル差が予め定めたレベル差以上となる。聴取者により音声オブジェクト間のレベル差が容易に識別されるため、音声オブジェクト間の優先順位が直感的に認識される。 【0008】 [3]本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、前記第1オブジェクトと前記第2オブジェクトとの平均ラウドネスレベルの差が、予め定めたレベル差の前記第1オブジェクトの優先順位の倍数となるように、前記調節量を定めてもよい。 [3]の構成によれば、優先順位が下位の音声オブジェクトほど、優先順位が下位に隣接する音声オブジェクトとのラウドネスレベルの差が大きくなる。そのため、感知される音量が小さくなる優先順位が下位の音声オブジェクトでも、他の音声オブジェクトとの音量の差が容易に識別される。 【0009】 [4]本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、音声オブジェクトごとに有効性を判定し、無効な音声オブジェクトを除外して、有効な音声オブジェクトの優先順位を再設定してもよい。 [4]の構成によれば、個々の時点において有効な音声オブジェクトに対して音声信号のレベルが設定される。無効な音声オブジェクトに対するレベル設定が省略されることで、優先順位が下位の音声オブジェクトに対し、必要以上にレベルが低下することが回避される。 【0010】 [5]本実施形態の一態様は、上述の音声信号処理装置であって、前記音声信号調節部は、前記第2オブジェクトの音声信号のレベルの調節を停止するとき、調節前の基準レベルからの前記レベルの変化量を、前記調節量から一定時間以上かけて解消してもよい。 [5]の構成によれば、音声信号のレベルの調整を停止するとき、調整により低下したレベルが一定時間かけて増加する。そのため、急激なレベル増加による聴取者に対する違和感を回避することができる。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する