TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025179172
公報種別公開特許公報(A)
公開日2025-12-09
出願番号2025146640,2022521735
出願日2025-09-04,2020-10-08
発明の名称オーディオ符号化のための装置及び方法
出願人コーニンクレッカ フィリップス エヌ ヴェ,Koninklijke Philips N.V.
代理人弁理士法人M&Sパートナーズ
主分類G10L 19/008 20130101AFI20251202BHJP(楽器;音響)
要約【課題】仮想現実アプリケーションなどの動的アプリケーションのためのオーディオ符号化装置及び方法を提供する。
【解決手段】オーディオ符号化装置は、オーディオシーンを表すオーディオアイテムを受け取るオーディオ受信機201と、オーディオアイテムのレンダリングに対する提示制約を記述するオーディオアイテムのための入力提示メタデータを受け取るメタデータ受信機203と、複数のオーディオアイテムを符号化することにより符号化されたオーディオデータをオーディオシーンのために生成するオーディオエンコーダ205と、入力提示メタデータから出力提示メタデータを生成するメタデータ回路207と、符号化されたオーディオデータと出力提示メタデータとを有する符号化されたオーディオデータストリームを生成する出力209と、を有する。
【選択図】図2
特許請求の範囲【請求項1】
オーディオシーンを表す複数のオーディオアイテムを受け取るためのオーディオ受信機と、
前記複数のオーディオアイテムのための入力提示メタデータを受け取るためのメタデータ受信機であって、前記入力提示メタデータが、前記複数のオーディオアイテムのレンダリングに対する提示制約であって、前記複数のオーディオアイテムをレンダリングするときに適合させることが可能なレンダリングパラメータを制約する提示制約を記述する、メタデータ受信機と、
前記入力提示メタデータに応答して前記複数のオーディオアイテムを符号化することにより、符号化されたオーディオデータを前記オーディオシーンのために生成するためのオーディオエンコーダと、
前記入力提示メタデータから出力提示メタデータを生成するためのメタデータ回路であって、前記出力提示メタデータが、符号化されたオーディオアイテムのためのデータであって、前記符号化されたオーディオアイテムをレンダリングするときにレンダリングの適合可能なパラメータを適合させることが可能な範囲を制約するデータを有する、メタデータ回路と、
前記符号化されたオーディオデータと前記出力提示メタデータとを有する符号化されたオーディオデータストリームを生成するための出力回路と、
を有する、オーディオ符号化装置。
続きを表示(約 1,600 文字)【請求項2】
前記オーディオエンコーダが、前記複数のオーディオアイテムの中の少なくとも第1のオーディオアイテムと第2のオーディオアイテムとを、前記第1のオーディオアイテムのための入力提示メタデータと前記第2のオーディオアイテムのための入力提示メタデータとに応答して合成することにより、合成されたオーディオアイテムを生成するためのコンバイナを有しており、前記オーディオエンコーダが、合成されたオーディオ符号化データを、前記合成されたオーディオアイテムを符号化することにより、前記第1及び第2のオーディオアイテムのために生成して、前記合成されたオーディオ符号化データを前記符号化されたオーディオデータに含ませる、請求項1に記載のオーディオ符号化装置。
【請求項3】
前記コンバイナが、前記第1のオーディオアイテムと前記第2のオーディオアイテムとのための前記入力提示メタデータに応答して、前記複数のオーディオアイテムから前記第1のオーディオアイテムと前記第2のオーディオアイテムとを選択する、請求項2に記載のオーディオ符号化装置。
【請求項4】
前記コンバイナが、前記第1のオーディオアイテムのための入力提示メタデータと前記第2のオーディオアイテムのための入力提示メタデータとの少なくともいくつかが類似性基準を満たすとの判断に応答して、前記第1のオーディオアイテムと前記第2のオーディオアイテムとを選択する、請求項2又は3に記載のオーディオ符号化装置。
【請求項5】
前記第1のオーディオアイテムのための前記入力提示メタデータと前記第2のオーディオアイテムのための前記入力提示メタデータとが、利得制約と位置制約との少なくとも一方を有する、請求項2から4のいずれか一項に記載のオーディオ符号化装置。
【請求項6】
前記オーディオエンコーダが、さらに、前記第1のオーディオアイテムのための前記入力提示メタデータと前記第2のオーディオアイテムのための前記入力提示メタデータとに応答して、合成された提示メタデータを前記合成されたオーディオアイテムのために生成し、前記合成された提示メタデータを前記出力提示メタデータに含める、請求項2から5のいずれか一項に記載のオーディオ符号化装置。
【請求項7】
前記オーディオエンコーダが、前記合成されたオーディオアイテムのための提示パラメータに対する制約であって、前記第1のオーディオアイテムのための入力提示メタデータによって示された前記第1のオーディオアイテムに対する制約と前記第2のオーディオアイテムのための入力提示メタデータによって示された前記第2のオーディオアイテムに対する制約との両方を満たすと判断される制約を反映するように、少なくともいくつかの合成された提示メタデータを生成する、請求項6に記載のオーディオ符号化装置。
【請求項8】
前記オーディオエンコーダが、第2のオーディオアイテムのための入力提示メタデータに応答して、第1のオーディオアイテムの圧縮を適合させる、請求項1から7のいずれか一項に記載のオーディオ符号化装置。
【請求項9】
前記オーディオエンコーダが、前記第2のオーディオアイテムのための入力提示メタデータに応答して前記第2のオーディオアイテムから前記第1のオーディオアイテムへのマスキング効果を推定し、前記マスキング効果に応答して前記第1のオーディオアイテムの前記圧縮を適合させる、請求項8に記載のオーディオ符号化装置。
【請求項10】
前記オーディオエンコーダが、前記第2のオーディオアイテムのための前記入力提示メタデータによって示される前記第2のオーディオアイテムに対する利得制約と位置制約との少なくとも一方に応答して、前記第2のオーディオアイテムから前記第1のオーディオアイテムへの前記マスキング効果を推定する、請求項9に記載のオーディオ符号化装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、オーディオ符号化のための装置及び方法に関し、特に、ただし排他的にではないが、仮想現実アプリケーションなどの動的アプリケーションのためのオーディオ符号化のための装置及び方法に関する。
続きを表示(約 2,300 文字)【背景技術】
【0002】
オーディオ及びビデオアプリケーションの多様性及び範囲は、近年において、オーディオ、イメージ及びビデオを利用し消費する新たなサービス及び様態が連続的に開発され導入されていることに伴い、大幅に増加している。
【0003】
例えば、ますます人気が出ているサービスの1つは、レンダリングのパラメータを変更するため、視聴者が、能動的かつ動的にシステムと対話することが可能であるように、オーディオ及びイメージを提供することである。多くのアプリケーションにおいて非常にアピールする特徴として、有効な視/聴位置を変更することができる能力がある。そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にする。
【0004】
傾向としては、シーンのレンダリング側の適合を許容する柔軟性の増加を提供する方向に向かっている。オーディオシーンのレンダリングのためにレンダリング側の柔軟性の増加を提供する目的で、いくつかのオーディオ符号化及び分散アプローチが提案されてきており、それらにおいては、オーディオシーンが、異なるオーディオアイテムの合成によって表される。例えば、オーディオアイテムが、特定のスピーカなど、別個の音源を表す場合がある。いくつかのアプローチでは、すべてのオーディオアイテムが同一のタイプであるが、複数の異なるオーディオタイプが同時に用いられサポートされることを可能にするシステムの開発が増加している。例えば、いくつかのオーディオアイテムはオーディオチャネルであり得るが、他のものは別個のオーディオオブジェクトであり得るし、さらに他のものは、アンビソニックオーディオアイテムなど、シーンベースの場合もあり得る。多くのシステムにおいて、メタデータが、オーディオアイテムを表すオーディオデータと共に、提供される。そのようなメタデータは、例えば、あるオーディオアイテムのオーディオ源のために、シーンにおける公称位置を示す。
【0005】
そのようなアプローチは、クライアント/レンダリング側での高い程度でのカスタマイズと適合とを可能にする。例えば、オーディオシーンを、そのオーディオシーンにおけるリスナの仮想位置の変更に局所的に適合させることが可能であるし、又は、個別的なリスナの特定の好みに適合させることも可能である。
【0006】
特定の例として、3GPP(登録商標)コンソーシアムが、現在、いわゆるイマーシブボイスアンドオーディオサービシズ(IVAS)コーデックを開発している。このコーデックは、チャネル、オブジェクト又はシーン(特に、アンビソニックス)ベースの設定など、様々な設定で、オーディオコンテンツをコード化することが可能である。コード化の目的は、最小のデータ量を用いて、オーディオ情報を運ぶことである。
【0007】
IVASコーデックは、さらに、様々なオーディオストリームを受信端における再生に適する形式に変換するレンダラを有することになる。例えば、オーディオを、既知のラウドスピーカの設定にマップすることが可能であるし、又は、オーディオを、ヘッドフォン経由での再生のためのバイノーラル形式にレンダリングすることも可能である。
【0008】
3GPP(登録商標)のIVASコーデックスコープでは、潜在的な使用の場合を収集するための作業が進行中である。これらのためには、コーデックはレンダリングを変調する対話可能性を提供すべきであると考えられる。例えば、ヘッドフォンオーディオは、頭部位置及び変換と独立にレンダリングされなければならず、これは、ヘッドフォンオーディオが頭部の移動に対して補償されなければならないことを意味する。別の例として、ユーザは、仮想会議への参加者のオーディオを運ぶオブジェクトを(再度)位置決めするなど、オーディオアイテムを空間的に位置決めするように付勢される。
【0009】
レンダラは、3GPP(登録商標)のIVASコーデックの作業アイテムの一部であると考えられ、IVASコーデックに内在するものと考えられる。しかし、コーデックがパススルーモードも含むことが、提案されてきている。このモードは、オーディオアイテムが、エンコーダ入力において入力されたのと同じ設定で(すなわち、1:1の対応するチャネル、オブジェクト及びシーンベースのオーディオアイテムとして)デコーダ出力において表されることを可能にする。外部レンダラは、専用の外部レンダリングインターフェースを経由して、これらのアイテムへのアクセスを有し、内部IVASレンダラへの代替的なレンダリングを実現する。
【0010】
そのようなアプローチは、追加的な柔軟性を提供し、受信端におけるカスタマイズ及び適合のための範囲を増加させる。しかし、このアプローチには、短所が付随することもあり得る。例えば、柔軟性とオーディオ品質及び複雑性との間には、トレードオフが存在する。自由度を制約することによりコンテンツプロバイダがクライアント側におけるレンダリングに関するいくらかの制御を保持することを許容することは、一般的に有用である。これは、レンダリングを助け、より現実的なレンダリングされたオーディオシーンを結果的に生じさせるだけではなく、ユーザに提供される経験に対するある程度の制御をコンテンツプロバイダが保持することも許容する。例えば、それは、レンダラが、非現実的でありコンテンツとコンテンツプロバイダに対して悪影響を及ぼす可能性があるオーディオシーンを生成することを防止する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
ギター
7日前
個人
遮音材
1か月前
個人
音声出力装置
1か月前
横浜ゴム株式会社
音響材
28日前
三井化学株式会社
防音構造体
8日前
個人
共鳴装置及び共鳴装置ユニット
2日前
三井化学株式会社
防音構造体
8日前
豊田合成株式会社
車両の音出力装置
2日前
個人
管楽器用音質改善留め具
22日前
国立大学法人大阪大学
音声分析方法および音声分析装置
1日前
株式会社デンソー
音低減装置
7日前
横浜ゴム株式会社
多層空洞音響材
1か月前
三井化学株式会社
防音構造体および自動車の防音構造
8日前
ヤマハ株式会社
鍵盤装置
15日前
ヤマハ株式会社
音処理装置及び音処理方法
22日前
株式会社デンソー
制御装置、制御方法、及び制御プログラム
28日前
パイオニア株式会社
事故検知装置、事故検知方法および事故検知プログラム
1日前
株式会社第一興商
カラオケ装置、カラオケシステム
7日前
株式会社第一興商
カラオケ装置、カラオケシステム
14日前
株式会社第一興商
カラオケ装置、カラオケシステム
1か月前
個人
和音記号表示システム、和音記号表示プログラム及び音出力システム
2日前
本田技研工業株式会社
音声認識装置、音声認識方法、及びプログラム
9日前
トヨタ自動車株式会社
ブレーキインジケータシステム
7日前
日本電気株式会社
伝達音抑制装置、伝達音抑制システム、伝達音抑制方法およびプログラム
7日前
NOK株式会社
吸音構造体シート、吸音構造体シートセット、及び吸音構造体
1日前
ソフトバンク株式会社
制御装置、システム、制御方法、及びプログラム
1日前
LINEヤフー株式会社
プログラム、情報処理方法、情報処理装置
2日前
パナソニックIPマネジメント株式会社
ノイズキャンセルシステムおよびノイズキャンセル方法
7日前
株式会社イービーエム
音声分析装置、音声分析システム、音声分析方法、及び音声分析プログラム
28日前
NTTドコモビジネス株式会社
情報処理装置、情報処理方法および情報処理プログラム
1日前
パナソニックIPマネジメント株式会社
ノイズキャンセル装置、ノイズキャンセル方法および照明装置
7日前
ヤマハ株式会社
コード推定装置およびコード推定方法
16日前
株式会社リコー
情報処理システム、情報処理装置、情報処理方法、及びプログラム
14日前
ソフトバンクグループ株式会社
データ処理装置、データ処理方法、及びデータ処理プログラム
14日前
パナソニックオートモーティブシステムズ株式会社
能動騒音低減装置、移動体装置、及び、能動騒音低減方法
1か月前
株式会社東芝
パラ言語情報認識装置、パラ言語情報認識方法、及びパラ言語情報認識プログラム
9日前
続きを見る