特許ウォッチ

公開番号2025031710
公報種別公開特許公報(A)
公開日2025-03-07
出願番号2024176910,2024523595
出願日2024-10-09,2022-10-20
発明の名称環境内の音声を表すビットストリーム
出願人コーニンクレッカフィリップスエヌヴェ,Koninklijke Philips N.V.
代理人弁理士法人M&Sパートナーズ
主分類G10L 19/00 20130101AFI20250228BHJP(楽器;音響)
要約【課題】ビットストリームを生成するための装置を提供する。
【解決手段】符号化装置において、メタデータ生成器203は、環境内の音源を表す複数の音声要素の音声データのメタデータを生成する。メタデータは、環境の音響環境データを含み、音響環境データは、環境内の音源の音の伝播影響を与える特性を記述する。音響環境データの少なくとも一部は、環境内の複数のリスニングポーズに適用可能であり、特性は、静的特性及び動的特性の両方を含む。ビットストリーム生成器205は、メタデータを含むビットストリームを生成する。ビットストリームは、多くの場合、環境内の音源の音声要素を表す音声データをさらに含む。復号装置において、ビットストリームを受信する受信機と、音響環境データおよび音声要素の音声データに基づいて音声環境の音声をレンダリングするレンダラーとを含む。
【選択図】図2
特許請求の範囲【請求項１】
ビットストリームを生成するための装置であって、前記装置は、
環境内の音源を表す複数の音声要素の音声データのメタデータを生成するメタデータ生成器であって、前記メタデータは前記環境の音響環境データを含み、前記音響環境データは、前記環境内の前記音源の音の伝播に影響を及ぼす特性を記述し、前記音響環境データの少なくとも一部は、前記環境内の複数のリスニングポーズに適用可能であり、前記特性は静的特性および動的特性の両方を含む、メタデータ生成器と、
前記メタデータを含む前記ビットストリームを生成するビットストリーム生成器とを備え、
前記音響環境データは、向き特性を表すための向き表現フォーマットを記述するデータグループと、前記向き表現フォーマットを使用して、前記特性のうちの向き特性を記述するデータを含む少なくとも１つのデータグループとを含み、前記データグループは、
所定のデフォルト向き表現を示すデータと、
所定の角度のセットを示すデータと、
量子化グリッド上で角度を示すデータとのうちの少なくとも１つを含む、装置。
続きを表示（約 1,300 文字）【請求項２】
前記音響環境データは、周波数グリッドを記述するデータグループと、前記周波数グリッドを使用して、前記特性のうちの周波数依存特性を記述するデータをそれぞれが含む複数のデータグループとを含み、前記ビットストリームは、前記周波数グリッドを記述する前記データグループを前記ビットストリームが含むか否かを示すインジケータを含み、前記データグループは、前記周波数グリッドを記述するデータのフォーマットのインジケーションを含み、前記データグループは、
所定のデフォルトグリッドを示すデータと、
前記周波数グリッドの少なくともいくつかの部分範囲の開始周波数および周波数範囲を示すデータと、
個別の周波数を示すデータとのうちの少なくとも１つを含む、請求項１に記載の装置。
【請求項３】
前記データグループは、
所定の角度のセットを示すデータと、
量子化グリッド上で角度を示すデータとのうちの少なくとも１つを含む、請求項１または２に記載の装置。
【請求項４】
前記メタデータ生成器は、前記向き表現フォーマットを、前記所定のデフォルト向き表現、前記所定の角度のセット、および前記量子化グリッド上の角度のうちの１つとして選択する、請求項１から３のいずれか一項に記載の装置。
【請求項５】
前記所定の角度のセットの各所定の角度がインデックスによって表され、前記向き特性が、所定の角度のインデックスのインジケーションによって表される、装置。
【請求項６】
前記データグループは、所定の角度のセットを示すデータを含む、請求項１から５のいずれか一項に記載の装置。
【請求項７】
前記データグループは、量子化グリッド上で角度を示すデータを含む、請求項１から６のいずれか一項に記載の装置。
【請求項８】
前記音響環境データは、向き特性を表すためのさらなる向き表現フォーマットを記述するさらなるデータグループと、前記さらなる向き表現フォーマットを使用して、前記特性のうちの向き特性を記述するデータを含む少なくとも１つのさらなるデータグループとを含み、前記さらなるデータグループは、所定の角度のセットを示すデータを含む、請求項７に記載の装置。
【請求項９】
前記音響環境データは、音の伝播に影響を及ぼす前記特性のうちの第１の特性の値を表す第１のビットのための第１のデータフィールドと、前記第１の特性の前記値を表す第２のビットのための拡張データを前記音響環境データが含むか否かを示す第２のデータフィールドとを含む、請求項１から８のいずれか一項に記載の装置。
【請求項１０】
前記メタデータ生成器は、前記環境が空間的に制約された環境であることを示すグローバルインジケータを含むように前記音響環境データを生成し、前記メタデータ生成器は、前記環境が空間的に制約されていることを示す前記グローバルインジケータについてのデータ値のための所定の制限付きフォーマットに従うように、前記音響環境データのデータ値を制限する、請求項１から９のいずれか一項に記載の装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、音声環境を表すビットストリーム、ならびにそのようなビットストリームを生成するための装置およびそのようなビットストリームを処理するための装置に関し、特に、限定はされないが、例えば仮想現実アプリケーション用の仮想音声環境を表すビットストリームに関する。
続きを表示（約 2,000 文字）【背景技術】
【０００２】
近年、視聴覚コンテンツに基づく体験の多様性および範囲が大きく増大しており、そのようなコンテンツを利用および消費する新しいサービスや方法が継続的に開発および導入されている。特に、関与性や没入感がより高い体験をユーザに提供するために、多くの空間的インタラクティブサービス、アプリケーション、および体験が開発されている。
【０００３】
このようなアプリケーションの例としては、仮想現実（ＶＲ）アプリケーション、拡張現実（ＡＲ）アプリケーション、および急速に主流になりつつある複合現実（ＭＲ）アプリケーションがあり、多くのソリューションが消費者市場を標的としている。また、様々な標準化団体によって様々な規格が開発されている。そのような標準化活動は、例えばストリーミング、ブロードキャスト、およびレンダリングなど、ＶＲ／ＡＲ／ＭＲシステムの様々な側面のための規格を積極的に開発している。
【０００４】
ＶＲアプリケーションは、異なる世界／環境／シーンにいるユーザに対応するユーザ体験を提供する傾向がある一方、ＡＲ（複合現実ＭＲを含む）アプリケーションは、追加情報または仮想オブジェクトもしくは情報が追加された現在の環境にいるユーザに対応するユーザ体験を提供する傾向がある。したがって、ＶＲアプリケーションは完全に没入型の人工世界／シーンを提供する傾向がある一方、ＡＲアプリケーションは、ユーザが物理的に存在する現実のシーンに重ねられた部分的に人工の世界／シーンを提供する傾向がある。しかし、これらの用語はしばしば同義で使用され、大きく重複している。以下では、仮想現実／ＶＲという用語は仮想現実および拡張／複合現実の両方を表すために使用される。
【０００５】
例えばＶＲ体験を提供するためにユーザ側の適応を可能にする柔軟な表現を提供できるように、環境、特に音声環境を表す視聴覚データ、特に音声データを通信することは、非常に困難なタスクである。通信されるデータは、（仮想）リスニング位置の変化および環境自体の変化を反映する動的な体験をレンダリングするためにローカル使用できるように、環境を表すことが好ましい。
【０００６】
このような環境を表すデータを効率的に通信するための有利なアプローチを得るために、多くの研究が行われてきた。適切なデータストリームおよびフォーマットに関する様々な提案がなされており、そのほとんどが、個々の音源が別々に提示され、音源の位置などの様々な特性を記述するメタデータに関連づけられている、個別化されたモデルを含む。また、残響や減衰などを記述するデータなど、音声環境を記述する一般的データが提供される可能性がある。
【０００７】
しかし、そのような情報の効率的な（例えば、低減されたデータレート）通信を提供するビットストリームフォーマットを定義することは非常に困難であり、有利なアプローチを実現するには、多くの問題、特性、およびトレードオフを慎重に検討し、これらのバランスを取る必要がある。ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）は、ＶＲおよび同様の体験に適したビットストリーム用のＭＰＥＧ－Ｉと呼ばれる規格を開発するための標準化アプローチを開始した。
【０００８】
したがって、ＶＲおよびＡＲなどの没入型アプリケーションおよびサービスにおいて音声をサポートするための改善されたアプローチおよびデータフォーマット／ビットストリームは有利であろう。特に、動作の向上、柔軟性の増加、複雑さの軽減、実装の容易化、音声体験の向上、複雑さの軽減、計算負荷の軽減、音声品質の向上、データレートの低下、トレードオフの向上、ならびに／またはパフォーマンスおよび／もしくは動作の向上を可能にするアプローチ／ビッドストリーム／フォーマットは有利であろう。
【発明の概要】
【０００９】
したがって、本発明は、上記欠点の１つ以上を単独で、または任意の組み合わせで好適に緩和、低減、または排除することを目的とする。
【００１０】
本発明の態様および任意選択の特徴によれば、ビットストリームを生成するための装置が提供され、装置は、環境内の音源を表す複数の音声要素の音声データのメタデータを生成するメタデータ生成器（２０３）であって、メタデータは環境の音響環境データを含み、音響環境データは、環境内の音源の音の伝播に影響を及ぼす特性を記述し、音響環境データの少なくとも一部は、環境内の複数のリスニングポーズに適用可能であり、特性は静的特性および動的特性の両方を含む、メタデータ生成器と、メタデータを含むビットストリームを生成するビットストリーム生成器とを含む。
（【００１１】以降は省略されています）

関連特許