TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025031710
公報種別公開特許公報(A)
公開日2025-03-07
出願番号2024176910,2024523595
出願日2024-10-09,2022-10-20
発明の名称環境内の音声を表すビットストリーム
出願人コーニンクレッカ フィリップス エヌ ヴェ,Koninklijke Philips N.V.
代理人弁理士法人M&Sパートナーズ
主分類G10L 19/00 20130101AFI20250228BHJP(楽器;音響)
要約【課題】ビットストリームを生成するための装置を提供する。
【解決手段】符号化装置において、メタデータ生成器203は、環境内の音源を表す複数の音声要素の音声データのメタデータを生成する。メタデータは、環境の音響環境データを含み、音響環境データは、環境内の音源の音の伝播影響を与える特性を記述する。音響環境データの少なくとも一部は、環境内の複数のリスニングポーズに適用可能であり、特性は、静的特性及び動的特性の両方を含む。ビットストリーム生成器205は、メタデータを含むビットストリームを生成する。ビットストリームは、多くの場合、環境内の音源の音声要素を表す音声データをさらに含む。復号装置において、ビットストリームを受信する受信機と、音響環境データおよび音声要素の音声データに基づいて音声環境の音声をレンダリングするレンダラーとを含む。
【選択図】図2
特許請求の範囲【請求項1】
ビットストリームを生成するための装置であって、前記装置は、
環境内の音源を表す複数の音声要素の音声データのメタデータを生成するメタデータ生成器であって、前記メタデータは前記環境の音響環境データを含み、前記音響環境データは、前記環境内の前記音源の音の伝播に影響を及ぼす特性を記述し、前記音響環境データの少なくとも一部は、前記環境内の複数のリスニングポーズに適用可能であり、前記特性は静的特性および動的特性の両方を含む、メタデータ生成器と、
前記メタデータを含む前記ビットストリームを生成するビットストリーム生成器とを備え、
前記音響環境データは、向き特性を表すための向き表現フォーマットを記述するデータグループと、前記向き表現フォーマットを使用して、前記特性のうちの向き特性を記述するデータを含む少なくとも1つのデータグループとを含み、前記データグループは、
所定のデフォルト向き表現を示すデータと、
所定の角度のセットを示すデータと、
量子化グリッド上で角度を示すデータとのうちの少なくとも1つを含む、装置。
続きを表示(約 1,300 文字)【請求項2】
前記音響環境データは、周波数グリッドを記述するデータグループと、前記周波数グリッドを使用して、前記特性のうちの周波数依存特性を記述するデータをそれぞれが含む複数のデータグループとを含み、前記ビットストリームは、前記周波数グリッドを記述する前記データグループを前記ビットストリームが含むか否かを示すインジケータを含み、前記データグループは、前記周波数グリッドを記述するデータのフォーマットのインジケーションを含み、前記データグループは、
所定のデフォルトグリッドを示すデータと、
前記周波数グリッドの少なくともいくつかの部分範囲の開始周波数および周波数範囲を示すデータと、
個別の周波数を示すデータとのうちの少なくとも1つを含む、請求項1に記載の装置。
【請求項3】
前記データグループは、
所定の角度のセットを示すデータと、
量子化グリッド上で角度を示すデータとのうちの少なくとも1つを含む、請求項1または2に記載の装置。
【請求項4】
前記メタデータ生成器は、前記向き表現フォーマットを、前記所定のデフォルト向き表現、前記所定の角度のセット、および前記量子化グリッド上の角度のうちの1つとして選択する、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記所定の角度のセットの各所定の角度がインデックスによって表され、前記向き特性が、所定の角度のインデックスのインジケーションによって表される、装置。
【請求項6】
前記データグループは、所定の角度のセットを示すデータを含む、請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記データグループは、量子化グリッド上で角度を示すデータを含む、請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記音響環境データは、向き特性を表すためのさらなる向き表現フォーマットを記述するさらなるデータグループと、前記さらなる向き表現フォーマットを使用して、前記特性のうちの向き特性を記述するデータを含む少なくとも1つのさらなるデータグループとを含み、前記さらなるデータグループは、所定の角度のセットを示すデータを含む、請求項7に記載の装置。
【請求項9】
前記音響環境データは、音の伝播に影響を及ぼす前記特性のうちの第1の特性の値を表す第1のビットのための第1のデータフィールドと、前記第1の特性の前記値を表す第2のビットのための拡張データを前記音響環境データが含むか否かを示す第2のデータフィールドとを含む、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記メタデータ生成器は、前記環境が空間的に制約された環境であることを示すグローバルインジケータを含むように前記音響環境データを生成し、前記メタデータ生成器は、前記環境が空間的に制約されていることを示す前記グローバルインジケータについてのデータ値のための所定の制限付きフォーマットに従うように、前記音響環境データのデータ値を制限する、請求項1から9のいずれか一項に記載の装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、音声環境を表すビットストリーム、ならびにそのようなビットストリームを生成するための装置およびそのようなビットストリームを処理するための装置に関し、特に、限定はされないが、例えば仮想現実アプリケーション用の仮想音声環境を表すビットストリームに関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
近年、視聴覚コンテンツに基づく体験の多様性および範囲が大きく増大しており、そのようなコンテンツを利用および消費する新しいサービスや方法が継続的に開発および導入されている。特に、関与性や没入感がより高い体験をユーザに提供するために、多くの空間的インタラクティブサービス、アプリケーション、および体験が開発されている。
【0003】
このようなアプリケーションの例としては、仮想現実(VR)アプリケーション、拡張現実(AR)アプリケーション、および急速に主流になりつつある複合現実(MR)アプリケーションがあり、多くのソリューションが消費者市場を標的としている。また、様々な標準化団体によって様々な規格が開発されている。そのような標準化活動は、例えばストリーミング、ブロードキャスト、およびレンダリングなど、VR/AR/MRシステムの様々な側面のための規格を積極的に開発している。
【0004】
VRアプリケーションは、異なる世界/環境/シーンにいるユーザに対応するユーザ体験を提供する傾向がある一方、AR(複合現実MRを含む)アプリケーションは、追加情報または仮想オブジェクトもしくは情報が追加された現在の環境にいるユーザに対応するユーザ体験を提供する傾向がある。したがって、VRアプリケーションは完全に没入型の人工世界/シーンを提供する傾向がある一方、ARアプリケーションは、ユーザが物理的に存在する現実のシーンに重ねられた部分的に人工の世界/シーンを提供する傾向がある。しかし、これらの用語はしばしば同義で使用され、大きく重複している。以下では、仮想現実/VRという用語は仮想現実および拡張/複合現実の両方を表すために使用される。
【0005】
例えばVR体験を提供するためにユーザ側の適応を可能にする柔軟な表現を提供できるように、環境、特に音声環境を表す視聴覚データ、特に音声データを通信することは、非常に困難なタスクである。通信されるデータは、(仮想)リスニング位置の変化および環境自体の変化を反映する動的な体験をレンダリングするためにローカル使用できるように、環境を表すことが好ましい。
【0006】
このような環境を表すデータを効率的に通信するための有利なアプローチを得るために、多くの研究が行われてきた。適切なデータストリームおよびフォーマットに関する様々な提案がなされており、そのほとんどが、個々の音源が別々に提示され、音源の位置などの様々な特性を記述するメタデータに関連づけられている、個別化されたモデルを含む。また、残響や減衰などを記述するデータなど、音声環境を記述する一般的データが提供される可能性がある。
【0007】
しかし、そのような情報の効率的な(例えば、低減されたデータレート)通信を提供するビットストリームフォーマットを定義することは非常に困難であり、有利なアプローチを実現するには、多くの問題、特性、およびトレードオフを慎重に検討し、これらのバランスを取る必要がある。MPEG(Moving Picture Experts Group)は、VRおよび同様の体験に適したビットストリーム用のMPEG-Iと呼ばれる規格を開発するための標準化アプローチを開始した。
【0008】
したがって、VRおよびARなどの没入型アプリケーションおよびサービスにおいて音声をサポートするための改善されたアプローチおよびデータフォーマット/ビットストリームは有利であろう。特に、動作の向上、柔軟性の増加、複雑さの軽減、実装の容易化、音声体験の向上、複雑さの軽減、計算負荷の軽減、音声品質の向上、データレートの低下、トレードオフの向上、ならびに/またはパフォーマンスおよび/もしくは動作の向上を可能にするアプローチ/ビッドストリーム/フォーマットは有利であろう。
【発明の概要】
【0009】
したがって、本発明は、上記欠点の1つ以上を単独で、または任意の組み合わせで好適に緩和、低減、または排除することを目的とする。
【0010】
本発明の態様および任意選択の特徴によれば、ビットストリームを生成するための装置が提供され、装置は、環境内の音源を表す複数の音声要素の音声データのメタデータを生成するメタデータ生成器(203)であって、メタデータは環境の音響環境データを含み、音響環境データは、環境内の音源の音の伝播に影響を及ぼす特性を記述し、音響環境データの少なくとも一部は、環境内の複数のリスニングポーズに適用可能であり、特性は静的特性および動的特性の両方を含む、メタデータ生成器と、メタデータを含むビットストリームを生成するビットストリーム生成器とを含む。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
アクセサリー型集音器
10日前
横浜ゴム株式会社
音響材
17日前
横浜ゴム株式会社
音響材
17日前
横浜ゴム株式会社
音響材
17日前
横浜ゴム株式会社
水中音響材
20日前
ヤマハ株式会社
ヘルムホルツ共鳴器
1か月前
大和ハウス工業株式会社
音再現設備
24日前
岡山県
吸音構造
17日前
日産自動車株式会社
防音構造体
1か月前
セイコーエプソン株式会社
吸音ボード
1か月前
株式会社第一興商
カラオケ装置
2日前
株式会社第一興商
カラオケ装置
24日前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
16日前
株式会社コルグ
演奏情報制御装置、プログラム
2日前
コスモネクスト株式会社
入力支援プログラム及び入力支援方法
1か月前
京セラ株式会社
音出力装置及び音出力方法
1か月前
本田技研工業株式会社
能動型騒音低減装置
16日前
本田技研工業株式会社
能動型騒音低減装置
1か月前
本田技研工業株式会社
能動型騒音低減装置
16日前
個人
発音体モジュール
11日前
日本放送協会
音声認識装置およびプログラム
1か月前
本田技研工業株式会社
能動型騒音低減装置
1か月前
カシオ計算機株式会社
楽器用電子機器
16日前
株式会社アナザーウェア
鍵盤画面表示プログラム及びそのシステム
1か月前
トヨタ自動車株式会社
異音診断システム
1か月前
株式会社永セ仁
「パワハラ」等ハラスメント発言に係る職場環境測定システム
20日前
株式会社コルグ
音波生成装置、音波生成方法、プログラム
1か月前
株式会社奏音楽企画
クラッパーアーム揺動機構及びこれを備える練習用ベル
6日前
ソフトバンクグループ株式会社
行動制御システム
1か月前
株式会社AZSTOKE
調整装置、およびプログラム
16日前
本田技研工業株式会社
音声認識装置、音声認識方法、およびプログラム
23日前
永楽電気株式会社
放送音声文字化システム及び放送設備における故障診断方法
1か月前
ヤマハ株式会社
響板、その製造方法および響板を備える楽器
23日前
東日本電信電話株式会社
演奏補助装置、演奏補助方法、及び、演奏補助プログラム
23日前
パイオニア株式会社
情報処理装置
25日前
続きを見る