TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024056596
公報種別公開特許公報(A)
公開日2024-04-23
出願番号2023004682
出願日2023-01-16
発明の名称多次元データの符号化におけるエンドツーエンド特徴圧縮のためのシステム及び方法
出願人シャープ株式会社
代理人個人,個人,個人,個人
主分類H04N 19/597 20140101AFI20240416BHJP(電気通信技術)
要約【課題】多次元データを符号化に関し、エンドツーエンドネットワークにおける特徴データの圧縮方法及びデバイスを提供する。
【解決手段】方法は、残差符号化を使用して、冗長性を除去することで特徴データを強調することによって圧縮する。強調特徴データは、空間的にダウンサンプリングされ、強調特徴データのチャネルの数は、2D畳み込み演算を適用することによって低減される。方法はさらに、低減された強調特徴データに基づくヒートマップを生成する。低減された強調特徴データは、生成されたヒートマップを使用してスケーリングすることができ、スケーリングされて低減された強調特徴データをエントロピ符号化して、ビットストリームを生成することができる。
【選択図】図7A
特許請求の範囲【請求項1】
特徴データを圧縮する方法であって、
特徴データを受信することと、
前記受信された特徴データに対して残差符号化を実行して、強調特徴データを生成することと、
前記強調特徴データに対して2次元畳み込み演算を適用して、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成することと、
前記低減特徴データに基づいてヒートマップを生成することと、
前記生成されたヒートマップを使用して前記低減特徴データをスケーリングすることと、
前記スケーリングされた低減特徴データをエントロピ符号化して、ビットストリームを生成することと、
を含む、方法。
続きを表示(約 570 文字)【請求項2】
特徴データを受信し、
前記受信された特徴データに対して残差符号化を実行して、強調特徴データを生成し、
前記強調特徴データに対して2次元畳み込み演算を適用して、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成し、
前記低減特徴データに基づいてヒートマップを生成し、
前記生成されたヒートマップを使用して前記低減特徴データをスケーリングし、
前記スケーリングされた低減特徴データをエントロピ符号化して、ビットストリームを生成する、
ように構成された1つ以上のプロセッサを備えるデバイス。
【請求項3】
受信された特徴データが、Detectron2に従って生成された特徴データに対応する、請求項2に記載のデバイス。
【請求項4】
受信された特徴データが、チャネル次元について連結されたDetectron2に従って生成されたマルチスケール特徴データを含む、請求項3に記載のデバイス。
【請求項5】
前記生成されたヒートマップを使用して前記低減特徴データをスケーリングすることが、単一の生成されたヒートマップを用いて各チャネルをスケーリングすることを含む、請求項2に記載のデバイス。

発明の詳細な説明【技術分野】
【0001】
本開示は、多次元データを符号化することに関し、より具体的には、エンドツーエンドネットワークにおける特徴データの圧縮のための技術に関する。
背景技術
続きを表示(約 4,900 文字)【0002】
デジタルビデオ及びオーディオ能力は、デジタルテレビ、コンピュータ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、スマートフォン、医療撮像デバイス、監視システム、追跡及び監視システム等を含む、広範囲のデバイスに組み込むことができる。デジタルビデオ及びオーディオは、アレイのセットとして表すことができる。アレイのセットとして表されるデータは、多次元データと呼ばれることがある。例えば、デジタルビデオにおけるピクチャは、サンプル値の2次元アレイのセットとして表すことができる。すなわち、例えば、ビデオ解像度は、サンプル値のアレイの幅及び高さ次元を提供し、色空間の各成分は、セット内の2次元アレイの数を提供する。更に、デジタルビデオのシーケンス内のピクチャの数は、別の次元のデータを提供する。例えば、3つの色成分を有する1080p解像度の60Hzビデオの1秒は、4次元のデータ値に対応することができ、すなわち、サンプルの数は、以下のように表すことができる:1920×1080×3×60。したがって、デジタルビデオ及び画像は、多次元データの例である。デジタルビデオは、追加の及び/又は代替の次元(例えば、レイヤの数、ビュー/チャネルの数など)を使用して表すことができることに留意されたい。
【0003】
デジタルビデオは、ビデオ符号化規格に従って符号化することができる。ビデオ符号化規格は、符号化されたビデオデータをカプセル化する準拠ビットストリームのフォーマットを定義する。準拠ビットストリームは、復元されたビデオデータを生成するために、ビデオ復号デバイスによって受信及び復号することができるデータ構造である。典型的には、復元されたビデオデータは、人間が消費する(すなわち、ディスプレイ上で見る)ためのものである。ビデオ符号化規格の例としては、ISO/IEC MPEG-4 Visual及びITU-T H.264(ISO/IEC MPEG-4 AVCとしても公知である)並びにHigh-Efficiency Video Coding(HEVC)が挙げられる。HEVCは、High Efficiency Video Coding(HEVC),Rec.ITU-T H.265(2016年12月)に記載されており、参照により本明細書に組み込まれ、本明細書ではITU-T H.265と称する。ITU-T Video Coding Experts Group(VCEG)及びISO/IEC(Moving Picture Experts Group(MPEG)(Joint Video Exploration Team(JVET)と集合的に呼ばれる)は、HEVCの圧縮能力を上回る圧縮能力を有するビデオ符号化技術を標準化するために作業してきている。この標準化作業は、Versatile Video Coding(VVC)プロジェクトと呼ばれる。参照により本明細書に組み込まれ、VVCと呼ばれる「Versatile Video Coding(Draft 10)」(20th Meeting of ISO/IEC JTC1/SC29/WG11 7-16 October 2020,Teleconference,document JVET-T2001-v2)は、VVCプロジェクトに対応するビデオ符号化仕様の草案文面の現在のバージョンを表す。
【0004】
ビデオ符号化規格は、ビデオ圧縮技術を利用することができる。ビデオ圧縮技術は、ビデオシーケンス内の固有の冗長性を活用することによって、ビデオデータを記憶及び/又は送信するためのデータ要件を低減させる。ビデオ圧縮技術は、典型的には、ビデオシーケンスを連続的により小さい部分(すなわち、ビデオシーケンス内のピクチャ群、ピクチャ群内のピクチャ、ピクチャ内の領域、領域内のサブ領域など)に再分割し、イントラ予測符号化技術(例えば、ピクチャ内の空間予測技術)及びインター予測技術(すなわち、インターピクチャ技術(時間))を利用して、符号化されるビデオデータのユニットとビデオデータの参照ユニットとの間の差分値を生成する。差分値は、残差データと呼ばれることがある。シンタックス要素は、残差データと参照符号化ユニットを関連付けることができる(例えば、イントラ予測モードインデックス及び動き情報)。残差データ及びシンタックス要素は、エントロピ符号化することができる。エントロピ符号化された残差データ及びシンタックス要素は、準拠ビットストリームを形成するデータ構造に含めることができる。
【発明の概要】
【0005】
概して、本開示は、多次元データセット(multi-dimensional data set、MDDS)と呼ばれることがあり、かつ、例えば、ビデオデータ、オーディオデータなどを含むことができる、多次元データを符号化するための様々な技術について説明する。人間の消費のための多次元データを提供するためのデータ要件を低減することに加えて、本明細書で説明される多次元データの符号化のための技術は、他の用途に有用であり得ることに留意されたい。例えば、本明細書で説明される技術は、いわゆるマシン消費に有用であり得る。すなわち、例えば、監視の場合、中央サーバ上で実行される監視アプリケーションが多数のビデオフィードのいずれかからオブジェクトを迅速に識別して追跡することができることが有用であり得る。この場合、符号化されたビデオデータを人間が消費可能な形態に復元することが可能である必要はなく、オブジェクトが識別されることを可能にすることのみが可能である。オブジェクト検出は、いわゆるマシンタスクの一例である。以下で更に詳細に説明するように、オブジェクト検出、セグメント化、及び/又は追跡(すなわち、オブジェクト認識タスク)は、典型的には、画像(例えば、単一の画像、又はビデオシーケンスに含まれる画像)を受信することと、画像に対応する特徴データを生成することと、特徴データを分析することと、推論データを生成することとを伴い、推論データは、画像内のオブジェクトのタイプ及びオブジェクトの空間位置を示すことができる。画像内のオブジェクトの空間位置は、空間座標(例えば、x、y)及びサイズ(例えば、高さ及び幅)を有するバウンディングボックスによって指定することができる。本開示は、特徴データを圧縮するための技術について説明する。具体的には、本開示は、エンドツーエンド特徴圧縮ネットワークを形成するための技術について説明する。本開示で説明する技術は、マシンタスクが通信ネットワークにわたって分散されることを可能にするのに特に有用であり得る。例えば、いくつかの用途では、取得デバイス(例えば、ビデオカメラ及び付随するハードウェア)は、電力及び/又は計算の制約を有することがある。この場合、特徴データの生成は、取得デバイスにおける能力に対して最適化することができるが、分析及び推論は、ネットワークにわたって分散された追加の能力を有する1つ以上のデバイスにおいて実行されるのにより適していることがある。この場合、特徴セットの圧縮は、オブジェクト認識タスクの効率的な分散(例えば、低減された帯域幅及び/又は待ち時間)を容易にすることができる。以下で更に詳細に説明するように、推論データ(例えば、画像内のオブジェクトの空間位置)を使用して、ビデオデータの符号化を最適化する(例えば、対象となるオブジェクトが存在する領域における相対的な画質を改善するために符号化パラメータを調整する、など)ことができることに留意されたい。更に、推論データを利用するビデオ符号化デバイスは、取得デバイスとは別個の位置に位置することがある。例えば、配信ネットワークは、取得されたビデオの圧縮及び配信を実行する複数の配信サーバを(様々な物理的位置に)含むことができる。
【0006】
本明細書で使用されるとき、典型的なビデオ符号化規格又は典型的なビデオ符号化という用語は、以下のビデオ圧縮技術、すなわち、ビデオ分割技術、イントラ予測技術、インター予測技術、残差変換技術、復元ビデオフィルタリング技術、並びに/又は残差データ及びシンタックス要素のためのエントロピ符号化技術のうちの1つ以上を利用するビデオ符号化規格を指すことができることに留意されたい。例えば、典型的なビデオ符号化規格という用語は、ITU-T H.264、ITU-T H.265、VVCなどのいずれかを個別に又は集合的に指すことができる。更に、本明細書での文書の参照による組み込みは、説明のためのものであり、本明細書で使用される用語に関して限定する又は曖昧さを生むように解釈されるべきではないことに留意されたい。例えば、組み込まれた参照が、別の組み込まれた参照のものとは異なる用語の定義を与える場合、かつ/又はその用語が本明細書で使用されるような場合には、その用語は、それぞれの対応する定義を幅広く含むように、及び/又は代わりに特定の定義のそれぞれを含むように解釈されるべきである。
【0007】
一実施例では、特徴データを圧縮する方法は、特徴データを受信することと、受信された特徴データに対して残差符号化を実行して、強調特徴データを生成することと、強調特徴データに対して2次元畳み込み演算を適用して、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成することと、低減特徴データに基づいてヒートマップを生成することと、生成されたヒートマップを使用して低減特徴データをスケーリングすることと、スケーリングされた低減特徴データをエントロピ符号化して、ビットストリームを生成することと、を含む。
【0008】
一実施例では、デバイスは、特徴データを受信し、受信された特徴データに対して残差符号化を実行して、強調特徴データを生成し、強調特徴データに対して2次元畳み込み演算を適用して、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成し、低減特徴データに基づいてヒートマップを生成し、生成されたヒートマップを使用して低減特徴データをスケーリングし、スケーリングされた低減特徴データをエントロピ符号化して、ビットストリームを生成する、ように構成された1つ以上のプロセッサを備える。
【0009】
一実施例では、非一時的コンピュータ可読記憶媒体は、それに記憶された命令を含み、この命令は、実行されると、デバイスの1つ以上のプロセッサに、受信された特徴データに対して残差符号化を実行させて、強調特徴データを生成させ、強調特徴データに対して2次元畳み込み演算を適用させて、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成させ、低減特徴データに基づいてヒートマップを生成させ、生成されたヒートマップを使用して低減特徴データをスケーリングさせ、スケーリングされた低減特徴データをエントロピ符号化させて、ビットストリームを生成させる。
【0010】
一実施例では、装置は、特徴データを受信する手段と、受信された特徴データに対して残差符号化を実行して、強調特徴データを生成する手段と、強調特徴データに対して2次元畳み込み演算を適用して、低減特徴データであって、空間次元及びチャネル次元について低減される、低減特徴データを生成する手段と、低減特徴データに基づいてヒートマップを生成する手段と、生成されたヒートマップを使用して低減特徴データをスケーリングする手段と、スケーリングされた低減特徴データをエントロピ符号化して、ビットストリームを生成する手段と、を備える。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
メガホン
4日前
個人
通話装置
23日前
個人
挿耳装置
23日前
個人
暗号化記憶媒体
1か月前
個人
非常時の情報伝達システム
1か月前
個人
イラストの著作権保護方法
1か月前
船井電機株式会社
表示装置
2日前
船井電機株式会社
表示装置
11日前
キヤノン株式会社
表示装置
24日前
富士通株式会社
光送信装置
24日前
富士通株式会社
光受信装置
24日前
キヤノン電子株式会社
画像読取装置
1か月前
リオン株式会社
補聴器
1か月前
太陽誘電株式会社
振動発生装置
1か月前
日本無線株式会社
通信システム
17日前
株式会社パロマ
リモコン
1か月前
トヨタ自動車株式会社
車両
1か月前
キヤノン電子株式会社
照明付スピーカー
24日前
個人
翻訳字幕付きビデオチャットシステム
1か月前
株式会社小野測器
音響校正器
9日前
株式会社JVCケンウッド
端末装置
1か月前
株式会社日立国際電気
通信システム
1か月前
株式会社小野測器
音響校正器
9日前
マスプロ電工株式会社
光信号計測装置
29日前
三菱電機株式会社
送信機
24日前
株式会社JMC
映像音声配信用セット
11日前
日本無線株式会社
復調器および復調方法
17日前
株式会社村田製作所
スイッチ回路
1か月前
日本電気株式会社
端末及び認証システム
19日前
株式会社日立国際電気
無線通信システム
1か月前
株式会社日立国際電気
無線通信システム
1か月前
株式会社デンソー
通信装置
1か月前
株式会社ネットアプリ
飲料用演出グラス
25日前
株式会社埼王住研
吸気弁を含むスピーカー
18日前
シャープ株式会社
電気機器および携帯端末
9日前
株式会社埼王住研
金属鉢を含むスピーカー
18日前
続きを見る