TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025111610
公報種別
公開特許公報(A)
公開日
2025-07-30
出願番号
2025070796,2023547314
出願日
2025-04-22,2022-03-11
発明の名称
特徴マップ符号化対通常のビデオ符号化のためのツール選択
出願人
キヤノン株式会社
代理人
弁理士法人大塚国際特許事務所
主分類
H04N
19/103 20140101AFI20250723BHJP(電気通信技術)
要約
【課題】第1符号化データおよび第2符号化データを生成する方法、装置及びシステムを提供する。
【解決手段】方法は、装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、装置が特徴マップの符号化データを含まない符号化ビデオデータの形で第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて第1符号化データを生成する符号化手段と、を有する。符号化手段は、装置が特徴マップの符号化データを含む第2符号化データを生成する場合、複数の機能のうちの第1部分を用いるが複数の機能のうちの第2部分を用いずに特徴マップの符号化データを生成する。
【選択図】図15
特許請求の範囲
【請求項1】
第1符号化データおよび第2符号化データを生成するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成する符号化手段と、を備え、前記符号化手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成する、装置。
続きを表示(約 1,000 文字)
【請求項2】
前記複数の機能のうちの第2部分は、LFNST、MIP、LMCS、およびISPのうちの少なくとも1つを含む、請求項1に記載の装置。
【請求項3】
前記複数の機能のうちの第2部分は、Affine、GPM、およびMMVDのうちの少なくとも1つを含む、請求項1に記載の装置。
【請求項4】
前記複数の機能のうちの第2部分は、前記特徴マップの符号化に使用されないように制約される、請求項1に記載の装置。
【請求項5】
前記符号化手段は、前記複数の機能のうちの第2部分が前記特徴マップの復号に使用されないように制約されていることを示す情報を符号化する、請求項1に記載の装置。
【請求項6】
前記第1符号化データは第1符号化規格に準拠し、前記第2符号化データは第2符号化規格に準拠する、請求項1に記載の装置。
【請求項7】
前記特徴マップは、前記中間データの空間次元以外の次元に沿ってニューラルネットワーク内で生成された中間データユニットのスライスである、請求項1に記載の装置。
【請求項8】
前記符号化手段は、複数の特徴マップを表すためのメタデータをビデオデータの平面フレームに符号化し、前記メタデータはSEIメッセージを使用して表される、請求項1に記載の装置。
【請求項9】
前記符号化手段は、前記複数の機能のうちの第2部分の使用禁止を制約フラグを用いて符号化する、請求項1に記載の装置。
【請求項10】
第1符号化データおよび第2符号化データを復号するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号する復号手段と、を備え、前記復号手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号する、装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
関連出願への言及
本出願は、2021年4月7日に出願されたオーストラリア特許出願第2021202142号の出願日の35U.S.C§119に基づく利益を主張し、その全体があたかも本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。
続きを表示(約 3,100 文字)
【0002】
本発明は一般に、デジタルビデオ信号処理に関し、特に、畳み込みニューラルネットワークからテンソルを符号化および復号するための方法、装置、およびシステムに関する。本発明はまた、ビデオ圧縮技術を使用して畳み込みニューラルネットワークからテンソルを符号化および復号するためのコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品に関する。
【背景技術】
【0003】
ビデオ圧縮は、ビデオデータの送信および記憶のためのアプリケーションを含む、多くのアプリケーションをサポートするために使用されるユビキタス技術である。多くのビデオコーディング規格が開発されており、他のものは現在開発中である。ビデオコーディング標準化における最近の発展は、「Joint Video Experts Team」(JVET)と呼ばれるグループの形成につながった。Joint Video Experts Team(JVET)は、2つの標準設定組織(Standards Setting Organisations)(SSO)、つまり、「Video Coding Experts Group」(VCEG)としても知られる、International Telecommunication Union(ITU)のTelecommunication Standardisation Sector(ITU-T)のStudy Group 16、Question 6(SG16/Q6)と、「Moving Picture Experts Group」(MPEG)としても知られる、国際標準化機構/国際電気標準会議合同技術委員会1/小委員会29/Working Group 11(ISO/IEC JTC1/SC29/WG11)と、のメンバを含む。
【0004】
Joint video Experts Team(JVET)は、「versatile video coding」(VVC)と呼ばれるビデオ圧縮規格を開発した。
【0005】
畳み込みニューラルネットワーク(CNN)は、とりわけ、物体認識、物体追跡、人間の姿勢推定、および行動認識などのマシンビジョンを伴うユースケースに対処する新興の技術である。CNNは典型的には、畳み込み層および全結合層などの多くの層を含み、データは、「テンソル」の形式で1つの層から次の層に渡される。各層の重みは、トレーニングステージで決定され、ここで、非常に大量のトレーニングデータがCNNを通過し、決定された結果がトレーニングデータに関連するグラウンドトゥルースと比較される。確率的勾配降下などのネットワーク重みを更新するためのプロセスは、ネットワークが所望のレベルの精度で実行するまで、ネットワーク重みを反復的に精緻化するために適用される。畳み込みステージが1より大きい「ストライド」を有する場合、畳み込みからの出力テンソルは、対応する入力テンソルよりも低い空間分解能を有する。「最大プーリング」のような動作はまた、入力テンソルと比較して、出力テンソルの空間サイズを低減する。最大プーリングは、入力テンソルをデータサンプルのグループ(たとえば、データサンプルの2×2グループ)に分割し、各グループから、出力テンソル内の対応する値のための出力として最大値を選択することによって出力テンソルを生成する。入力を用いてCNNを実行し、入力を出力に漸進的に変換するプロセスは、一般に「推論」と呼ばれる。
【0006】
一般に、テンソルは4つの次元、すなわち、バッチ、チャネル、高さおよび幅を有する。ビデオデータを推論するときのサイズ「1」の第1次元「バッチ」は、一度に1つのフレームがCNNを通過することを示す。ネットワークをトレーニングするとき、所定の「バッチサイズ」に従って、ネットワークの重みが更新される前に複数のフレームがネットワークを通過するように、バッチ次元の値を増加させることができる。マルチフレームビデオは、所与のビデオのフレームの数に従ってサイズが増加されたバッチ次元を有する単一のテンソルとして通過され得る。しかしながら、メモリ消費およびアクセスに関する実際的な考慮事項のために、ビデオデータの推論は、典型的にはフレーム単位で実行される。「チャネル」次元は、所与のテンソルに対する同時(concurrent)の「特徴マップ」の数を示し、高さおよび幅の次元は、CNNの特定のステージにおける特徴マップのサイズを示す。チャネルカウントは、ネットワークアーキテクチャに従ってCNNを介して変化する。また、特徴マップサイズは、特定のネットワーク層で発生するサブサンプリングに応じて変化する。
【0007】
CNNの第1層への入力は、典型的には第1層へのテンソル入力の次元との互換性のためにリサイズされる、画像またはビデオフレームである。テンソルの次元はCNNアーキテクチャに依存し、一般に、入力幅および高さに関連するいくつかの次元と、さらなる「チャネル」次元と、を有する。
【0008】
チャネルに基づいてテンソルをスライスすることは、いわゆる「特徴マップ」のセットをもたらし、これはテンソルの各スライスが対応する入力画像と何らかの関係を有し、エッジなどの何らかの特性を捕捉するためである。ネットワークへの入力からさらに離れたレイヤにおいて、関係は、より抽象的であり得る。CNNの「タスク性能」は、特定の入力を使用してタスクを実行する際のCNNの結果を、提供されたグラウンドトゥルース(すなわち、「トレーニングデータ」)と比較することによって測定され、一般に、人間によって準備され、「正しい」結果を示すことが意図される。
【0009】
ネットワークトポロジが決定されると、ネットワークの重みは、より多くのトレーニングデータが利用可能になるにつれて時間更新され得る。また、CNNの一部分を再トレーニングし、ネットワークの他の部分(複数可)における重みを変更しないままにすることも可能である。CNNの全体的な複雑さは、非常に高くなる傾向があり、多数の積和演算が実行され、多数の中間テンソルがメモリに書き込まれ、メモリから読み出される。いくつかのアプリケーションでは、CNNが全体的に「クラウド」において実装され、高く高価な処理能力が必要となる。他のアプリケーションでは、CNNがカメラまたは携帯電話などのエッジデバイスにおいて実装され、柔軟性は低くなるが、処理負荷はより分散される。
【0010】
VVCは特に、ビデオフォーマットが(たとえば、より高い解像度およびより高いフレームレートを有する)能力を増加させるにつれて、ますます高い圧縮性能に対する継続的な需要に対処し、帯域幅コストが比較的高いWANを介したサービス配信に対する増大する市場需要に対処することが予想される。VVCは現代のシリコンプロセスにおいて実施可能であり、達成された性能と実施コストとの間の許容可能なトレードオフを提供する。実装コストはたとえば、シリコンエリア、CPUプロセッサロード、メモリ利用率、および帯域幅のうちの1つまたは複数に関して考慮され得る。VVC規格の汎用性の一部は、ビデオデータを圧縮するために利用可能なツールの幅広い選択、ならびにVVCが適している広範囲のアプリケーションにある。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン株式会社
移動体
6日前
キヤノン株式会社
現像装置
16日前
キヤノン株式会社
発光装置
今日
キヤノン株式会社
発光装置
5日前
キヤノン株式会社
撮像装置
26日前
キヤノン株式会社
光学機器
今日
キヤノン株式会社
記録装置
7日前
キヤノン株式会社
電源装置
21日前
キヤノン株式会社
撮像装置
7日前
キヤノン株式会社
電子機器
1か月前
キヤノン株式会社
乳酸センサ
12日前
キヤノン株式会社
レンズ装置
19日前
キヤノン株式会社
プログラム
22日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
6日前
キヤノン株式会社
画像形成装置
28日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
撮像システム
28日前
キヤノン株式会社
撮像システム
8日前
キヤノン株式会社
画像形成装置
28日前
キヤノン株式会社
画像形成装置
2日前
キヤノン株式会社
画像形成装置
19日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
電子写真装置
26日前
キヤノン株式会社
画像形成装置
26日前
キヤノン株式会社
画像形成装置
26日前
キヤノン株式会社
画像形成装置
5日前
キヤノン株式会社
画像形成装置
5日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
電子写真装置
13日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
電子写真装置
1か月前
続きを見る
他の特許を見る