TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025080589
公報種別
公開特許公報(A)
公開日
2025-05-26
出願番号
2023193846
出願日
2023-11-14
発明の名称
情報処理装置およびその制御方法
出願人
キヤノン株式会社
代理人
弁理士法人大塚国際特許事務所
主分類
G06T
7/00 20170101AFI20250519BHJP(計算;計数)
要約
【課題】トークンミックスにおける処理量を低減する。
【解決手段】情報処理装置は、第1の画像から第1の特徴量を生成する第1の生成手段と、第2の画像から第2の特徴量を生成する第2の生成手段と、第1の特徴量と第2の特徴量とを結合する結合手段と、結合された特徴量を複数のグループに分割する分割手段と、複数のグループそれぞれについて、各グループに含まれる特徴量をグループごとに混合する混合手段と、を備える。複数のグループに含まれる少なくとも1つのグループには、第1の特徴量および第2の特徴量の両方が含まれる。
【選択図】図2
特許請求の範囲
【請求項1】
第1の画像から第1の特徴量を生成する第1の生成手段と、
前記第1の画像とは異なる第2の画像から第2の特徴量を生成する第2の生成手段と、
前記第1の特徴量と前記第2の特徴量とを結合する結合手段と、
前記結合された特徴量を複数のグループに分割する分割手段と、
前記複数のグループそれぞれについて、各グループに含まれる特徴量をグループごとに混合する混合手段と、
を備え、
前記複数のグループに含まれる少なくとも1つのグループには、前記第1の特徴量および前記第2の特徴量の両方が含まれる
ことを特徴とする情報処理装置。
続きを表示(約 1,200 文字)
【請求項2】
前記結合手段は、前記第1の特徴量と前記第2の特徴量とを空間方向に交互に結合する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記結合手段は、前記第1の特徴量と前記第2の特徴量とを空間方向に不規則に結合する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記混合手段は、
前記複数のグループの各グループに含まれる特徴量をグループごとに空間方向に関して混合する第1手段と、
前記第1手段により得られた特徴量の空間方向の位置を前記分割手段による分割前の空間方向の位置に戻す第2手段と、
前記第2手段により得られた特徴量をチャネル方向に関して混合する第3手段と、
前記第3手段により得られた特徴量の空間方向の位置を前記結合手段による結合前の空間方向の位置に戻す第4手段と、
を有する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記結合手段による結合前または結合後の前記第1の特徴量および前記第2の特徴量の少なくとも一方に関して空間方向に循環シフトするシフト手段をさらに備える
ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記混合手段は、全結合層またはMSA(Multi-head Self Attention)を含む
ことを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記混合手段により得られた特徴量に基づいて、ニューラルネットワーク(NN)を利用した所定のタスクを実行するタスク実行手段をさらに備える
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記第1の画像は、動画像データに含まれる第1のフレーム画像であり、
前記第2の画像は、前記動画像データに含まれる第2のフレーム画像であり、
前記所定のタスクは、追尾タスクである
ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記第1の画像は、ステレオカメラより得られた右眼画像であり、
前記第2の画像は、前記ステレオカメラより得られた左眼画像であり、
前記所定のタスクは、視差推定タスクである
ことを特徴とする請求項7に記載の情報処理装置。
【請求項10】
前記第1の画像は、認証システムによる認証処理時に得られる第1の顔画像であり、
前記第2の画像は、前記認証システムに予め登録された第2の顔画像であり、
前記所定のタスクは、顔認証タスクである
ことを特徴とする請求項7に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、ニューラルネットワークを用いた処理に関するものである。
続きを表示(約 2,300 文字)
【背景技術】
【0002】
近年、画像分類や物体検出、物体追尾といった画像認識技術は、ディープニューラルネットワーク(DNN)の登場によって飛躍的にその精度が向上している。DNNの構造は様々であるが、画像認識においては、多層にわたって畳み込み演算を実行する畳み込みニューラルネットワーク(CNN)が主に用いられてきた。一方、非特許文献1においては、自然言語処理に用いられているTransformerを画像認識に応用したVision Transformer(ViT)が提案されている。Transformerとは、自然言語処理において、Attentionを用いた単語間の関係を表す構造である。ただし、ViTは、パラメータ数や計算量が多いといった課題がある。
【0003】
非特許文献2では、特徴量をいくつかの矩形状のウィンドウに分割し、ウィンドウごとにMSA(Multi-head Self Attention)を行うことによって計算量とパラメータ数を抑える技術が提案されている。非特許文献2の手法はSwinTransformerと呼ばれる。また、非特許文献3では、SwinTransformerを用いて探索範囲から追尾対象を見つける技術が提案されている。
【先行技術文献】
【非特許文献】
【0004】
Dosovitskiy et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale", arXiv:2010.11929, 2020年
Liu et al., "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", arXiv:2103.14030, 2021年
Lin et al."SwinTrack: A Simple and Strong Baseline for Transformer Tracking", arXiv:2112.00995, 2021年
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献3に示される手法では、追尾対象となるテンプレート特徴と、探索対象となるサーチ特徴を空間方向に単純結合した後にMSAなどのトークンミックスを行う。MSAの処理量は空間方向のサイズの2乗に比例するため、トークンミックスにおける処理量が大きく増大するという課題がある。
【0006】
本発明は、このような問題に鑑みてなされたものであり、トークンミックスにおける処理量を低減する技術を提供することを目的としている。
【課題を解決するための手段】
【0007】
上述の問題点を解決するため、本発明に係る情報処理装置は以下の構成を備える。すなわち、情報処理装置は、
第1の画像から第1の特徴量を生成する第1の生成手段と、
前記第1の画像とは異なる第2の画像から第2の特徴量を生成する第2の生成手段と、
前記第1の特徴量と前記第2の特徴量とを結合する結合手段と、
前記結合された特徴量を複数のグループに分割する分割手段と、
前記複数のグループそれぞれについて、各グループに含まれる特徴量をグループごとに混合する混合手段と、
を備え、
前記複数のグループに含まれる少なくとも1つのグループには、前記第1の特徴量および前記第2の特徴量の両方が含まれる。
【発明の効果】
【0008】
本発明によれば、トークンミックスにおける処理量を低減する技術を提供することができる。
【図面の簡単な説明】
【0009】
情報処理装置のハードウェア構成を示す図である。
情報処理装置の機能構成を示す図である(第1実施形態)。
追尾タスクの処理を示すフローチャートである。
マッチング処理(S307)の詳細フローチャートである。
特徴量の結合およびグループ分割を説明する図である。
特徴量の並べ替えを説明する図である(変形例1-1)。
特徴量のグループ分割の他の例を説明する図である。
テンプレート画像および探索画像を説明する図である。
CNNによる処理を示すフローチャートである。
CNNの各レイヤの処理を示す図である。
MLPの処理を示す図である。
入力画像、尤度マップ、BBマップを説明する図である。
マッチング処理の他の例を示すフローチャートである(変形例1-1)。
マッチング処理の他の例を示すフローチャートである(変形例1-2)。
ダウンサンプリングを説明する図である(変形例1-2)。
情報処理装置の機能構成を示す図である(第2実施形態)。
視差推定タスクの処理を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン株式会社
撮像装置
9日前
キヤノン株式会社
撮像装置
9日前
キヤノン株式会社
撮像装置
5日前
キヤノン株式会社
通信装置
18日前
キヤノン株式会社
現像装置
18日前
キヤノン株式会社
現像装置
18日前
キヤノン株式会社
現像装置
18日前
キヤノン株式会社
記録装置
6日前
キヤノン株式会社
撮像装置
17日前
キヤノン株式会社
通信装置
6日前
キヤノン株式会社
清掃装置
17日前
キヤノン株式会社
光走査装置
11日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
記録素子基板
4日前
キヤノン株式会社
撮像システム
12日前
キヤノン株式会社
画像形成装置
12日前
キヤノン株式会社
冊子作製装置
5日前
キヤノン株式会社
画像形成装置
11日前
キヤノン株式会社
画像形成装置
11日前
キヤノン株式会社
画像形成装置
3日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
画像処理装置
10日前
キヤノン株式会社
画像形成装置
6日前
キヤノン株式会社
画像形成装置
6日前
キヤノン株式会社
撮影システム
10日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
19日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
19日前
キヤノン株式会社
画像形成装置
19日前
キヤノン株式会社
情報処理装置
19日前
キヤノン株式会社
静電捕集装置
17日前
キヤノン株式会社
静電捕集装置
17日前
キヤノン株式会社
液体吐出装置
19日前
続きを見る
他の特許を見る