TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025181462
公報種別公開特許公報(A)
公開日2025-12-11
出願番号2024089459
出願日2024-05-31
発明の名称情報処理装置、情報処理方法及びコンピュータプログラム
出願人キヤノン株式会社
代理人個人,個人,個人
主分類G06V 10/25 20220101AFI20251204BHJP(計算;計数)
要約【課題】
被写体を追尾するために生成したクロップ画像に、追尾対象が収まるように制御可能な情報処理装置を提供する。
【解決手段】
情報処理装置において、時系列に取得された画像に対するクロップ領域を決定するクロップ領域決定手段と、前記クロップ領域に応じて、前記画像からクロップ画像を生成するクロップ手段と、前記クロップ画像の中の追尾対象の追尾領域を検出する追尾領域検出手段と、を有し、前記クロップ領域決定手段は、前フレームにおいて前記追尾領域検出手段によって算出された前記追尾領域に基づいて、前記追尾対象が現フレームの前記クロップ領域に収まるよう、現フレームの前記クロップ領域を決定する。
【選択図】 図3


特許請求の範囲【請求項1】
時系列に取得された画像に対するクロップ領域を決定するクロップ領域決定手段と、
前記クロップ領域に応じて、前記画像からクロップ画像を生成するクロップ手段と、
前記クロップ画像の中の追尾対象の追尾領域を検出する追尾領域検出手段と、を有し、
前記クロップ領域決定手段は、前フレームにおいて前記追尾領域検出手段によって算出された前記追尾領域に基づいて、前記追尾対象が現フレームの前記クロップ領域に収まるよう、現フレームの前記クロップ領域を決定することを特徴とする情報処理装置。
続きを表示(約 1,000 文字)【請求項2】
前記追尾対象の少なくとも1つの局所領域を決定する局所領域検出手段を更に有し、
前記クロップ領域決定手段は、前記追尾領域と、前記少なくとも1つの局所領域とに基づき前記クロップ領域を決定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記クロップ領域決定手段は、前記追尾領域と、前記少なくとも1つの局所領域とが前記現フレームの前記クロップ領域に収まるよう、前記クロップ領域を決定することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記クロップ領域決定手段は、前記前フレームにおいて前記追尾領域検出手段によって算出された追尾領域を、前記追尾領域と前記少なくとも1つの局所領域とを含むように補正し、
補正された前記追尾領域と算出された前記追尾領域とに基づいて、前記クロップ領域を決定することを特徴とする請求項2に記載の情報処理装置。
【請求項5】
前記クロップ領域決定手段は、
前記局所領域の中心位置と前記追尾領域の中心位置とに基づき、前記クロップ領域を決定することを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記追尾対象の全身領域を検出する全身領域検出手段を更に有し、
前記クロップ領域決定手段は、前記追尾領域と、前記全身領域とに基づき前記クロップ領域を決定することを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記クロップ領域決定手段は、前記追尾領域のアスペクト比が所定の閾値よりも大きい場合に前記クロップ領域を補正することを特徴とする請求項1に記載の情報処理装置。
【請求項8】
時系列に取得された画像に対するクロップ領域を決定するクロップ領域決定ステップと、
前記クロップ領域に応じて、前記画像からクロップ画像を生成するクロップステップと、
前記クロップ画像の中の追尾対象の追尾領域を検出する追尾領域検出ステップと、を有し、
前記クロップ領域決定ステップは、前フレームにおいて前記追尾領域検出ステップによって算出された前記追尾領域に基づいて、前記追尾対象が現フレームの前記クロップ領域に収まるよう、現フレームの前記クロップ領域を決定することを特徴とする情報処理方法。
【請求項9】
請求項1~7のいずれか1項に記載の情報処理装置の各手段をコンピュータにより制御するためのコンピュータプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びコンピュータプログラム等に関する。
続きを表示(約 1,000 文字)【背景技術】
【0002】
コンピュータ等の機械が画像をデータとして学習して物体領域を認識する手法が多様に提案されている。このような認識手法を、ここでは認識タスクと呼ぶ。
【0003】
認識タスクには、例えば、画像中から人間の体の部位(頭、顔、上半身、全身など)を検出する検出タスクや、特定の被写体を画像中から探索して追尾する追尾タスクなどがある。検出タスクや追尾タスクにより、画像中の物体の領域を特定することができると、例えばカメラにおいては、その領域にレンズのピントを合わせることができる。
【0004】
又、その領域の露出を適正に調整することができる。従って、ユーザの操作性が飛躍的に向上する。尚、カメラに限らず、様々な用途に活用できる。
【0005】
上記のような認識タスクを学習・実行する技術としては、ニューラルネットワーク(以下、「NN」と記す)が知られている。NNはNeural Networksの略である。深い(層の数が多い)多層NNは、ディープNN(DNN)と称される。
【0006】
DNNは、Deep Neural Networksの略である。特に、深い畳みこみNNは、DCNNと称される。DCNNは、Deep Convolutional Neural Networksの略である。
【0007】
DCNNは性能(検出精度、検出性能)が高いことで知られている。又、近年はVision Transformerと呼ばれる画像認識にアテンション機構を持ち込んだ技術も注目されている。
【0008】
カメラのAF(オートフォーカス)などに認識タスクを利用する場合、高速応答性が求められる上に、デバイス上に搭載できる回路規模の制約があるため、計算リソースの制限がある。そのため、デバイス上に載せられるNNの入力解像度はあまり高くできない。
【0009】
一方で、カメラのAFでは人間の瞳や、動物の瞳、飛行機の先端部分など被写体の局所領域にフォーカスを合わせることが望まれる。一般に局所領域は被写体全体に対して、小さいため、局所部位が高解像度で写った状態で処理をすることが望ましい。
【0010】
又、追尾タスクにおいても、画像中に占める被写体のサイズが大きいと情報量が増えるため、追尾精度の向上が期待できる。従って、被写体を高解像度で撮像した状態で処理をすることが望ましい。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許