TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024071162
公報種別公開特許公報(A)
公開日2024-05-24
出願番号2022181967
出願日2022-11-14
発明の名称情報処理装置、情報処理方法、およびプログラム
出願人キヤノン株式会社
代理人個人
主分類G06T 7/00 20170101AFI20240517BHJP(計算;計数)
要約【課題】 複数の認識対象を学習モデルで認識する場合に、複数の認識対象の少なくとも1つが認識される確率を高めることができるようにする。
【解決手段】 情報処理装置100は、同一の人物における頭部誤差および胴体誤差を比較した結果に基づいて、頭部認識モデル121または胴体認識モデル122のパラメータを更新する。
【選択図】 図1B
特許請求の範囲【請求項1】
入力情報に含まれる所定の複数の認識対象を、学習モデルを用いて認識する認識手段と、
前記認識手段による前記複数の認識対象の認識結果に基づいて、前記学習モデルを学習する学習手段と、を有し、
前記学習手段は、前記複数の認識対象の認識結果に対する評価指標の値を比較した結果に基づいて、前記学習モデルのパラメータを更新することを特徴とする情報処理装置。
続きを表示(約 1,200 文字)【請求項2】
前記学習手段は、前記複数の認識対象の認識結果に対する評価指標の値を比較した結果に基づいて、前記パラメータの更新に使用する損失を算出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記学習手段は、前記複数の認識対象の認識結果に対する評価指標の値を比較した結果に基づいて、前記パラメータの更新に使用する損失として、前記複数の認識対象のそれぞれに対する損失を算出することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記学習手段は、前記複数の認識対象のうちの少なくとも1つの前記認識対象に対する前記評価指標の値を、当該認識対象に対する損失とし、前記複数の認識対象のうちのその他の前記認識対象について、当該認識対象に対する前記評価指標の値と異なる値を、当該認識対象に対する損失とすることを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記学習手段は、前記複数の認識対象のうち、前記評価指標の値が認識結果に対する評価が最も高いことを示す前記認識対象に対する前記評価指標の値を、当該認識対象に対する損失とし、前記複数の認識対象のうちのその他の前記認識対象に対する損失を0とすることを特徴とする請求項3または4に記載の情報処理装置。
【請求項6】
前記学習手段は、前記複数の認識対象の認識結果に対する評価指標の値を比較した結果に基づいて、前記複数の認識対象のうちの少なくとも1つの前記認識対象に対する前記評価指標の値に重み付けを行った値を、当該少なくとも1つの認識対象に対する損失とすることを特徴とする請求項3または4に記載の情報処理装置。
【請求項7】
前記学習手段は、前記認識対象の認識結果に対する評価指標であって、前記比較を行う前記評価指標と異なる評価指標の値を、前記パラメータの更新に使用する損失として算出することを特徴とする請求項2~4のいずれか1項に記載の情報処理装置。
【請求項8】
前記学習手段は、前記評価指標の値と、当該評価指標に対する閾値と、に基づいて、前記学習モデルのパラメータを更新することを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
【請求項9】
前記学習手段は、前記認識対象の正解を示す情報に基づいて、前記認識手段による認識結果のうち、当該認識対象に対応する部分の情報を抽出し、抽出した情報に基づいて、当該認識対象の認識結果に対する評価指標の値を算出することを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
【請求項10】
前記学習モデルのパラメータは、前記認識手段により前記複数の認識対象を個別に認識する際に用いられるパラメータであることを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
各種の情報に含まれる認識対象を、学習モデルを用いて認識することが行われている。特許文献1には、先に構築した第1のモデルの出力傾向を参照して、第2のモデルのモデルパラメータを更新する技術が開示されている。具体的に、特許文献1に記載の技術では、第1のモデルおよび第2のモデルを学習し、第1のモデルおよび第2のモデルを組み合わせて音声認識を行う。特許文献1に記載の技術では、第2のモデルのモデルパラメータを更新する際に用いる損失関数として、第2のモデルの出力と正解との誤差が小さくなるようにしつつ、第1のモデルの出力と第2のモデルの出力とが離れるような関数を用いる。
【先行技術文献】
【特許文献】
【0003】
特表2016-522459号公報
【非特許文献】
【0004】
CenterNet: Keypoint Triplets for Object Detection, Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, Qi Tian; ICCV2019, pp.6569-6578.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術では、複数の学習モデルを用いて1つの認識対象(1つの認識タスク)の認識精度を向上させる技術である。したがって、特許文献1に記載の技術では、学習モデルが複数の認識対象の少なくとも1つを認識することができる確率を高めることができないという問題点がある。
【0006】
本発明は、以上の問題点に鑑みてなされたものであり、学習モデルが複数の認識対象の少なくとも1つを認識することができる確率を高めることができるようにすることを目的とする。
【課題を解決するための手段】
【0007】
本発明の情報処理装置は、入力情報に含まれる所定の複数の認識対象を、学習モデルを用いて認識する認識手段と、前記認識手段による前記複数の認識対象の認識結果に基づいて、前記学習モデルを学習する学習手段と、を有し、前記学習手段は、前記複数の認識対象の認識結果に対する評価指標の値を比較した結果に基づいて、前記学習モデルのパラメータを更新することを特徴とする。
【発明の効果】
【0008】
本発明によれば、学習モデルが複数の認識対象の少なくとも1つを認識することができる確率を高めることができる。
【図面の簡単な説明】
【0009】
情報処理装置のハードウェアの構成を示す図である。
情報処理装置が有する機能部の構成の第1の例を示す図である。
学習モデルの学習方法を説明する図である。
認識モデルの学習方法の概要を説明する図である。
認識モデルを学習する際の処理の第1の例を示すフローチャートである。
誤差および損失の第1の例を示す図である。
頭部領域マップおよび胴体領域マップを生成する処理を説明する図である。
誤差を算出する処理の第1の例を示すフローチャートである。
損失を算出する処理の第1の例を示すフローチャートである。
人物ごとの損失の第1の例を示す図である。
損失を算出する処理の第2の例を示すフローチャートである。
情報処理装置が有する機能部の構成の第2の例を示す図である。
認識部の詳細な構成を示す図である。
人物ごとの損失の第2の例を示す図である。
認識モデルを学習する際の処理の第2の例を示すフローチャートである。
損失を算出する処理の第2の例を示すフローチャートである。
情報処理装置が有する機能部の構成の第3の例を示す図である。
スコア、スコアに対する閾値、およびスコアの補正方法を示す図である。
スコアおよび損失を示す図である。
認識モデルを学習する際の処理の第3の例を示すフローチャートである。
頭部用閾値、胴体用閾値を算出する処理を示すフローチャートである。
損失を算出する処理の第2の例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら、実施形態を説明する。
画像認識の分野では、撮像装置のフォーカスを被写体に自動的に合わせること(オートフォーカス)を目的として、画像中の被写体を認識して検出することが行われている。例えば、被写体が人物である場合には、顔や頭部等、人物の部位が認識される。また、物体の領域を認識する技術として、例えば、CNN(Convolutional Neural Network)を活用した深層学習手法がある。非特許文献1には、CNNを用いた物体認識技術として、認識対象の物体の中心にヒートマップを与えたものを正解として物体の中心位置を学習する方法が開示されている。人物を認識する技術の利用方法として、例えば、以下の利用方法が考えられる。すなわち、撮像装置が、人物に対するオートフォーカスを行うに際し、頭部を認識することができた場合には、頭部にフォーカスを合わせ、頭部を認識することができなかった場合には、胴体を認識して胴体にフォーカスを合わせるといった利用方法が考えられる。そこで、以下の各実施形態では、このような利用方法を実現する場合を例示し、撮像装置で撮像された画像に含まれる人物の部位が認識対象である場合を例示する。また、以下の各実施形態では、入力情報に含まれる認識対象を認識する学習モデルがCNNである場合を例示する。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する

関連特許

キヤノン株式会社
トナー
9日前
キヤノン株式会社
トナー
6日前
キヤノン株式会社
トナー
18日前
キヤノン株式会社
記録装置
6日前
キヤノン株式会社
記録装置
5日前
キヤノン株式会社
撮像装置
26日前
キヤノン株式会社
記録装置
20日前
キヤノン株式会社
記録装置
5日前
キヤノン株式会社
通信装置
18日前
キヤノン株式会社
光学機器
3日前
キヤノン株式会社
撮像装置
16日前
キヤノン株式会社
面状発熱体
23日前
キヤノン株式会社
レンズ鏡筒
17日前
キヤノン株式会社
画像形成装置
25日前
キヤノン株式会社
画像形成装置
25日前
キヤノン株式会社
画像形成装置
25日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
5日前
キヤノン株式会社
画像形成装置
26日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
画像形成装置
25日前
キヤノン株式会社
光電変換装置
6日前
キヤノン株式会社
画像処理装置
5日前
キヤノン株式会社
液体吐出装置
6日前
キヤノン株式会社
液体吐出装置
6日前
キヤノン株式会社
信号処理装置
6日前
キヤノン株式会社
光電変換装置
6日前
キヤノン株式会社
光電変換装置
5日前
キヤノン株式会社
位置基準部材
5日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
画像形成装置
27日前
キヤノン株式会社
画像形成装置
3日前
続きを見る