TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024028183
公報種別公開特許公報(A)
公開日2024-03-01
出願番号2023131596
出願日2023-08-10
発明の名称動作認識装置、方法及び電子機器
出願人富士通株式会社
代理人個人,個人
主分類G06T 7/20 20170101AFI20240222BHJP(計算;計数)
要約【課題】本発明の実施例は、動作認識装置、方法及び電子機器を提供する。
【解決手段】該方法は、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、第2のニューラルネットワークにより該ビデオフレームにおけるオブジェクトを検出し、該オブジェクトのバウンディングボックスを出力するステップと、該部位アフィニティフィールド、該信頼度マップ及び該バウンディングボックスに基づいて該オブジェクトの動作認識を行うステップと、を含む。これによって、動作認識結果の正確性を向上させることができる。
【選択図】図1
特許請求の範囲【請求項1】
動作認識装置であって、
第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力する第1の処理部と、
第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力する第2の処理部と、
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行う動作認識部と、を含む、装置。
続きを表示(約 2,300 文字)【請求項2】
前記動作認識部は、
前記信頼度マップに基づいて前記オブジェクトのキーポイント情報を生成する第1の生成部と、
前記部位アフィニティフィールド及び前記キーポイント情報に基づいて、隣接する2つのキーポイント間の部位アフィニティフィールドスコアを計算する第2の生成部と、
前記バウンディングボックスを調整して補正バウンディングボックスを生成する第3の生成部と、
前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス内に第1の骨格マップを生成し、前記第1の骨格マップに基づいて前記オブジェクトの動作認識を行う第1の認識部、及び/又は、前記キーポイント情報、前記部位アフィニティフィールドスコアに基づいて、前記補正バウンディングボックス外に第2の骨格マップを生成し、前記第2の骨格マップに基づいて前記オブジェクトの動作認識を行う第2の認識部と、を含む、請求項1に記載の装置。
【請求項3】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、各前記補正バウンディングボックス内に、前記第1の骨格マップをそれぞれ生成し、且つ/或いは、
前記補正バウンディングボックスのうちの少なくとも2つが重なっている場合、前記第1の認識部は、重なっている前記補正バウンディングボックス内のキーポイントを解析し、解析結果に基づいて、各前記補正バウンディングボックス内に、前記第1の骨格マップをそれぞれ生成する、請求項2に記載の装置。
【請求項4】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、前記補正バウンディングボックス内において、各部位タイプについて、信頼度マップのピーク値が最も高いキーポイントを前記部位タイプのキーポイントとして選択し、選択された全てのキーポイントを連結して第1の骨格マップを生成する、請求項3に記載の装置。
【請求項5】
前記補正バウンディングボックスが重なっていない場合、前記第1の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックス内の第3の骨格マップを決定し、
前記第3の骨格マップが1つあるとき、前記第3の骨格マップを前記第1の骨格マップとし、
前記第3の骨格マップが複数あるとき、キーポイントの数が最も多い前記第3の骨格マップを本体とし、キーポイントの数の多い順に、他の第3の骨格マップと前記本体とを融合し、前記第1の骨格マップを生成する、請求項3に記載の装置。
【請求項6】
前記補正バウンディングボックスが重なっている場合、前記第1の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び重なっている複数の前記補正バウンディングボックスに基づいて、重なっている前記補正バウンディングボックスの範囲内の複数の第4の骨格マップを決定し、
重なっている複数の前記補正バウンディングボックスのうちの1つの補正バウンディングボックスについて、前記第4の骨格マップが利用可能であり、且つ前記第4の骨格マップの前記1つの補正バウンディングボックス内のキーポイントの数が前記第4の骨格マップの前記1つの補正バウンディングボックス外のキーポイントの数よりも多い場合、前記第4の骨格マップを前記1つの補正バウンディングボックスの候補リストにラベル付けし、
前記候補リストにおけるキーポイントの数が最も多い前記第4の骨格マップを本体とし、キーポイントの数の多い順に、前記候補リストにおける他の第4の骨格マップと前記本体とを融合し、前記1つの補正バウンディングボックスに対応する前記第1の骨格マップを生成し、前記第1の骨格マップにおける前記第4の骨格マップを利用不可としてラベル付けする、請求項3に記載の装置。
【請求項7】
前記第2の認識部は、前記キーポイント情報、前記部位アフィニティフィールドスコア及び前記補正バウンディングボックスに基づいて、前記補正バウンディングボックスの範囲外の第5の骨格マップを決定し、第1の所定数以上のキーポイントを含む第5の骨格マップを前記第2の骨格マップとする、請求項2に記載の装置。
【請求項8】
前記第3の生成部は、前記バウンディングボックスを長さ方向及び/又は幅方向に拡大又は縮小して前記補正バウンディングボックスを取得する、請求項2に記載の装置。
【請求項9】
動作認識方法であって、
第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、
第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力するステップと、
前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップと、を含む、方法。
【請求項10】
コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して請求項9に記載の動作認識方法を実現するように構成される、電子機器。

発明の詳細な説明【技術分野】
【0001】
本発明の実施例は、ビデオ検出の技術分野に関する。
続きを表示(約 1,900 文字)【背景技術】
【0002】
現在、ビデオフレームにおける1つ又は複数のオブジェクトの動作認識(姿勢推定とも称される)には、トップダウンとボトムアップの2つのアプローチを採用してもよい。トップダウンのアプローチでは、まず、オブジェクト(例えば人体)を検出し、次に、検出された画像領域ごとに各オブジェクトの姿勢を独立して推定する。ボトムアップのアプローチでは、まず、複数のキーポイント(又はキーパーツ)情報を検出し、次に、これらのキーポイントを連結して連結候補を生成し、連結候補に基づいてオブジェクトの骨格マップを生成し、骨格マップに基づいて各オブジェクトの姿勢を推定する。
【0003】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、本発明の発明者の発見によると、現在のボトムアップのスキームでは、画像品質、遮蔽又はオブジェクトの姿勢角度などの要因により、オブジェクトの骨格マップを生成する際に、特にビデオフレームにおけるオブジェクトが多い場合、キーポイントのグループ分けが不正確になることなどの問題が発生しやすく、該骨格マップに基づいて動作推定を行う際に、動作認識結果の信頼性が低下しやすくなる。
【0005】
上記の技術的問題の少なくとも1つを鑑み、本発明の実施例は、動作認識結果の正確性を向上させることができる、動作認識装置、方法及び電子機器を提供する。
【課題を解決するための手段】
【0006】
本発明の実施例の1つの態様では、動作認識装置であって、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力する第1の処理部と、第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力する第2の処理部と、前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行う動作認識部と、を含む、装置を提供する。
【0007】
本発明の実施例のもう1つの態様では、動作認識方法であって、第1のニューラルネットワークを使用してビデオフレームを処理し、部位アフィニティフィールド及び信頼度マップを出力するステップと、第2のニューラルネットワークにより前記ビデオフレームにおけるオブジェクトを検出し、前記オブジェクトのバウンディングボックスを出力するステップと、前記部位アフィニティフィールド、前記信頼度マップ及び前記バウンディングボックスに基づいて前記オブジェクトの動作認識を行うステップと、を含む、方法を提供する。
【0008】
本発明の実施例のもう1つの態様では、コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して上記の動作認識方法を実現するように構成される、電子機器を提供する。
【0009】
本発明の実施例の有利な効果の1つは以下の通りである。ビデオフレームについて、第1のニューラルネットワークを使用して部位アフィニティフィールド及び信頼度マップを出力し、第2のニューラルネットワークを使用してオブジェクトのバウンディングボックスを出力し、部位アフィニティフィールド、信頼度マップ及びバウンディングボックスに基づいてオブジェクトの動作認識を行う。ボトムアップのスキームでは、トップダウンのスキームにより生成されたバウンディングボックス情報も考慮されるため、キーポイントのグループ分けの正確性を向上させることができるため、オブジェクトの骨格マップに基づいて動作認識を行う際に、動作認識結果の正確性を向上させることができる。
【0010】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許