特許ウォッチ

公開番号2024177780
公報種別公開特許公報(A)
公開日2024-12-24
出願番号2023096112
出願日2023-06-12
発明の名称モデル学習装置、行動認識装置、モデル学習方法、およびモデル学習プログラム
出願人日本電信電話株式会社,国立大学法人東京大学
代理人弁理士法人鈴榮特許綜合事務所
主分類G06V 10/774 20220101AFI20241217BHJP(計算;計数)
要約【課題】Few-shot learningで学習したモデルの行動認識精度を向上させるモデル学習装置、方法及びプログラム並びに行動認識装置を提供する。
【解決手段】モデル学習装置として動作する行動認識装置1は、人が物体を操作している撮影画像を含む、ユーザデバイスが生成する学習データを取得する入力データ取得部と、学習データに基づいて学習に用いるためのサポート及びクエリを抽出する抽出部、撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部、選択されたフレームの中で人と物体とが相互作用しているかどうか判定する収束条件判定部、相互作用していないと判定されたフレームを、所定の基準に基づいて人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部及び置き換えられた所定の枚数のフレームと、一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部を備える。
【選択図】図2
特許請求の範囲【請求項１】
人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、
前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、
を備える、モデル学習装置。
続きを表示（約 2,000 文字）【請求項２】
前記フレーム選択部は、前記撮影画像から前記人と前記物体とが相互作用している区間を確認し、前記人と前記物体とが相互作用している区間から前記所定の枚数のフレームを一様に選択する、請求項１に記載のモデル学習装置。
【請求項３】
前記更新されたパラメータが収束条件を満たすかどうかを判定する収束条件判定部をさらに備える、請求項１に記載のモデル学習装置。
【請求項４】
前記モデル更新部は、前記置き換えられた所定の枚数のフレームと前記一様に選択された所定の枚数のフレームとを用いて損失を算出し、前記損失に基づいて前記モデルのパラメータを更新する、請求項１に記載のモデル学習装置。
【請求項５】
前記モデル更新部は、前記置き換えられた所定の枚数のフレームから事前に学習された画像認識可能なニューラルネットワークモデルをベースとして第１の特徴を抽出し、前記一様に選択された所定の枚数のフレームから前記ニューラルネットワークモデルをベースとして第２の特徴を抽出し、前記第１の特徴をクエリとしたアテンション機構を用いて前記第１の特徴と前記第２の特徴の関係を表現した第１の式に全結合層３層で構成されるニューラルネットワークを適用して第３の特徴を算出し、前記第２の特徴をクエリとした前記アテンション機構を用いて前記第２の特徴と前記第１の特徴の関係を表現した第２の式に前記全結合層３層で構成されるニューラルネットワークを適用して第４の特徴を算出し、前記第３の特徴、前記第４の特徴を用いて損失を算出し、前記損失に基づいて前記モデルのパラメータを更新する、請求項１に記載のモデル学習装置。
【請求項６】
人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、
前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、
前記相互作用していないと判定されたフレームを、前記フレームの前後のうち最も近い時間にある前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、
前記更新されたモデルを記憶する記憶部と、
前記人と物体とが相互作用している画像を含む推論データを取得し、前記取得した推論データおよび前記記憶部に記憶されたモデルを入力として行動ラベルを生成する行動認識部と、
前記生成された行動ラベルを出力装置に出力するように制御する出力制御部と、
を備える、行動認識装置。
【請求項７】
モデル学習装置のプロセッサが実行するモデル学習方法であって、
人が物体を操作している撮影画像を含む学習データを取得することと、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出することと、
前記撮影画像から所定の枚数のフレームを一様に選択することと、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定することと、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えることと、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新することと、
を備える、モデル学習方法。
【請求項８】
モデル学習装置のプロセッサによって実行させるための命令を備えるモデル学習プログラムであって、前記命令は、
人が物体を操作している撮影画像を含む学習データを取得することと、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出することと、
前記撮影画像から所定の枚数のフレームを一様に選択することと、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定することと、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えることと、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新することと、
を備える、モデル学習プログラム。

発明の詳細な説明【技術分野】
【０００１】
この発明は、モデル学習装置、行動認識装置、モデル学習方法、およびモデル学習プログラムに関する。
続きを表示（約 2,100 文字）【背景技術】
【０００２】
労働力不足を背景に様々な業種で業務のデジタル化が求められている。業務のデジタル化にあたっては、デジタル化する業務がどのように行われているのかを把握する必要がある。業務がどのように行われているのかを把握することで、例えば、店舗の従業員の行動を可視化することで業務を分析して効率化する、医療従事者の行動を可視化することで医療行為とその他の行為を把握する、等の分析、改善が可能となる。しかしながら、カメラ等を用いて人の行動を観察することは膨大な時間を要する。
【０００３】
例えば、人の行動をカメラから自動で取得するため、行動認識技術を用いる技術がある。当該行動認識技術を用いて、人物の実際の行動を可視化することで業務の分析、改善に利用することが考えられる。しかしながら、認識する行動の定義（行動ラベルの定義）にコストがかかるという問題がある。そのため、ある程度分析したい行動を事前に絞り込み、それらの行動を検出するため、ある行動ラベルを少ない学習データ量で学習する、といった方法が実運用上は有益となる。
【０００４】
例えば、few-shot learningとよばれる学習方式を用いて、ある行動のクラスを数本の動画像（のみ）によってモデルの学習を可能とする技術がある（例えば、非特許文献１を参照）。ここで行動のクラスとは歩く、さわる、というような行動をカテゴライズしたものであり、脚立を登る等のより抽象的なカテゴリでもよい。モデルを学習する際、クラスはあるく、さわるというような行動ラベルであらわされる。few-shot learningは、エピソードとよばれる分類タスクを生成して学習データを構築する。具体的には、大量のクラスがある学習データがあったとして、そこから５クラス抽出したとする。各クラス、３サンプルを学習データとして保持していたとしたら、サポートは、5 way 3 shots（５クラス、３サンプル）となる。そのときクエリが５クラスの中の２クラスの動画をそれぞれ１つずつ保持していたときに、サポートで学習して、その２クラスの動画を正確に分類することがfew-shot learningのタスクである。また、このサポートとクエリの組み合わせをエピソードという。
【先行技術文献】
【非特許文献】
【０００５】
Jiahao Wang, Yunhong Wang, Sheng Liu, Annan Li, “Few-shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning”, ACMMM2021.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
ある程度時間のかかる行動（以下の説明においてはアクティビティと称する）を認識する際に、入力となる動画像データをそのまま利用するのではなく、サンプリングして利用することが一般的である。
【０００７】
例えば、few-shot learningでは少ないデータから学習を行うため、サンプリング方法によっては行動を分類するのに十分なデータがなく、行動の認識精度が低下する場合があるという問題がある。そこで、アクティビティを認識する際にfew-shot learningで用いるのに必要なデータを残してサンプリングする必要がある。
【０００８】
この発明は上記事情に着目してなされたもので、その目的とするところは、動作をしている人の手と物体の相互作用を踏まえたサンプリングを行うことで、few-shot learningで学習したモデルの行動認識精度を向上させることが可能となる技術を提供することにある。
【課題を解決するための手段】
【０００９】
上記課題を解決するために、この発明の一態様のモデル学習装置は、人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、を備えるようにしたものである。
【発明の効果】
【００１０】
この発明の一態様によれば、動作をしている人の手と物体の相互作用を踏まえたサンプリングを行うことで、few-shot learningで学習したモデルの行動認識精度を向上させることが可能となる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許