TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024177780
公報種別
公開特許公報(A)
公開日
2024-12-24
出願番号
2023096112
出願日
2023-06-12
発明の名称
モデル学習装置、行動認識装置、モデル学習方法、およびモデル学習プログラム
出願人
日本電信電話株式会社
,
国立大学法人 東京大学
代理人
弁理士法人鈴榮特許綜合事務所
主分類
G06V
10/774 20220101AFI20241217BHJP(計算;計数)
要約
【課題】Few-shot learningで学習したモデルの行動認識精度を向上させるモデル学習装置、方法及びプログラム並びに行動認識装置を提供する。
【解決手段】モデル学習装置として動作する行動認識装置1は、人が物体を操作している撮影画像を含む、ユーザデバイスが生成する学習データを取得する入力データ取得部と、学習データに基づいて学習に用いるためのサポート及びクエリを抽出する抽出部、撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部、選択されたフレームの中で人と物体とが相互作用しているかどうか判定する収束条件判定部、相互作用していないと判定されたフレームを、所定の基準に基づいて人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部及び置き換えられた所定の枚数のフレームと、一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部を備える。
【選択図】図2
特許請求の範囲
【請求項1】
人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、
前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、
を備える、モデル学習装置。
続きを表示(約 2,000 文字)
【請求項2】
前記フレーム選択部は、前記撮影画像から前記人と前記物体とが相互作用している区間を確認し、前記人と前記物体とが相互作用している区間から前記所定の枚数のフレームを一様に選択する、請求項1に記載のモデル学習装置。
【請求項3】
前記更新されたパラメータが収束条件を満たすかどうかを判定する収束条件判定部をさらに備える、請求項1に記載のモデル学習装置。
【請求項4】
前記モデル更新部は、前記置き換えられた所定の枚数のフレームと前記一様に選択された所定の枚数のフレームとを用いて損失を算出し、前記損失に基づいて前記モデルのパラメータを更新する、請求項1に記載のモデル学習装置。
【請求項5】
前記モデル更新部は、前記置き換えられた所定の枚数のフレームから事前に学習された画像認識可能なニューラルネットワークモデルをベースとして第1の特徴を抽出し、前記一様に選択された所定の枚数のフレームから前記ニューラルネットワークモデルをベースとして第2の特徴を抽出し、前記第1の特徴をクエリとしたアテンション機構を用いて前記第1の特徴と前記第2の特徴の関係を表現した第1の式に全結合層3層で構成されるニューラルネットワークを適用して第3の特徴を算出し、前記第2の特徴をクエリとした前記アテンション機構を用いて前記第2の特徴と前記第1の特徴の関係を表現した第2の式に前記全結合層3層で構成されるニューラルネットワークを適用して第4の特徴を算出し、前記第3の特徴、前記第4の特徴を用いて損失を算出し、前記損失に基づいて前記モデルのパラメータを更新する、請求項1に記載のモデル学習装置。
【請求項6】
人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、
前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、
前記相互作用していないと判定されたフレームを、前記フレームの前後のうち最も近い時間にある前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、
前記更新されたモデルを記憶する記憶部と、
前記人と物体とが相互作用している画像を含む推論データを取得し、前記取得した推論データおよび前記記憶部に記憶されたモデルを入力として行動ラベルを生成する行動認識部と、
前記生成された行動ラベルを出力装置に出力するように制御する出力制御部と、
を備える、行動認識装置。
【請求項7】
モデル学習装置のプロセッサが実行するモデル学習方法であって、
人が物体を操作している撮影画像を含む学習データを取得することと、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出することと、
前記撮影画像から所定の枚数のフレームを一様に選択することと、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定することと、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えることと、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新することと、
を備える、モデル学習方法。
【請求項8】
モデル学習装置のプロセッサによって実行させるための命令を備えるモデル学習プログラムであって、前記命令は、
人が物体を操作している撮影画像を含む学習データを取得することと、
前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出することと、
前記撮影画像から所定の枚数のフレームを一様に選択することと、
前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定することと、
前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えることと、
前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新することと、
を備える、モデル学習プログラム。
発明の詳細な説明
【技術分野】
【0001】
この発明は、モデル学習装置、行動認識装置、モデル学習方法、およびモデル学習プログラムに関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
労働力不足を背景に様々な業種で業務のデジタル化が求められている。業務のデジタル化にあたっては、デジタル化する業務がどのように行われているのかを把握する必要がある。業務がどのように行われているのかを把握することで、例えば、店舗の従業員の行動を可視化することで業務を分析して効率化する、医療従事者の行動を可視化することで医療行為とその他の行為を把握する、等の分析、改善が可能となる。しかしながら、カメラ等を用いて人の行動を観察することは膨大な時間を要する。
【0003】
例えば、人の行動をカメラから自動で取得するため、行動認識技術を用いる技術がある。当該行動認識技術を用いて、人物の実際の行動を可視化することで業務の分析、改善に利用することが考えられる。しかしながら、認識する行動の定義(行動ラベルの定義)にコストがかかるという問題がある。そのため、ある程度分析したい行動を事前に絞り込み、それらの行動を検出するため、ある行動ラベルを少ない学習データ量で学習する、といった方法が実運用上は有益となる。
【0004】
例えば、few-shot learningとよばれる学習方式を用いて、ある行動のクラスを数本の動画像(のみ)によってモデルの学習を可能とする技術がある(例えば、非特許文献1を参照)。ここで行動のクラスとは歩く、さわる、というような行動をカテゴライズしたものであり、脚立を登る等のより抽象的なカテゴリでもよい。モデルを学習する際、クラスはあるく、さわるというような行動ラベルであらわされる。few-shot learningは、エピソードとよばれる分類タスクを生成して学習データを構築する。具体的には、大量のクラスがある学習データがあったとして、そこから5クラス抽出したとする。各クラス、3サンプルを学習データとして保持していたとしたら、サポートは、5 way 3 shots(5クラス、3サンプル)となる。そのときクエリが5クラスの中の2クラスの動画をそれぞれ1つずつ保持していたときに、サポートで学習して、その2クラスの動画を正確に分類することがfew-shot learningのタスクである。また、このサポートとクエリの組み合わせをエピソードという。
【先行技術文献】
【非特許文献】
【0005】
Jiahao Wang, Yunhong Wang, Sheng Liu, Annan Li, “Few-shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning”, ACMMM2021.
【発明の概要】
【発明が解決しようとする課題】
【0006】
ある程度時間のかかる行動(以下の説明においてはアクティビティと称する)を認識する際に、入力となる動画像データをそのまま利用するのではなく、サンプリングして利用することが一般的である。
【0007】
例えば、few-shot learningでは少ないデータから学習を行うため、サンプリング方法によっては行動を分類するのに十分なデータがなく、行動の認識精度が低下する場合があるという問題がある。そこで、アクティビティを認識する際にfew-shot learningで用いるのに必要なデータを残してサンプリングする必要がある。
【0008】
この発明は上記事情に着目してなされたもので、その目的とするところは、動作をしている人の手と物体の相互作用を踏まえたサンプリングを行うことで、few-shot learningで学習したモデルの行動認識精度を向上させることが可能となる技術を提供することにある。
【課題を解決するための手段】
【0009】
上記課題を解決するために、この発明の一態様のモデル学習装置は、人が物体を操作している撮影画像を含む学習データを取得する学習データ取得部と、前記学習データに基づいて学習に用いるためのサポートおよびクエリを抽出する抽出部と、前記撮影画像から所定の枚数のフレームを一様に選択するフレーム選択部と、前記一様に選択されたフレームの中で前記人と物体とが相互作用しているかどうか判定する判定部と、前記相互作用していないと判定されたフレームを、所定の基準に基づいて前記人と物体とが相互作用しているフレームと置き換えるフレーム置き換え部と、前記置き換えられた所定の枚数のフレームと、前記一様に選択された所定の枚数のフレームとに基づいてモデルのパラメータを更新するモデル更新部と、を備えるようにしたものである。
【発明の効果】
【0010】
この発明の一態様によれば、動作をしている人の手と物体の相互作用を踏まえたサンプリングを行うことで、few-shot learningで学習したモデルの行動認識精度を向上させることが可能となる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
物品
24日前
個人
認証システム
1か月前
個人
自動精算システム
17日前
個人
保証金管理システム
1か月前
個人
鑑定証明システム
1か月前
個人
救急搬送システム
24日前
個人
管理サーバ
3日前
キヤノン株式会社
印刷装置
17日前
個人
人的価値発掘システム
2か月前
個人
業界地図作成システム
2か月前
株式会社MRC
集客システム
1か月前
キヤノン電子株式会社
情報処理装置
2か月前
株式会社宗建
SNSサーバー
2か月前
個人
VRによる人体各部位の立体化
3日前
個人
生成AIとの常時接続システム
24日前
個人
技術マッチングシステム
1か月前
個人
未来型家系図構築システム
12日前
キヤノン株式会社
印刷制御装置
1か月前
株式会社ネットブリッジ
展示販売装置
1か月前
個人
配送システムおよび同包箱
2か月前
ミサワホーム株式会社
管理装置
2か月前
キヤノン株式会社
情報処理装置
5日前
トヨタ自動車株式会社
分析装置
1か月前
キヤノン株式会社
印刷管理装置
1か月前
株式会社COLORS
表示装置
18日前
株式会社SEKT
文字認識装置
13日前
個人
コンテンツ開示順位判定システム
19日前
トヨタ自動車株式会社
推定装置
10日前
ミサワホーム株式会社
システム
2か月前
大同特殊鋼株式会社
棒材計数装置
2か月前
ローム株式会社
ソース機器
24日前
ミサワホーム株式会社
プログラム
1か月前
個人
文字入力方法、文字入力プログラム
1か月前
オムロン株式会社
認証中継サーバ
2か月前
トヨタ自動車株式会社
表認識装置
12日前
キヤノン電子株式会社
業務管理システム
17日前
続きを見る
他の特許を見る