TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024064420
公報種別公開特許公報(A)
公開日2024-05-14
出願番号2022172999
出願日2022-10-28
発明の名称学習装置、データ拡張システム、推定装置、学習方法、およびプログラム
出願人日本電気株式会社
代理人個人,個人
主分類G06N 20/00 20190101AFI20240507BHJP(計算;計数)
要約【課題】少量の動作データであっても、過学習を起こさずに動作生成モデルを訓練できる学習装置を提供する。
【解決手段】ターゲット動作に関する第1動作データを取得する動作データ取得部と、第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを含む第1生成部と、動作データが第1動作データおよび擬似第1動作データのいずれであるかを判別する判別モデルを用いて、第1動作データと擬似第1動作データとのずれの程度を示す判別ロスを計算する判別部と、基底動作の組み合わせでターゲット動作を再構成し、ターゲット動作と基底動作との関連度を計算する関連度計算部と、基底動作に関する動作データと擬似第1動作データとの間のずれの程度を示す正則化ロスを計算する正則化ロス計算部と、判別ロスおよび正則化ロスを用いて、第1生成モデルと判別モデルとを敵対的に学習させる敵対的学習処理部と、を備える学習装置とする。
【選択図】 図1
特許請求の範囲【請求項1】
ターゲット動作に関する第1動作データを取得する動作データ取得手段と、
前記第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを含む第1生成手段と、
入力された動作データが前記第1動作データおよび前記擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された前記第1動作データおよび生成された前記擬似第1動作データに関して、前記第1動作データと前記擬似第1動作データとのずれの程度を示す判別ロスを計算する判別手段と、
少なくとも一つの基底動作の組み合わせで前記ターゲット動作を再構成し、前記ターゲット動作と前記基底動作との関連度を計算する関連度計算手段と、
少なくとも一つの前記基底動作に関する動作データと前記擬似第1動作データとの間のずれの程度を示す正則化ロスを計算する正則化ロス計算手段と、
前記判別ロスおよび前記正則化ロスを用いて、前記第1生成モデルと前記判別モデルとを敵対的に学習させる敵対的学習処理手段と、を備える学習装置。
続きを表示(約 2,800 文字)【請求項2】
前記関連度計算手段は、
前記基底動作の組み合わせを線形結合で再構成し、
前記関連度として、線形結合された前記基底動作の係数を計算し、
前記正則化ロス計算手段は、
前記基底動作に関する動作データと前記擬似第1動作データとの間で定義される所定の確率分布の距離を、前記関連度を重みとして加重平均して、前記正則化ロスを計算する請求項1に記載の学習装置。
【請求項3】
前記ターゲット動作を再構成可能なソース動作に関する第2動作データの入力に応じて前記擬似第2動作データを出力する第2生成モデルを含む第2生成手段を備え、
前記関連度計算手段は、
少なくとも一つの前記ソース動作の組み合わせで前記ターゲット動作を再構成し、前記ターゲット動作と前記ソース動作との前記関連度を計算し、
前記正則化ロス計算手段は、
少なくとも一つの前記擬似第2動作データと前記擬似第1動作データとの間の前記正則化ロスを計算する請求項1に記載の学習装置。
【請求項4】
前記関連度計算手段は、
前記ソース動作の組み合わせを線形結合で再構成し、
前記関連度として、線形結合された前記ソース動作の係数を計算し、
前記正則化ロス計算手段は、
前記擬似第1動作データと前記擬似第2動作データとの間で定義される所定の確率分布の距離を、前記関連度を重みとして加重平均して、前記正則化ロスを計算する請求項3に記載の学習装置。
【請求項5】
前記動作データ取得手段は、
ソース動作に関する第2動作データを取得し、
前記関連度計算手段は、
少なくとも一つの前記ソース動作の線形結合で前記ターゲット動作を再構成し、前記ターゲット動作と前記ソース動作との前記関連度を計算し、
前記正則化ロス計算手段は、
少なくとも一つの前記第2動作データと前記擬似第1動作データとの間の前記正則化ロスを計算する請求項1に記載の学習装置。
【請求項6】
請求項1乃至5のいずれか一項に記載の学習装置によって学習された第1生成モデルを用いて動作データを拡張するデータ拡張システムであって、
人物の動作に応じて測定された時系列骨格データを取得し、前記時系列骨格データから、前記人物の属性要素に関する体格データ、前記人物が行った動作の時間要素に関するタイミングデータ、および前記人物が行った動作中の姿勢の変化に関する動作データを分離する情報分離装置と、
前記体格データ、前記タイミングデータ、および前記動作データの各々を拡張し、拡張された前記体格データ、前記タイミングデータ、および前記動作データを統合することで前記時系列骨格データを拡張し、拡張された前記時系列骨格データを出力する拡張装置と、を備え、
前記拡張装置は、
前記第1生成モデルを用いて、前記動作データを拡張するデータ拡張システム。
【請求項7】
前記情報分離装置は、
前記時系列骨格データから前記体格データを分離する体格データ分離手段と、
前記体格データが分離された前記時系列骨格データから前記タイミングデータを分離するタイミングデータ分離手段と、を有し、
前記拡張装置は、
前記属性要素を変化させて、前記体格データを拡張する体格データ拡張手段と、
前記時間要素を変化させて、前記タイミングデータを拡張するタイミングデータ拡張手段と、
前記動作データの入力に応じて前記第1生成モデルから出力される擬似動作データを生成することによって、前記動作データを拡張する動作データ拡張手段と、
拡張された前記体格データ、前記タイミングデータ、および前記動作データを統合して、前記時系列骨格データを拡張する統合手段と、を有する請求項6に記載のデータ拡張システム。
【請求項8】
請求項7に記載のデータ拡張システムによって拡張された時系列骨格データを用いて学習された推定モデルを用いて、人物の動作を推定する推定装置であって、
人物の動作に応じて測定された実データを取得する取得手段と、
前記実データの入力に応じて前記第1生成モデルから出力される推定データを、前記人物の動作として推定する推定手段と、
推定された前記推定データを出力する出力手段と、を備える推定装置。
【請求項9】
コンピュータが、
ターゲット動作に関する第1動作データを取得し、
前記第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを用いて前記擬似第1動作を生成し、
入力された動作データが前記第1動作データおよび前記擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された前記第1動作データおよび生成された前記擬似第1動作データに関して、前記第1動作データと前記擬似第1動作データとのずれの程度を示す判別ロスを出力する判別モデルを用いて判別ロスを計算し、
少なくとも一つの基底動作の組み合わせで前記ターゲット動作を再構成し、
前記ターゲット動作と前記基底動作との関連度を計算し、
少なくとも一つの前記基底動作に関する動作データと前記擬似第1動作データとの間のずれの程度を示す正則化ロスを計算し、
前記判別ロスおよび前記正則化ロスを用いて、前記第1生成モデルと前記判別モデルとを敵対的に学習させる学習方法。
【請求項10】
ターゲット動作に関する第1動作データを取得し、
前記第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを用いて前記擬似第1動作を生成する処理と、
入力された動作データが前記第1動作データおよび前記擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された前記第1動作データおよび生成された前記擬似第1動作データに関して、前記第1動作データと前記擬似第1動作データとのずれの程度を示す判別ロスを出力する判別モデルを用いて判別ロスを計算する処理と、
少なくとも一つの基底動作の組み合わせで前記ターゲット動作を再構成する処理と、
前記ターゲット動作と前記基底動作との関連度を計算する処理と、
少なくとも一つの前記基底動作に関する動作データと前記擬似第1動作データとの間のずれの程度を示す正則化ロスを計算する処理と、
前記判別ロスおよび前記正則化ロスを用いて、前記第1生成モデルと前記判別モデルとを敵対的に学習させる処理とをコンピュータに実行させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、動作データを拡張するモデルの学習に用いられる学習装置等に関する。
続きを表示(約 2,800 文字)【背景技術】
【0002】
映像やモーションキャプチャ、ウェアラブルセンサで人物の動作や行動をセンシングし、認識する技術へのニーズが高まっている。例えば、機械学習等の手法によって動作データを学習した認識モデルを用いれば、人物の動作や行動を認識できる。より実用的な精度で認識を行うためには、体格や年齢、個人ごとの動きの癖などに関するバリエーションが訓練データに含まれるように様々な人物の動作を計測し、大量の動作データを用いて、認識モデルを訓練する必要がある。動作データの計測には多くの時間と手間が掛かるため、実際に計測された動作データの擬似データ(擬似動作データ)が用いられる。そのため、動作データを拡張して、大量の擬似動作データを生成するデータ拡張技術が求められている。
【0003】
非特許文献1には、Kinetic-GAN(Generative Adversarial Network)という技術が開示されている。Kinetic-GANは、GANとST-GCN(Spatial Temporal Graph Convolutional Network)を活用して、人体の運動特性を合成するアーキテクチャである。Kinetic-GANでは、敵対的学習によって、擬似動作データを生成するモデル(動作生成モデル)を訓練する。非特許文献1においては、動作生成モデルを訓練するための損失関数に、Wasserstein-GANが用いられている。例えば、非特許文献1の手法を用いれば、日常動作の公開データセットで動作生成モデルを訓練することによって、最大で120種類の動作の擬似データを生成できる。
【0004】
非特許文献2には、クロスドメイン学習という技術が開示されている。非特許文献2のクロスドメイン学習では、ソースドメインにおける大量のソースデータと、ターゲットドメインにおける少量のターゲットデータとを用いて、画像生成モデルを訓練する。ソースデータには、入手が容易な公開データセットが用いられる。ターゲットデータには、実データが用いられる。非特許文献2の手法では、ソースドメインにおけるサンプル間の多様性を表す確率分布をターゲットドメインにも適用して、少ない実データであっても多様性を確保できる。そのため、非特許文献2の手法によれば、少量の実データを用いて、過学習を起こさずに画像生成モデルを訓練できる。
【先行技術文献】
【非特許文献】
【0005】
B. Degardin, et al., “Generative Adversarial Graph Convolutional Networks for Human Action Synthesis,” In Proc. WACV, 2022.
U. Ojha, et al., “Few-shot Image Generation via Cross-domain Correspondence,” In Proc. CVPR, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献2に開示されたクロスドメイン学習の手法を用いて、非特許文献1の動作生成モデルを訓練できれば、少量の動作データであっても、過学習を起こさずに動作生成モデルを訓練できる。しかし、非特許文献2の技術は、Conditional-GANに対応していない。そのため、クロスドメイン学習の手法を用いて、非特許文献1の動作生成モデルを訓練することは難しかった。
【0007】
本開示の目的は、少量の動作データであっても、過学習を起こさずに動作生成モデルを訓練できる学習装置等を提供することにある。
【課題を解決するための手段】
【0008】
本開示の一態様の学習装置は、ターゲット動作に関する第1動作データを取得する動作データ取得部と、第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを含む第1生成部と、入力された動作データが第1動作データおよび擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された第1動作データおよび生成された擬似第1動作データに関して、第1動作データと擬似第1動作データとのずれの程度を示す判別ロスを計算する判別部と、少なくとも一つの基底動作の組み合わせでターゲット動作を再構成し、ターゲット動作と基底動作との関連度を計算する関連度計算部と、少なくとも一つの基底動作に関する動作データと擬似第1動作データとの間のずれの程度を示す正則化ロスを計算する正則化ロス計算部と、判別ロスおよび正則化ロスを用いて、第1生成モデルと判別モデルとを敵対的に学習させる敵対的学習処理部と、を備える。
【0009】
本開示の一態様の学習方法においては、ターゲット動作に関する第1動作データを取得し、第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを用いて擬似第1動作を生成し、入力された動作データが第1動作データおよび擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された第1動作データおよび生成された擬似第1動作データに関して、第1動作データと擬似第1動作データとのずれの程度を示す判別ロスを計算し、少なくとも一つの基底動作の組み合わせでターゲット動作を再構成し、ターゲット動作と基底動作との関連度を計算し、少なくとも一つの基底動作に関する動作データと擬似第1動作データとの間のずれの程度を示す正則化ロスを計算し、判別ロスおよび正則化ロスを用いて、第1生成モデルと判別モデルとを敵対的に学習させる。
【0010】
本開示の一態様のプログラムは、ターゲット動作に関する第1動作データを取得し、第1動作データの入力に応じて擬似第1動作データを出力する第1生成モデルを用いて擬似第1動作を生成する処理と、入力された動作データが第1動作データおよび擬似第1動作データのいずれであるかを判別する判別モデルを用いて、取得された第1動作データおよび生成された擬似第1動作データに関して、第1動作データと擬似第1動作データとのずれの程度を示す判別ロスを計算する処理と、少なくとも一つの基底動作の組み合わせでターゲット動作を再構成する処理と、ターゲット動作と基底動作との関連度を計算する処理と、少なくとも一つの基底動作に関する動作データと擬似第1動作データとの間のずれの程度を示す正則化ロスを計算する処理と、判別ロスおよび正則化ロスを用いて、第1生成モデルと判別モデルとを敵対的に学習させる処理とをコンピュータに実行させる。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許