特許ウォッチ

公開番号2024128434
公報種別公開特許公報(A)
公開日2024-09-24
出願番号2023037407
出願日2023-03-10
発明の名称学習装置、データ拡張システム、推定装置、学習方法、およびプログラム
出願人日本電気株式会社
代理人個人,個人
主分類G06N 3/098 20230101AFI20240913BHJP(計算;計数)
要約【課題】大規模な分散学習環境化において、GAN(Generative Adversarial Network)の少数ショット学習を高速化できる学習装置等を提供する。
【解決手段】複数の教師データを含むデータセットを取得するデータ取得部と、擬似データを出力する生成モデルを有する生成部と、教師データおよび擬似データのいずれかのデータの入力に応じて、入力されたデータが教師データおよび擬似データのいずれであるかを判別する判別モデルを有する判別部と、予め設定されたハイパーパラメータに基づいて、判別モデルの更新に用いられる第1ハイパーパラメータと、生成モデルの更新に用いられる第2ハイパーパラメータとを設定する管理部と、第1ハイパーパラメータを用いて判別モデルを更新し、第2ハイパーパラメータを用いて生成モデルを更新する学習処理部と、を備える学習装置とする。
【選択図】図1
特許請求の範囲【請求項１】
複数の教師データを含むデータセットを取得し、複数の前記教師データを複数のサブセットに分割するデータ取得手段と、
擬似データを出力する生成モデルを有する生成手段と、
前記教師データおよび前記擬似データのいずれかのデータの入力に応じて、入力された前記データが前記教師データおよび前記擬似データのいずれであるかを判別する判別モデルを有する判別手段と、
予め設定されたハイパーパラメータに基づいて、前記判別モデルの更新に用いられる第１ハイパーパラメータを設定し、分散処理に使われるサーバごとのＧＰＵ（Graphics Processing Unit）の数に応じて前記生成モデルの更新に用いられる第２ハイパーパラメータを設定する管理手段と、
前記第１ハイパーパラメータを用いて前記判別モデルを更新し、前記第２ハイパーパラメータを用いて前記生成モデルを更新する学習処理手段と、を備える学習装置。
続きを表示（約 2,300 文字）【請求項２】
前記判別手段は、
前記判別モデルによる判別の間違いの度合を示す判別ロスを計算し、
前記生成モデルによって生成された前記擬似データが前記判別モデルによって前記擬似データであると見抜かれた度合を示す生成ロスを計算し、
前記学習処理手段は、
前記判別ロスおよび前記第１ハイパーパラメータに基づいて前記判別モデルのパラメータを更新し、
前記生成ロスおよび前記第２ハイパーパラメータに基づいて前記生成モデルのパラメータを更新する請求項１に記載の学習装置。
【請求項３】
前記管理手段は、
予め設定された前記ハイパーパラメータの値を前記第１ハイパーパラメータに設定し、
予め設定された前記ハイパーパラメータと前記ＧＰＵの数との積を前記第２ハイパーパラメータに設定する請求項２に記載の学習装置。
【請求項４】
前記管理手段は、
前記判別モデルに対して予め設定された前記ハイパーパラメータの値を前記第１ハイパーパラメータに設定し、
前記生成モデルに対して予め設定された前記ハイパーパラメータと前記ＧＰＵの数との積を前記第２ハイパーパラメータに設定する請求項２に記載の学習装置。
【請求項５】
前記管理手段は、
予め設定された前記ハイパーパラメータと、前記ＧＰＵの数の入力に応じて単調増加関数から出力された値との積を前記第２ハイパーパラメータに設定する請求項２に記載の学習装置。
【請求項６】
前記ハイパーパラメータは、学習率であり、
前記第２ハイパーパラメータに相当する第２学習率は、前記第１ハイパーパラメータに相当する第１学習率よりも大きい請求項１に記載の学習装置。
【請求項７】
請求項１乃至６のいずれか一項に記載の学習装置によって学習された生成モデルを用いて動作データを拡張するデータ拡張システムであって、
人物の動作に応じて測定された時系列骨格データを取得し、前記時系列骨格データから、前記人物の属性要素に関する体格データ、前記人物が行った動作の時間要素に関するタイミングデータ、および前記人物が行った動作中の姿勢の変化に関する動作データを分離する情報分離装置と、
前記生成モデルを用いて、前記体格データ、前記タイミングデータ、および前記動作データの各々を拡張し、拡張された前記体格データ、前記タイミングデータ、および前記動作データを統合することで前記時系列骨格データを拡張し、拡張された前記時系列骨格データを出力する拡張装置と、を備えるデータ拡張システム。
【請求項８】
請求項７に記載のデータ拡張システムによって拡張された時系列骨格データを用いて学習された推定モデルを用いて、人物の動作を推定する推定装置であって、
前記人物の動作に応じて測定された実データを取得する取得手段と、
前記実データの入力に応じて前記推定モデルから出力される推定データを、前記人物の動作として推定する推定手段と、
推定された前記推定データを出力する出力手段と、を備える推定装置。
【請求項９】
コンピュータが、
複数の教師データを含むデータセットを取得し、
複数の前記教師データを複数のサブセットに分割し、
擬似データを出力する生成モデルを用いて、前記擬似データを生成し、
前記教師データおよび前記擬似データのいずれかのデータの入力に応じて、入力された前記データが前記教師データおよび前記擬似データのいずれであるかを判別する判別モデルを用いて、入力された前記データが前記教師データおよび前記擬似データのいずれであるかを判別し、
予め設定されたハイパーパラメータに基づいて、前記判別モデルの更新に用いられる第１ハイパーパラメータを設定し、
分散処理に使われるサーバごとのＧＰＵ（Graphics Processing Unit）の数に応じて、予め設定された前記ハイパーパラメータに基づいて、前記生成モデルの更新に用いられる第２ハイパーパラメータを設定し、
前記第１ハイパーパラメータを用いて前記判別モデルを更新し、
前記第２ハイパーパラメータを用いて前記生成モデルを更新する学習方法。
【請求項１０】
複数の教師データを含むデータセットを取得する処理と、
複数の前記教師データを複数のサブセットに分割する処理と、
擬似データを出力する生成モデルを用いて、前記擬似データを生成する処理と、
前記教師データおよび前記擬似データのいずれかのデータの入力に応じて、入力された前記データが前記教師データおよび前記擬似データのいずれであるかを判別する判別モデルを用いて、入力された前記データが前記教師データおよび前記擬似データのいずれであるかを判別する処理と、
予め設定されたハイパーパラメータに基づいて、前記判別モデルの更新に用いられる第１ハイパーパラメータを設定する処理と、
分散処理に使われるサーバごとのＧＰＵ（Graphics Processing Unit）の数に応じて、予め設定された前記ハイパーパラメータに基づいて、前記生成モデルの更新に用いられる第２ハイパーパラメータを設定する処理と、
前記第１ハイパーパラメータを用いて前記判別モデルを更新する処理と、
前記第２ハイパーパラメータを用いて前記生成モデルを更新する処理と、をコンピュータに実行させるプログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、分散学習に用いられる学習装置等に関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
映像やモーションキャプチャ、ウェアラブルセンサを用いて人物の動きをセンシングし、センシングされた動きに応じて動作や行動を認識する技術へのニーズが高まっている。例えば、機械学習等の手法によって動作データを学習した認識モデルを用いれば、人物の動作や行動を認識できる。より実用的な精度で認識を行うためには、大量の動作データを用いて、認識モデルを訓練する必要がある。例えば、様々な人物の動作に関して、体格や年齢、個人ごとの動きの癖などに関するバリエーションが含まれる訓練データを用いて、認識モデルを訓練する必要がある。動作データの計測には多くの時間と手間が掛かる。そのため、実際に計測された動作データの擬似データ（擬似動作データ）を大量に生成するデータ拡張技術が求められる。
【０００３】
ＧＡＮを用いて高速にモデルを訓練する手法として、複数のＧＰＵや計算ノードで大規模並列処理を行う分散学習がある。分散学習では、複数のＧＰＵ（Graphics Processing Unit）で計算処理を分割することによって、計算処理を短縮する。ＧＰＵの数がｋ倍になると、一度に処理できるデータ量（バッチサイズ）がｋ倍になる（ｋは自然数）。しかし、実際には、バッチサイズが増えただけでは学習を高速化できない。
【０００４】
非特許文献１には、分散学習における学習を効率化する技術が開示されている。非特許文献１の手法では、分散学習の規模に応じて、学習率を調整する技術が開示されている。非特許文献１の手法では、バッチサイズに比例して学習率を大きくする。
【先行技術文献】
【非特許文献】
【０００５】
P. Goyal. et al., “Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour,” arXiv:1706.02677, 2018.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
非特許文献１の手法によれば、データセットサイズと比べてバッチサイズが十分に小さければ、モデルの訓練を効率化できる。大規模分散学習環境ではバッチサイズがデータセットサイズを上回るため、線形スケーリング則の前提条件が満たされない。そのため、非特許文献１の手法は、大規模分散学習環境には適用できなかった。すなわち、非特許文献１の手法では、ＧＡＮの少数ショット学習（Few-shot学習）を、大規模並列処理に対応させることはできなかった。
【０００７】
本開示の目的は、大規模な分散学習環境化において、ＧＡＮ（Generative Adversarial Network）の少数ショット学習を高速化できる学習装置等を提供することである。
【課題を解決するための手段】
【０００８】
本開示の一態様の学習装置は、複数の教師データを含むデータセットを取得し、複数の教師データを複数のサブセットに分割するデータ取得部と、擬似データを出力する生成モデルを有する生成部と、教師データおよび擬似データのいずれかのデータの入力に応じて、入力されたデータが教師データおよび擬似データのいずれであるかを判別する判別モデルを有する判別部と、予め設定されたハイパーパラメータに基づいて、判別モデルの更新に用いられる第１ハイパーパラメータを設定し、分散処理に使われるサーバごとのＧＰＵの数に応じて生成モデルの更新に用いられる第２ハイパーパラメータを設定する管理部と、第１ハイパーパラメータを用いて判別モデルを更新し、第２ハイパーパラメータを用いて生成モデルを更新する学習処理部と、を備える。
【０００９】
本開示の一態様の学習方法においては、複数の教師データを含むデータセットを取得し、複数の教師データを複数のサブセットに分割し、擬似データを出力する生成モデルを用いて、擬似データを生成し、教師データおよび擬似データのいずれかのデータの入力に応じて、入力されたデータが教師データおよび擬似データのいずれであるかを判別する判別モデルを用いて、入力されたデータが教師データおよび擬似データのいずれであるかを判別し、予め設定されたハイパーパラメータに基づいて、判別モデルの更新に用いられる第１ハイパーパラメータを設定し、分散処理に使われるサーバごとのＧＰＵの数に応じて、予め設定されたハイパーパラメータに基づいて、生成モデルの更新に用いられる第２ハイパーパラメータを設定し、第１ハイパーパラメータを用いて判別モデルを更新し、第２ハイパーパラメータを用いて生成モデルを更新する学習方法。
【００１０】
本開示の一態様のプログラムは、複数の教師データを含むデータセットを取得する処理と、複数の教師データを複数のサブセットに分割する処理と、擬似データを出力する生成モデルを用いて、擬似データを生成する処理と、教師データおよび擬似データのいずれかのデータの入力に応じて、入力されたデータが教師データおよび擬似データのいずれであるかを判別する判別モデルを用いて、入力されたデータが教師データおよび擬似データのいずれであるかを判別する処理と、予め設定されたハイパーパラメータに基づいて、判別モデルの更新に用いられる第１ハイパーパラメータを設定する処理と、分散処理に使われるサーバごとのＧＰＵの数に応じて、予め設定されたハイパーパラメータに基づいて、生成モデルの更新に用いられる第２ハイパーパラメータを設定する処理と、第１ハイパーパラメータを用いて判別モデルを更新する処理と、第２ハイパーパラメータを用いて生成モデルを更新する処理と、をコンピュータに実行させる。
【発明の効果】
（【００１１】以降は省略されています）

関連特許