TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024117454
公報種別
公開特許公報(A)
公開日
2024-08-29
出願番号
2023023567
出願日
2023-02-17
発明の名称
学習装置、学習方法、および学習プログラム
出願人
株式会社日立製作所
代理人
藤央弁理士法人
主分類
G06N
3/092 20230101AFI20240822BHJP(計算;計数)
要約
【課題】複数の指標からパレート解を取得するすること。
【解決手段】学習装置は、環境が時間の経過の時点を示す第1ステップまでに実行された場合に少なくとも非パレート解が残存する第1パレート解集合と第1ステップにおける環境の第1状態とを入力し、第1パレート解集合と第1状態とを環境に与えることによって環境から第1状態での行動を選択し、環境が行動を選択した結果得られる第1ステップでの複数の指標に関する報酬と、環境が行動を採ったことにより第2ステップにおける環境の第2状態と、を取得し、第1ステップまでの累積報酬と第1パレート解集合とに基づいて、環境が行動を選択した結果得られる第1ステップ以降のハイパーボリュームの累積増大量である貢献度を算出し、貢献度に基づいて、累積報酬をパレート解として第1パレート解集合に追加することにより、第2ステップの第2パレート解集合に更新する。
【選択図】図6
特許請求の範囲
【請求項1】
時間の経過とともに操作を行う行為を模擬しかつ前記行為に伴う結果に対して複数の指標で規定された指標空間上の値がパレート解として与えられる環境における戦略を学習する回路構成を有する学習装置であって、
前記複数の指標は、少なくとも、前記時間の経過に関する指標と、前記環境の実行結果に関する指標と、を含み、
前記回路構成は、
前記環境が前記時間の経過の時点を示す第1ステップまでに実行された場合に少なくとも非パレート解が残存する第1パレート解集合と、前記第1ステップにおける前記環境の第1状態と、を入力する入力処理と、
前記第1パレート解集合と前記第1状態とを前記環境に与えることによって前記環境から前記第1状態での行動を選択する選択処理と、
前記環境が前記行動を選択した結果得られる前記第1ステップでの前記複数の指標に関する報酬と、前記環境が前記行動を採ったことにより前記第1ステップの次のステップとなる第2ステップにおける前記環境の第2状態と、を取得する取得処理と、
前記第1ステップまでの報酬の累積値である累積報酬と、前記第1パレート解集合と、に基づいて、前記環境が前記行動を選択した結果得られる前記第1ステップ以降のハイパーボリュームの累積増大量である貢献度を算出する算出処理と、
前記貢献度に基づいて、前記累積報酬を前記パレート解として前記第1パレート解集合に追加することにより、前記第2ステップの第2パレート解集合に更新する更新処理と、
を実行することを特徴とする学習装置。
続きを表示(約 2,000 文字)
【請求項2】
請求項1に記載の学習装置であって、
前記回路構成は、
前記更新処理による前記第2パレート解集合を出力する出力処理と、
を実行することを特徴とする学習装置。
【請求項3】
請求項2に記載の学習装置であって、
前記出力処理では、前記回路構成は、前記第2パレート解集合に含まれる前記パレート解の前記指標空間上における出力順序を表示可能に出力する、
ことを特徴とする学習装置。
【請求項4】
請求項2に記載の学習装置であって、
前記回路構成は、
前記指標空間上の前記パレート解の目標領域を設定する設定処理を実行し、
前記出力処理では、前記回路構成は、前記第2パレート解集合と、前記目標領域と、を表示可能に出力する、
ことを特徴とする学習装置。
【請求項5】
請求項1に記載の学習装置であって、
前記回路構成は、
前記指標空間上の前記パレート解の目標領域を設定する設定処理を実行し、
前記算出処理では、前記回路構成は、前記累積報酬が前記目標領域外の値である場合、前記貢献度を、前記第1パレート解集合から前記累積報酬を除外する値に設定する、
ことを特徴とする学習装置。
【請求項6】
請求項1に記載の学習装置であって、
前記算出処理では、前記回路構成は、Q関数により前記累積増大量を算出する、
ことを特徴とする学習装置。
【請求項7】
請求項6に記載の学習装置であって、
前記Q関数は、複数のニューラルネットワークとして構成され、前記複数のニューラルネットワークは、前記第1状態をベクトルに変換する処理を担う特徴量化ネットワークと、前記第1パレート解集合をベクトルに変換する処理を担う集合関数ネットワークと、前記特徴量化ネットワークからの出力および前記集合関数ネットワークの出力を入力して前記行動を出力する価値ネットワークと、を含む、
ことを特徴とする学習装置。
【請求項8】
請求項6に記載の学習装置であって、
前記回路構成は、
第3ステップの貢献度と、前記第3ステップとは異なる第4ステップの状態、パレート解集合および行動と、のうち、少なくとも前記第3ステップの貢献度に基づいて前記Q関数が計算した目標値と、前記第3ステップの状態、パレート解集合、および行動に基づいて前記Q関数が計算した予測値と、に基づいて、前記Q関数の学習パラメータを計算する学習処理、
を実行することを特徴とする学習装置。
【請求項9】
請求項1に記載の学習装置であって、
前記算出処理では、前記回路構成は、前記第1パレート解集合に基づいて第1ハイパーボリュームを計算し、前記第1パレート解集合と前記累積報酬とに基づいて第2ハイパーボリュームを計算し、前記第1ハイパーボリュームと前記第2ハイパーボリュームとの差分に基づいて前記貢献度を算出する、
ことを特徴とする学習装置。
【請求項10】
時間の経過とともに操作を行う行為を模擬しかつ前記行為に伴う結果に対して複数の指標で規定された指標空間上の値がパレート解として与えられる環境における戦略を学習する回路構成を有する学習装置が実行する学習方法であって、
前記複数の指標は、少なくとも、前記時間の経過に関する指標と、前記環境の実行結果に関する指標と、を含み、
前記回路構成は、
前記環境が前記時間の経過の時点を示す第1ステップまでに実行された場合に少なくとも非パレート解が残存する第1パレート解集合と、前記第1ステップにおける前記環境の第1状態と、を入力する入力処理と、
前記第1パレート解集合と前記第1状態とを前記環境に与えることによって前記環境から前記第1状態での行動を選択する選択処理と、
前記環境が前記行動を選択した結果得られる前記第1ステップでの前記複数の指標に関する報酬と、前記環境が前記行動を採ったことにより前記第1ステップの次のステップとなる第2ステップにおける前記環境の第2状態と、を取得する取得処理と、
前記第1ステップまでの報酬の累積値である累積報酬と、前記第1パレート解集合と、に基づいて、前記環境が前記行動を選択した結果得られる前記第1ステップ以降のハイパーボリュームの累積増大量である貢献度を算出する算出処理と、
前記貢献度に基づいて、前記累積報酬を前記パレート解として前記第1パレート解集合に追加することにより、前記第2ステップの第2パレート解集合に更新する更新処理と、
を実行することを特徴とする学習方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、学習装置、学習方法、および学習プログラムに関する。
続きを表示(約 2,600 文字)
【背景技術】
【0002】
ビデオゲームではアイテムを取得した際の点数やクリア時間など様々な指標(たとえば、スコア、クリア時間)で優劣が競われる。その際、プレイヤーには複数の指標に優れた操作が求められる。ビデオゲームには、人間のプレイヤーの対戦相手として、AI(Artificial Intelligence)が操作するプレイヤーやキャラクターが用意されており、AIにも複数の指標に優れたゲーム操作能力を持つことが求められる。
【0003】
複数の指標を最適化する問題は、一般に多目的最適化(MPO:Multiple Objective Optimization)と呼ばれ、ゲーム以外にも広範囲に応用される。たとえば、医療行為において効果と副作用のように相反する指標のバランスが取れた治療手順を探す応用がある。遊戯を目的としたビデオゲームに限らず、時間の経過とともに操作を行う行為を模擬したシミュレーション環境であり、かつ、行為に伴う結果に対して複数の指標が与えられるコンピュータプログラムを、本明細書では「環境」と呼ぶことにする。MPOが可能なAIは、遊戯を目的としたゲームから手術シミュレータなど、様々な実世界の環境において人と競い合い、人の行為の改善を促すことが可能となる。
【0004】
非特許文献2は、エピソード性を持つMPO問題の一例であるDeep Sea Treasure(DST)を開示する。
【0005】
非特許文献3は、Walking Fish Group based algorithmを開示する。
【先行技術文献】
【非特許文献】
【0006】
Reymond, Mathieu, and Ann Nowe. "Pareto-DQN: Approximating the Pareto front in complex multi-objective decision problems." Proceedings of the adaptive and learning agents workshop (ALA-19) at AAMAS. 2019.
Vamplew, Peter, et al. "Empirical evaluation methods for multiobjective reinforcement learning algorithms." Machine learning 84.1 (2011): 51-80.
Lyndon While, Lucas Bradstreet, and Luigi Barone. A fast way of calculating exact hypervolumes. IEEE Transactions on Evolutionary Computation, 16(1): 86-95, 2012.
Dornheim, J.: gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learn- ing Approach, arXiv preprint arXiv:2204.04988 (2022)
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1(以降、PDQN:Pareto-DQNと呼ぶことがある。)は、MPOを要求する環境を操作可能なAIを開示する。PDQNはQ-learningと呼ばれる強化学習手法を多目的最適化に活用した一例である。非特許文献1では、複数の指標があったとき、どれか1つの指標の値は他の解よりも劣らない解の集合(パレート解と呼ぶ)を獲得できる戦略をAIが学ぶことができる。なお、強化学習分野において、戦略とは、環境のある時点tにおける状態S(t)において、所望の目的を達成するためにどの行動A(t)を選択すれば良いかを示す価値基準である。具体的には、状態S(t)と行動A(t)のペアからなる確率値π(A(t)|S(t))で表される。
【0008】
非特許文献1のFigure 2に示されるように、アイテムを取得した際のスコア(宝物を得た時の値)と取得までの時間(燃料の残量)を競うゲームにおいて、Figure 3に示されるように、スコアと取得時間とがバランスした操作方法を学習できた結果が示されている。なお、非特許文献1のFigure 2におけるパレート解の例として、「スコア5、燃料の残量7」がある。このパレート解は、潜水艦が最短で宝物5に辿り着く操作を行った時に得られる。他方、「スコア5、燃料の残量5」という解は、1マス余計な操作が行われたことを示しているため、パレート解ではない。つまり、非特許文献1のFigure 2におけるパレート解の集合は、「宝物の値と、それを得る最短の操作をした時の燃料の残量」のペアで与えられる。つまり、2つの指標が張る2次元空間の座標値である。
【0009】
非特許文献1のAlgorithm 1:PDQNによれば、たとえば、5個の指標があった場合には、ある4個の指標の値を実数空間からランダムに取得し、残り1つを最適化する処理が提案された(“sample points p from R
d-1
”、dは指標の数、Rは実数)。サンプリング方法については、Figure 1(a)に、『目標空間に関するドメイン知識を組み込むことにより(“By incorporating domain knowledge about the Objective-space”)』との記載があるが、各指標のドメイン知識が無い場合における効率的なサンプリング手法に関する言及はない。利用可能なドメイン知識がない場合に取得されたd-1個の指標値を元に、d個目の指標のみを最適化し、全d個の指標全体としてパレート解の集合を取得できる保証はない。
【0010】
本発明は、複数の指標からパレート解を取得することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る