特許ウォッチ

公開番号2024117454
公報種別公開特許公報(A)
公開日2024-08-29
出願番号2023023567
出願日2023-02-17
発明の名称学習装置、学習方法、および学習プログラム
出願人株式会社日立製作所
代理人藤央弁理士法人
主分類G06N 3/092 20230101AFI20240822BHJP(計算;計数)
要約【課題】複数の指標からパレート解を取得するすること。
【解決手段】学習装置は、環境が時間の経過の時点を示す第1ステップまでに実行された場合に少なくとも非パレート解が残存する第1パレート解集合と第1ステップにおける環境の第1状態とを入力し、第1パレート解集合と第1状態とを環境に与えることによって環境から第1状態での行動を選択し、環境が行動を選択した結果得られる第1ステップでの複数の指標に関する報酬と、環境が行動を採ったことにより第2ステップにおける環境の第2状態と、を取得し、第1ステップまでの累積報酬と第1パレート解集合とに基づいて、環境が行動を選択した結果得られる第1ステップ以降のハイパーボリュームの累積増大量である貢献度を算出し、貢献度に基づいて、累積報酬をパレート解として第1パレート解集合に追加することにより、第2ステップの第2パレート解集合に更新する。
【選択図】図6
特許請求の範囲【請求項１】
時間の経過とともに操作を行う行為を模擬しかつ前記行為に伴う結果に対して複数の指標で規定された指標空間上の値がパレート解として与えられる環境における戦略を学習する回路構成を有する学習装置であって、
前記複数の指標は、少なくとも、前記時間の経過に関する指標と、前記環境の実行結果に関する指標と、を含み、
前記回路構成は、
前記環境が前記時間の経過の時点を示す第１ステップまでに実行された場合に少なくとも非パレート解が残存する第１パレート解集合と、前記第１ステップにおける前記環境の第１状態と、を入力する入力処理と、
前記第１パレート解集合と前記第１状態とを前記環境に与えることによって前記環境から前記第１状態での行動を選択する選択処理と、
前記環境が前記行動を選択した結果得られる前記第１ステップでの前記複数の指標に関する報酬と、前記環境が前記行動を採ったことにより前記第１ステップの次のステップとなる第２ステップにおける前記環境の第２状態と、を取得する取得処理と、
前記第１ステップまでの報酬の累積値である累積報酬と、前記第１パレート解集合と、に基づいて、前記環境が前記行動を選択した結果得られる前記第１ステップ以降のハイパーボリュームの累積増大量である貢献度を算出する算出処理と、
前記貢献度に基づいて、前記累積報酬を前記パレート解として前記第１パレート解集合に追加することにより、前記第２ステップの第２パレート解集合に更新する更新処理と、
を実行することを特徴とする学習装置。
続きを表示（約 2,000 文字）【請求項２】
請求項１に記載の学習装置であって、
前記回路構成は、
前記更新処理による前記第２パレート解集合を出力する出力処理と、
を実行することを特徴とする学習装置。
【請求項３】
請求項２に記載の学習装置であって、
前記出力処理では、前記回路構成は、前記第２パレート解集合に含まれる前記パレート解の前記指標空間上における出力順序を表示可能に出力する、
ことを特徴とする学習装置。
【請求項４】
請求項２に記載の学習装置であって、
前記回路構成は、
前記指標空間上の前記パレート解の目標領域を設定する設定処理を実行し、
前記出力処理では、前記回路構成は、前記第２パレート解集合と、前記目標領域と、を表示可能に出力する、
ことを特徴とする学習装置。
【請求項５】
請求項１に記載の学習装置であって、
前記回路構成は、
前記指標空間上の前記パレート解の目標領域を設定する設定処理を実行し、
前記算出処理では、前記回路構成は、前記累積報酬が前記目標領域外の値である場合、前記貢献度を、前記第１パレート解集合から前記累積報酬を除外する値に設定する、
ことを特徴とする学習装置。
【請求項６】
請求項１に記載の学習装置であって、
前記算出処理では、前記回路構成は、Ｑ関数により前記累積増大量を算出する、
ことを特徴とする学習装置。
【請求項７】
請求項６に記載の学習装置であって、
前記Ｑ関数は、複数のニューラルネットワークとして構成され、前記複数のニューラルネットワークは、前記第１状態をベクトルに変換する処理を担う特徴量化ネットワークと、前記第１パレート解集合をベクトルに変換する処理を担う集合関数ネットワークと、前記特徴量化ネットワークからの出力および前記集合関数ネットワークの出力を入力して前記行動を出力する価値ネットワークと、を含む、
ことを特徴とする学習装置。
【請求項８】
請求項６に記載の学習装置であって、
前記回路構成は、
第３ステップの貢献度と、前記第３ステップとは異なる第４ステップの状態、パレート解集合および行動と、のうち、少なくとも前記第３ステップの貢献度に基づいて前記Ｑ関数が計算した目標値と、前記第３ステップの状態、パレート解集合、および行動に基づいて前記Ｑ関数が計算した予測値と、に基づいて、前記Ｑ関数の学習パラメータを計算する学習処理、
を実行することを特徴とする学習装置。
【請求項９】
請求項１に記載の学習装置であって、
前記算出処理では、前記回路構成は、前記第１パレート解集合に基づいて第１ハイパーボリュームを計算し、前記第１パレート解集合と前記累積報酬とに基づいて第２ハイパーボリュームを計算し、前記第１ハイパーボリュームと前記第２ハイパーボリュームとの差分に基づいて前記貢献度を算出する、
ことを特徴とする学習装置。
【請求項１０】
時間の経過とともに操作を行う行為を模擬しかつ前記行為に伴う結果に対して複数の指標で規定された指標空間上の値がパレート解として与えられる環境における戦略を学習する回路構成を有する学習装置が実行する学習方法であって、
前記複数の指標は、少なくとも、前記時間の経過に関する指標と、前記環境の実行結果に関する指標と、を含み、
前記回路構成は、
前記環境が前記時間の経過の時点を示す第１ステップまでに実行された場合に少なくとも非パレート解が残存する第１パレート解集合と、前記第１ステップにおける前記環境の第１状態と、を入力する入力処理と、
前記第１パレート解集合と前記第１状態とを前記環境に与えることによって前記環境から前記第１状態での行動を選択する選択処理と、
前記環境が前記行動を選択した結果得られる前記第１ステップでの前記複数の指標に関する報酬と、前記環境が前記行動を採ったことにより前記第１ステップの次のステップとなる第２ステップにおける前記環境の第２状態と、を取得する取得処理と、
前記第１ステップまでの報酬の累積値である累積報酬と、前記第１パレート解集合と、に基づいて、前記環境が前記行動を選択した結果得られる前記第１ステップ以降のハイパーボリュームの累積増大量である貢献度を算出する算出処理と、
前記貢献度に基づいて、前記累積報酬を前記パレート解として前記第１パレート解集合に追加することにより、前記第２ステップの第２パレート解集合に更新する更新処理と、
を実行することを特徴とする学習方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、学習装置、学習方法、および学習プログラムに関する。
続きを表示（約 2,600 文字）【背景技術】
【０００２】
ビデオゲームではアイテムを取得した際の点数やクリア時間など様々な指標（たとえば、スコア、クリア時間）で優劣が競われる。その際、プレイヤーには複数の指標に優れた操作が求められる。ビデオゲームには、人間のプレイヤーの対戦相手として、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）が操作するプレイヤーやキャラクターが用意されており、ＡＩにも複数の指標に優れたゲーム操作能力を持つことが求められる。
【０００３】
複数の指標を最適化する問題は、一般に多目的最適化（ＭＰＯ：ＭｕｌｔｉｐｌｅＯｂｊｅｃｔｉｖｅＯｐｔｉｍｉｚａｔｉｏｎ）と呼ばれ、ゲーム以外にも広範囲に応用される。たとえば、医療行為において効果と副作用のように相反する指標のバランスが取れた治療手順を探す応用がある。遊戯を目的としたビデオゲームに限らず、時間の経過とともに操作を行う行為を模擬したシミュレーション環境であり、かつ、行為に伴う結果に対して複数の指標が与えられるコンピュータプログラムを、本明細書では「環境」と呼ぶことにする。ＭＰＯが可能なＡＩは、遊戯を目的としたゲームから手術シミュレータなど、様々な実世界の環境において人と競い合い、人の行為の改善を促すことが可能となる。
【０００４】
非特許文献２は、エピソード性を持つＭＰＯ問題の一例であるＤｅｅｐＳｅａＴｒｅａｓｕｒｅ（ＤＳＴ）を開示する。
【０００５】
非特許文献３は、ＷａｌｋｉｎｇＦｉｓｈＧｒｏｕｐｂａｓｅｄａｌｇｏｒｉｔｈｍを開示する。
【先行技術文献】
【非特許文献】
【０００６】
Reymond, Mathieu, and Ann Nowe. "Pareto-DQN: Approximating the Pareto front in complex multi-objective decision problems." Proceedings of the adaptive and learning agents workshop (ALA-19) at AAMAS. 2019.
Vamplew, Peter, et al. "Empirical evaluation methods for multiobjective reinforcement learning algorithms." Machine learning 84.1 (2011): 51-80.
Lyndon While, Lucas Bradstreet, and Luigi Barone. A fast way of calculating exact hypervolumes. IEEE Transactions on Evolutionary Computation, 16(1): 86-95, 2012.
Dornheim, J.: gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learn- ing Approach, arXiv preprint arXiv:2204.04988 (2022)
【発明の概要】
【発明が解決しようとする課題】
【０００７】
非特許文献１（以降、ＰＤＱＮ：Ｐａｒｅｔｏ－ＤＱＮと呼ぶことがある。）は、ＭＰＯを要求する環境を操作可能なＡＩを開示する。ＰＤＱＮはＱ－ｌｅａｒｎｉｎｇと呼ばれる強化学習手法を多目的最適化に活用した一例である。非特許文献１では、複数の指標があったとき、どれか１つの指標の値は他の解よりも劣らない解の集合（パレート解と呼ぶ）を獲得できる戦略をＡＩが学ぶことができる。なお、強化学習分野において、戦略とは、環境のある時点ｔにおける状態Ｓ（ｔ）において、所望の目的を達成するためにどの行動Ａ（ｔ）を選択すれば良いかを示す価値基準である。具体的には、状態Ｓ（ｔ）と行動Ａ（ｔ）のペアからなる確率値π（Ａ（ｔ）｜Ｓ（ｔ））で表される。
【０００８】
非特許文献１のＦｉｇｕｒｅ２に示されるように、アイテムを取得した際のスコア（宝物を得た時の値）と取得までの時間（燃料の残量）を競うゲームにおいて、Ｆｉｇｕｒｅ３に示されるように、スコアと取得時間とがバランスした操作方法を学習できた結果が示されている。なお、非特許文献１のＦｉｇｕｒｅ２におけるパレート解の例として、「スコア５、燃料の残量７」がある。このパレート解は、潜水艦が最短で宝物５に辿り着く操作を行った時に得られる。他方、「スコア５、燃料の残量５」という解は、１マス余計な操作が行われたことを示しているため、パレート解ではない。つまり、非特許文献１のＦｉｇｕｒｅ２におけるパレート解の集合は、「宝物の値と、それを得る最短の操作をした時の燃料の残量」のペアで与えられる。つまり、２つの指標が張る２次元空間の座標値である。
【０００９】
非特許文献１のＡｌｇｏｒｉｔｈｍ１：ＰＤＱＮによれば、たとえば、５個の指標があった場合には、ある４個の指標の値を実数空間からランダムに取得し、残り１つを最適化する処理が提案された（“ｓａｍｐｌｅｐｏｉｎｔｓｐｆｒｏｍＲ
ｄ－１
”、ｄは指標の数、Ｒは実数）。サンプリング方法については、Ｆｉｇｕｒｅ１（ａ）に、『目標空間に関するドメイン知識を組み込むことにより（“ＢｙｉｎｃｏｒｐｏｒａｔｉｎｇｄｏｍａｉｎｋｎｏｗｌｅｄｇｅａｂｏｕｔｔｈｅＯｂｊｅｃｔｉｖｅ－ｓｐａｃｅ”）』との記載があるが、各指標のドメイン知識が無い場合における効率的なサンプリング手法に関する言及はない。利用可能なドメイン知識がない場合に取得されたｄ－１個の指標値を元に、ｄ個目の指標のみを最適化し、全ｄ個の指標全体としてパレート解の集合を取得できる保証はない。
【００１０】
本発明は、複数の指標からパレート解を取得することを目的とする。
【課題を解決するための手段】
（【００１１】以降は省略されています）

関連特許