特許ウォッチ

公開番号2024148223
公報種別公開特許公報(A)
公開日2024-10-18
出願番号2023061163
出願日2023-04-05
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241010BHJP(計算;計数)
要約【課題】強化学習に用いるパラメータの適切な値を容易に取得できるようにする。
【解決手段】情報処理装置10は、複数の候補値ごとの強化学習をモデル2に対して実施する。その際、情報処理装置10は、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデル2に適用する方策の更新前後でモデル2から得られる行動確率分布3a,3bの差の上限とする。次に情報処理装置10は、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そして情報処理装置10は、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【選択図】図1
特許請求の範囲【請求項１】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも１つの候補値を選択する、
処理をコンピュータに実行させる強化学習プログラム。
続きを表示（約 1,200 文字）【請求項２】
選択した前記候補値を、前記方策の更新前後で前記モデルから得られる前記行動確率分布の差の上限として、前記報酬が収束するまでの前記強化学習を前記モデルに対して実施する、
処理をコンピュータにさらに実行させる請求項１記載の強化学習プログラム。
【請求項３】
前記複数の候補値ごとの前記強化学習を前記モデルに対して実施する処理では、前記方策の更新前後での前記行動確率分布の差が一の候補値になる更新後の前記方策を近似計算で算出し、更新後の前記方策を前記モデルに適用して前記方策の更新前後での前記行動確率分布の差を計算し、前記行動確率分布の差が前記一の候補値を超える場合には、更新後の前記方策を修正して、修正された前記方策を適用して前記モデルの学習を行い、
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記近似計算で算出した更新後の前記方策が修正される確率を前記指標値とする、
請求項１または２に記載の強化学習プログラム。
【請求項４】
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記モデルに対する直近のＮ回（Ｎは自然数）の学習における前記指標値の分散が所定の値以内となったときに、前記強化学習を終了させる、
請求項１または２に記載の強化学習プログラム。
【請求項５】
前記候補値を選択する処理では、前記複数の候補値ごとの前記強化学習の終了時の前記指標値の大きさに基づいて、前記候補値を選択する、
請求項１または２に記載の強化学習プログラム。
【請求項６】
前記候補値を選択する処理では、前記指標値がしきい値より大きい第１の候補値のうちの少なくとも１つを、前記第１の候補値それぞれの値の大きさに基づいて選択する、
請求項１または２に記載の強化学習プログラム。
【請求項７】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも１つの候補値を選択する、
処理をコンピュータが実行する強化学習方法。
【請求項８】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、前記所定の指標値に基づいて、前記複数の候補値から少なくとも１つの候補値を選択する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。
【０００３】
強化学習に関する技術として、例えば学習モデルが有するハイパーパラメータを決定するための計算時間を短縮するハイパーパラメータ決定方法が提案されている。ハイパーパラメータを強化学習の手法を用いて特定するハイパーパラメータ管理装置も提案されている。強化学習システムに組み込むための確率モデルを生成する技術も提案されている。さらにエージェントによって実行されるアクションの選択に使用される方策（policy）ニューラルネットワークの訓練方法も提案されている。
【０００４】
制約付きの強化学習に関する技術としては、例えば制約付き方策最適化（ＣＰＯ：Constrained Policy Optimization）による方策の更新方法が提案されている。ＣＰＯでは、学習中も制約を満たすことができる。
【先行技術文献】
【特許文献】
【０００５】
特開２０２２－１５０９４７号公報
特開２０２０－２０１８７０号公報
米国特許出願公開第２０２０／０２１８９９９号明細書
米国特許出願公開第２０２０／０２４４７０７号明細書
【非特許文献】
【０００６】
Achiam, J., Held, D., Tamar, A., & Abbeel, P., "Constrained policy optimization", International conference on machine learning, PMLR, 2017 July, volime 70, pp. 22-31
【発明の概要】
【発明が解決しようとする課題】
【０００７】
ＣＰＯのような方策最適化を行う強化学習では、ハイパーパラメータδが使用される。δは、方策のパラメータ（θ）の更新前後での行動確率分布のＫＬ（Kullback Leibler）距離の最大値である。ＫＬ距離は、２つの確率分布の差異を示す値である。ＫＬ距離は、カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンスとも呼ばれる。δにより、一回の更新で行動確率分布の変化をどの程度許すかが定義される。
【０００８】
δの値が小さすぎると、学習に時間がかかる傾向がある。またδが大きすぎると、報酬が十分に高くならない可能性がある。そこでδを適切な値に設定することが求められる。しかし、問題ごとに適切なδの値は異なり、どの値が良いかは収束するまで学習してみないとわからない。そのため、従来は様々な値のδを用いて、報酬が収束するまでの強化学習を繰り返し実行することとなり、計算コストが過大となっている。
【０００９】
１つの側面では、本件は、強化学習に用いるパラメータの適切な値を容易に取得できるようにすることを目的とする。
【課題を解決するための手段】
【００１０】
１つの案では、以下の処理をコンピュータに実行させる強化学習プログラムが提供される。
コンピュータは、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後でモデルから得られる行動確率分布の差の上限として、複数の候補値ごとの強化学習をモデルに対して実施する。コンピュータは、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そしてコンピュータは、所定の指標値に基づいて、複数の候補値から少なくとも１つの候補値を選択する。
【発明の効果】
（【００１１】以降は省略されています）

関連特許