TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024148223
公報種別公開特許公報(A)
公開日2024-10-18
出願番号2023061163
出願日2023-04-05
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241010BHJP(計算;計数)
要約【課題】強化学習に用いるパラメータの適切な値を容易に取得できるようにする。
【解決手段】情報処理装置10は、複数の候補値ごとの強化学習をモデル2に対して実施する。その際、情報処理装置10は、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデル2に適用する方策の更新前後でモデル2から得られる行動確率分布3a,3bの差の上限とする。次に情報処理装置10は、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そして情報処理装置10は、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【選択図】図1
特許請求の範囲【請求項1】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータに実行させる強化学習プログラム。
続きを表示(約 1,200 文字)【請求項2】
選択した前記候補値を、前記方策の更新前後で前記モデルから得られる前記行動確率分布の差の上限として、前記報酬が収束するまでの前記強化学習を前記モデルに対して実施する、
処理をコンピュータにさらに実行させる請求項1記載の強化学習プログラム。
【請求項3】
前記複数の候補値ごとの前記強化学習を前記モデルに対して実施する処理では、前記方策の更新前後での前記行動確率分布の差が一の候補値になる更新後の前記方策を近似計算で算出し、更新後の前記方策を前記モデルに適用して前記方策の更新前後での前記行動確率分布の差を計算し、前記行動確率分布の差が前記一の候補値を超える場合には、更新後の前記方策を修正して、修正された前記方策を適用して前記モデルの学習を行い、
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記近似計算で算出した更新後の前記方策が修正される確率を前記指標値とする、
請求項1または2に記載の強化学習プログラム。
【請求項4】
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記モデルに対する直近のN回(Nは自然数)の学習における前記指標値の分散が所定の値以内となったときに、前記強化学習を終了させる、
請求項1または2に記載の強化学習プログラム。
【請求項5】
前記候補値を選択する処理では、前記複数の候補値ごとの前記強化学習の終了時の前記指標値の大きさに基づいて、前記候補値を選択する、
請求項1または2に記載の強化学習プログラム。
【請求項6】
前記候補値を選択する処理では、前記指標値がしきい値より大きい第1の候補値のうちの少なくとも1つを、前記第1の候補値それぞれの値の大きさに基づいて選択する、
請求項1または2に記載の強化学習プログラム。
【請求項7】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータが実行する強化学習方法。
【請求項8】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。
【0003】
強化学習に関する技術として、例えば学習モデルが有するハイパーパラメータを決定するための計算時間を短縮するハイパーパラメータ決定方法が提案されている。ハイパーパラメータを強化学習の手法を用いて特定するハイパーパラメータ管理装置も提案されている。強化学習システムに組み込むための確率モデルを生成する技術も提案されている。さらにエージェントによって実行されるアクションの選択に使用される方策(policy)ニューラルネットワークの訓練方法も提案されている。
【0004】
制約付きの強化学習に関する技術としては、例えば制約付き方策最適化(CPO:Constrained Policy Optimization)による方策の更新方法が提案されている。CPOでは、学習中も制約を満たすことができる。
【先行技術文献】
【特許文献】
【0005】
特開2022-150947号公報
特開2020-201870号公報
米国特許出願公開第2020/0218999号明細書
米国特許出願公開第2020/0244707号明細書
【非特許文献】
【0006】
Achiam, J., Held, D., Tamar, A., & Abbeel, P., "Constrained policy optimization", International conference on machine learning, PMLR, 2017 July, volime 70, pp. 22-31
【発明の概要】
【発明が解決しようとする課題】
【0007】
CPOのような方策最適化を行う強化学習では、ハイパーパラメータδが使用される。δは、方策のパラメータ(θ)の更新前後での行動確率分布のKL(Kullback Leibler)距離の最大値である。KL距離は、2つの確率分布の差異を示す値である。KL距離は、カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンスとも呼ばれる。δにより、一回の更新で行動確率分布の変化をどの程度許すかが定義される。
【0008】
δの値が小さすぎると、学習に時間がかかる傾向がある。またδが大きすぎると、報酬が十分に高くならない可能性がある。そこでδを適切な値に設定することが求められる。しかし、問題ごとに適切なδの値は異なり、どの値が良いかは収束するまで学習してみないとわからない。そのため、従来は様々な値のδを用いて、報酬が収束するまでの強化学習を繰り返し実行することとなり、計算コストが過大となっている。
【0009】
1つの側面では、本件は、強化学習に用いるパラメータの適切な値を容易に取得できるようにすることを目的とする。
【課題を解決するための手段】
【0010】
1つの案では、以下の処理をコンピュータに実行させる強化学習プログラムが提供される。
コンピュータは、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後でモデルから得られる行動確率分布の差の上限として、複数の候補値ごとの強化学習をモデルに対して実施する。コンピュータは、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そしてコンピュータは、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
ラック装置
25日前
富士通株式会社
リスクと診断
26日前
富士通株式会社
プロセッサパッケージ
3日前
富士通株式会社
光増幅器および光増幅方法
16日前
富士通株式会社
変換プログラムおよび変換方法
10日前
富士通株式会社
信号処理装置及び信号処理方法
24日前
富士通株式会社
光センサ及び光センサの製造方法
24日前
富士通株式会社
歩容認識装置、方法及び電子機器
16日前
富士通株式会社
光送信器およびタイミング調整方法
1か月前
富士通株式会社
機械学習プログラム、方法、及び装置
24日前
富士通株式会社
機械学習プログラム、方法、及び装置
24日前
富士通株式会社
マルチチャネルパワープロファイル推定
9日前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
1か月前
富士通株式会社
評価プログラム、評価装置及び評価システム
3日前
富士通株式会社
制御装置,制御方法および分散処理システム
17日前
富士通株式会社
試験装置,試験方法および情報処理プログラム
16日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
17日前
富士通株式会社
プログラム、情報処理装置および情報処理システム
1か月前
富士通株式会社
試験制御プログラム,試験システムおよび試験方法
24日前
富士通株式会社
プログラム、情報処理方法およびクラスタシステム
1か月前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
1か月前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
1か月前
富士通株式会社
情報処理装置、情報処理方法および情報処理プログラム
16日前
富士通株式会社
画像生成プログラム、画像生成方法および情報処理装置
1か月前
富士通株式会社
ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体
1か月前
富士通株式会社
強化学習プログラム、強化学習方法、および情報処理装置
1か月前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
1か月前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
16日前
富士通株式会社
機械学習プログラム、機械学習装置及び機械学習システム
3日前
富士通株式会社
情報処理装置、情報処理方法、および情報処理プログラム
3日前
富士通株式会社
配線ばらつき算出方法および配線ばらつき算出プログラム
18日前
富士通株式会社
情報処理装置、情報処理方法及びコンピュータプログラム
1か月前
富士通株式会社
マルチオブジェクト追跡を改善する方法、装置及び記憶媒体
26日前
続きを見る