TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024148223
公報種別
公開特許公報(A)
公開日
2024-10-18
出願番号
2023061163
出願日
2023-04-05
発明の名称
強化学習プログラム、強化学習方法、および情報処理装置
出願人
富士通株式会社
代理人
弁理士法人扶桑国際特許事務所
主分類
G06N
20/00 20190101AFI20241010BHJP(計算;計数)
要約
【課題】強化学習に用いるパラメータの適切な値を容易に取得できるようにする。
【解決手段】情報処理装置10は、複数の候補値ごとの強化学習をモデル2に対して実施する。その際、情報処理装置10は、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデル2に適用する方策の更新前後でモデル2から得られる行動確率分布3a,3bの差の上限とする。次に情報処理装置10は、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そして情報処理装置10は、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【選択図】図1
特許請求の範囲
【請求項1】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータに実行させる強化学習プログラム。
続きを表示(約 1,200 文字)
【請求項2】
選択した前記候補値を、前記方策の更新前後で前記モデルから得られる前記行動確率分布の差の上限として、前記報酬が収束するまでの前記強化学習を前記モデルに対して実施する、
処理をコンピュータにさらに実行させる請求項1記載の強化学習プログラム。
【請求項3】
前記複数の候補値ごとの前記強化学習を前記モデルに対して実施する処理では、前記方策の更新前後での前記行動確率分布の差が一の候補値になる更新後の前記方策を近似計算で算出し、更新後の前記方策を前記モデルに適用して前記方策の更新前後での前記行動確率分布の差を計算し、前記行動確率分布の差が前記一の候補値を超える場合には、更新後の前記方策を修正して、修正された前記方策を適用して前記モデルの学習を行い、
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記近似計算で算出した更新後の前記方策が修正される確率を前記指標値とする、
請求項1または2に記載の強化学習プログラム。
【請求項4】
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記モデルに対する直近のN回(Nは自然数)の学習における前記指標値の分散が所定の値以内となったときに、前記強化学習を終了させる、
請求項1または2に記載の強化学習プログラム。
【請求項5】
前記候補値を選択する処理では、前記複数の候補値ごとの前記強化学習の終了時の前記指標値の大きさに基づいて、前記候補値を選択する、
請求項1または2に記載の強化学習プログラム。
【請求項6】
前記候補値を選択する処理では、前記指標値がしきい値より大きい第1の候補値のうちの少なくとも1つを、前記第1の候補値それぞれの値の大きさに基づいて選択する、
請求項1または2に記載の強化学習プログラム。
【請求項7】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータが実行する強化学習方法。
【請求項8】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する処理部、
を有する情報処理装置。
発明の詳細な説明
【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。
【0003】
強化学習に関する技術として、例えば学習モデルが有するハイパーパラメータを決定するための計算時間を短縮するハイパーパラメータ決定方法が提案されている。ハイパーパラメータを強化学習の手法を用いて特定するハイパーパラメータ管理装置も提案されている。強化学習システムに組み込むための確率モデルを生成する技術も提案されている。さらにエージェントによって実行されるアクションの選択に使用される方策(policy)ニューラルネットワークの訓練方法も提案されている。
【0004】
制約付きの強化学習に関する技術としては、例えば制約付き方策最適化(CPO:Constrained Policy Optimization)による方策の更新方法が提案されている。CPOでは、学習中も制約を満たすことができる。
【先行技術文献】
【特許文献】
【0005】
特開2022-150947号公報
特開2020-201870号公報
米国特許出願公開第2020/0218999号明細書
米国特許出願公開第2020/0244707号明細書
【非特許文献】
【0006】
Achiam, J., Held, D., Tamar, A., & Abbeel, P., "Constrained policy optimization", International conference on machine learning, PMLR, 2017 July, volime 70, pp. 22-31
【発明の概要】
【発明が解決しようとする課題】
【0007】
CPOのような方策最適化を行う強化学習では、ハイパーパラメータδが使用される。δは、方策のパラメータ(θ)の更新前後での行動確率分布のKL(Kullback Leibler)距離の最大値である。KL距離は、2つの確率分布の差異を示す値である。KL距離は、カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンスとも呼ばれる。δにより、一回の更新で行動確率分布の変化をどの程度許すかが定義される。
【0008】
δの値が小さすぎると、学習に時間がかかる傾向がある。またδが大きすぎると、報酬が十分に高くならない可能性がある。そこでδを適切な値に設定することが求められる。しかし、問題ごとに適切なδの値は異なり、どの値が良いかは収束するまで学習してみないとわからない。そのため、従来は様々な値のδを用いて、報酬が収束するまでの強化学習を繰り返し実行することとなり、計算コストが過大となっている。
【0009】
1つの側面では、本件は、強化学習に用いるパラメータの適切な値を容易に取得できるようにすることを目的とする。
【課題を解決するための手段】
【0010】
1つの案では、以下の処理をコンピュータに実行させる強化学習プログラムが提供される。
コンピュータは、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後でモデルから得られる行動確率分布の差の上限として、複数の候補値ごとの強化学習をモデルに対して実施する。コンピュータは、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そしてコンピュータは、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【発明の効果】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
グラフ表現
1か月前
富士通株式会社
プロセッサ
8日前
富士通株式会社
光通信装置
28日前
富士通株式会社
画像符号化
1か月前
富士通株式会社
画像生成方法
今日
富士通株式会社
量子デバイス
8日前
富士通株式会社
アンテナ装置
22日前
富士通株式会社
冷却モジュール
2日前
富士通株式会社
コネクタの取り外し方法
28日前
富士通株式会社
敗血症の診断および予測
23日前
富士通株式会社
半導体装置、及び、電子機器
23日前
富士通株式会社
通信制御装置及び基地局制御方法
1か月前
富士通株式会社
無線アクセス・ネットワーク調整
4日前
富士通株式会社
評価プログラム、方法、及び装置
今日
富士通株式会社
情報処理プログラム、方法、及び装置
14日前
富士通株式会社
ネットワーク装置及びモデル学習方法
1か月前
富士通株式会社
能動学習プログラム、方法、及び装置
1か月前
富士通株式会社
LDO型電圧調整回路及び半導体装置
28日前
富士通株式会社
人体のキーポイントの検出方法及び装置
7日前
富士通株式会社
病変検出方法および病変検出プログラム
9日前
富士通株式会社
病変検出方法および病変検出プログラム
9日前
富士通株式会社
支援装置、支援システム、支援プログラム
28日前
富士通株式会社
制御プログラム、システムおよび制御方法
11日前
富士通株式会社
サーバ監視システムおよびサーバ監視方法
1か月前
富士通株式会社
タスク特有のグラフセット解析及び視覚化
8日前
富士通株式会社
遅延制御回路、光送信機、及び遅延制御方法
22日前
富士通株式会社
車両の管理施設情報提供方法及びプログラム
10日前
富士通株式会社
演算処理装置および演算処理装置の動作方法
7日前
富士通株式会社
リソースサーバおよびサービス提供システム
16日前
富士通株式会社
学習プログラム、情報処理装置および学習方法
21日前
富士通株式会社
推定方法、推定プログラム、及び通信処理装置
17日前
富士通株式会社
出力プログラム,出力方法,及び情報処理装置
28日前
富士通株式会社
修正候補特定方法及び修正候補特定プログラム
10日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
今日
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
1か月前
続きを見る
他の特許を見る