TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024148223
公報種別公開特許公報(A)
公開日2024-10-18
出願番号2023061163
出願日2023-04-05
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241010BHJP(計算;計数)
要約【課題】強化学習に用いるパラメータの適切な値を容易に取得できるようにする。
【解決手段】情報処理装置10は、複数の候補値ごとの強化学習をモデル2に対して実施する。その際、情報処理装置10は、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデル2に適用する方策の更新前後でモデル2から得られる行動確率分布3a,3bの差の上限とする。次に情報処理装置10は、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そして情報処理装置10は、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【選択図】図1
特許請求の範囲【請求項1】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータに実行させる強化学習プログラム。
続きを表示(約 1,200 文字)【請求項2】
選択した前記候補値を、前記方策の更新前後で前記モデルから得られる前記行動確率分布の差の上限として、前記報酬が収束するまでの前記強化学習を前記モデルに対して実施する、
処理をコンピュータにさらに実行させる請求項1記載の強化学習プログラム。
【請求項3】
前記複数の候補値ごとの前記強化学習を前記モデルに対して実施する処理では、前記方策の更新前後での前記行動確率分布の差が一の候補値になる更新後の前記方策を近似計算で算出し、更新後の前記方策を前記モデルに適用して前記方策の更新前後での前記行動確率分布の差を計算し、前記行動確率分布の差が前記一の候補値を超える場合には、更新後の前記方策を修正して、修正された前記方策を適用して前記モデルの学習を行い、
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記近似計算で算出した更新後の前記方策が修正される確率を前記指標値とする、
請求項1または2に記載の強化学習プログラム。
【請求項4】
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記モデルに対する直近のN回(Nは自然数)の学習における前記指標値の分散が所定の値以内となったときに、前記強化学習を終了させる、
請求項1または2に記載の強化学習プログラム。
【請求項5】
前記候補値を選択する処理では、前記複数の候補値ごとの前記強化学習の終了時の前記指標値の大きさに基づいて、前記候補値を選択する、
請求項1または2に記載の強化学習プログラム。
【請求項6】
前記候補値を選択する処理では、前記指標値がしきい値より大きい第1の候補値のうちの少なくとも1つを、前記第1の候補値それぞれの値の大きさに基づいて選択する、
請求項1または2に記載の強化学習プログラム。
【請求項7】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータが実行する強化学習方法。
【請求項8】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。
【0003】
強化学習に関する技術として、例えば学習モデルが有するハイパーパラメータを決定するための計算時間を短縮するハイパーパラメータ決定方法が提案されている。ハイパーパラメータを強化学習の手法を用いて特定するハイパーパラメータ管理装置も提案されている。強化学習システムに組み込むための確率モデルを生成する技術も提案されている。さらにエージェントによって実行されるアクションの選択に使用される方策(policy)ニューラルネットワークの訓練方法も提案されている。
【0004】
制約付きの強化学習に関する技術としては、例えば制約付き方策最適化(CPO:Constrained Policy Optimization)による方策の更新方法が提案されている。CPOでは、学習中も制約を満たすことができる。
【先行技術文献】
【特許文献】
【0005】
特開2022-150947号公報
特開2020-201870号公報
米国特許出願公開第2020/0218999号明細書
米国特許出願公開第2020/0244707号明細書
【非特許文献】
【0006】
Achiam, J., Held, D., Tamar, A., & Abbeel, P., "Constrained policy optimization", International conference on machine learning, PMLR, 2017 July, volime 70, pp. 22-31
【発明の概要】
【発明が解決しようとする課題】
【0007】
CPOのような方策最適化を行う強化学習では、ハイパーパラメータδが使用される。δは、方策のパラメータ(θ)の更新前後での行動確率分布のKL(Kullback Leibler)距離の最大値である。KL距離は、2つの確率分布の差異を示す値である。KL距離は、カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンスとも呼ばれる。δにより、一回の更新で行動確率分布の変化をどの程度許すかが定義される。
【0008】
δの値が小さすぎると、学習に時間がかかる傾向がある。またδが大きすぎると、報酬が十分に高くならない可能性がある。そこでδを適切な値に設定することが求められる。しかし、問題ごとに適切なδの値は異なり、どの値が良いかは収束するまで学習してみないとわからない。そのため、従来は様々な値のδを用いて、報酬が収束するまでの強化学習を繰り返し実行することとなり、計算コストが過大となっている。
【0009】
1つの側面では、本件は、強化学習に用いるパラメータの適切な値を容易に取得できるようにすることを目的とする。
【課題を解決するための手段】
【0010】
1つの案では、以下の処理をコンピュータに実行させる強化学習プログラムが提供される。
コンピュータは、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後でモデルから得られる行動確率分布の差の上限として、複数の候補値ごとの強化学習をモデルに対して実施する。コンピュータは、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そしてコンピュータは、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
画像生成方法
5日前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
今日
富士通株式会社
方策学習装置、方策学習方法及び通信システム
今日
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
1日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
5日前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
1日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
2日前
個人
情報検索システム
14日前
キヤノン株式会社
電子機器
13日前
キヤノン株式会社
電子機器
13日前
キヤノン株式会社
電子機器
13日前
キヤノン電子株式会社
通信システム
6日前
株式会社イノベイト
広告装置
16日前
株式会社ザメディア
出席管理システム
今日
トヨタ自動車株式会社
作業評価装置
6日前
トヨタ自動車株式会社
管理システム
8日前
トヨタ自動車株式会社
工程計画装置
今日
トヨタ自動車株式会社
作業判定方法
1日前
TDK株式会社
等価回路
8日前
西松建設株式会社
計測システム
12日前
株式会社NURSY
再就職の支援装置
7日前
ゼネラル株式会社
RFIDタグ付き物品
2日前
個人
公益寄付インタラクティブシステム
6日前
トヨタ自動車株式会社
情報処理システム
1日前
個人
外国為替証拠金取引定期自動売買システム
19日前
キオクシア株式会社
電子機器
12日前
大王製紙株式会社
作業管理システム
7日前
株式会社インテック
触覚ディスプレイ装置
7日前
サクサ株式会社
警備サービス管理システム
16日前
株式会社国際電気
支援システム
2日前
ジャペル株式会社
登録管理システム
12日前
富士フイルム株式会社
タッチセンサ
6日前
トヨタ自動車株式会社
情報処理方法
1日前
富士通株式会社
画像生成方法
5日前
ブラザー工業株式会社
ラベルプリンタ
1日前
株式会社デンソー
情報処理方法
14日前
続きを見る