TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024148223
公報種別公開特許公報(A)
公開日2024-10-18
出願番号2023061163
出願日2023-04-05
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241010BHJP(計算;計数)
要約【課題】強化学習に用いるパラメータの適切な値を容易に取得できるようにする。
【解決手段】情報処理装置10は、複数の候補値ごとの強化学習をモデル2に対して実施する。その際、情報処理装置10は、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデル2に適用する方策の更新前後でモデル2から得られる行動確率分布3a,3bの差の上限とする。次に情報処理装置10は、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そして情報処理装置10は、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【選択図】図1
特許請求の範囲【請求項1】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータに実行させる強化学習プログラム。
続きを表示(約 1,200 文字)【請求項2】
選択した前記候補値を、前記方策の更新前後で前記モデルから得られる前記行動確率分布の差の上限として、前記報酬が収束するまでの前記強化学習を前記モデルに対して実施する、
処理をコンピュータにさらに実行させる請求項1記載の強化学習プログラム。
【請求項3】
前記複数の候補値ごとの前記強化学習を前記モデルに対して実施する処理では、前記方策の更新前後での前記行動確率分布の差が一の候補値になる更新後の前記方策を近似計算で算出し、更新後の前記方策を前記モデルに適用して前記方策の更新前後での前記行動確率分布の差を計算し、前記行動確率分布の差が前記一の候補値を超える場合には、更新後の前記方策を修正して、修正された前記方策を適用して前記モデルの学習を行い、
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記近似計算で算出した更新後の前記方策が修正される確率を前記指標値とする、
請求項1または2に記載の強化学習プログラム。
【請求項4】
前記複数の候補値ごとの前記強化学習を終了させる処理では、前記モデルに対する直近のN回(Nは自然数)の学習における前記指標値の分散が所定の値以内となったときに、前記強化学習を終了させる、
請求項1または2に記載の強化学習プログラム。
【請求項5】
前記候補値を選択する処理では、前記複数の候補値ごとの前記強化学習の終了時の前記指標値の大きさに基づいて、前記候補値を選択する、
請求項1または2に記載の強化学習プログラム。
【請求項6】
前記候補値を選択する処理では、前記指標値がしきい値より大きい第1の候補値のうちの少なくとも1つを、前記第1の候補値それぞれの値の大きさに基づいて選択する、
請求項1または2に記載の強化学習プログラム。
【請求項7】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、
前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、
前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する、
処理をコンピュータが実行する強化学習方法。
【請求項8】
複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後で前記モデルから得られる行動確率分布の差の上限として、前記複数の候補値ごとの前記強化学習を前記モデルに対して実施し、前記複数の候補値ごとの前記強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させ、前記所定の指標値に基づいて、前記複数の候補値から少なくとも1つの候補値を選択する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。
【0003】
強化学習に関する技術として、例えば学習モデルが有するハイパーパラメータを決定するための計算時間を短縮するハイパーパラメータ決定方法が提案されている。ハイパーパラメータを強化学習の手法を用いて特定するハイパーパラメータ管理装置も提案されている。強化学習システムに組み込むための確率モデルを生成する技術も提案されている。さらにエージェントによって実行されるアクションの選択に使用される方策(policy)ニューラルネットワークの訓練方法も提案されている。
【0004】
制約付きの強化学習に関する技術としては、例えば制約付き方策最適化(CPO:Constrained Policy Optimization)による方策の更新方法が提案されている。CPOでは、学習中も制約を満たすことができる。
【先行技術文献】
【特許文献】
【0005】
特開2022-150947号公報
特開2020-201870号公報
米国特許出願公開第2020/0218999号明細書
米国特許出願公開第2020/0244707号明細書
【非特許文献】
【0006】
Achiam, J., Held, D., Tamar, A., & Abbeel, P., "Constrained policy optimization", International conference on machine learning, PMLR, 2017 July, volime 70, pp. 22-31
【発明の概要】
【発明が解決しようとする課題】
【0007】
CPOのような方策最適化を行う強化学習では、ハイパーパラメータδが使用される。δは、方策のパラメータ(θ)の更新前後での行動確率分布のKL(Kullback Leibler)距離の最大値である。KL距離は、2つの確率分布の差異を示す値である。KL距離は、カルバック・ライブラー情報量またはカルバック・ライブラー・ダイバージェンスとも呼ばれる。δにより、一回の更新で行動確率分布の変化をどの程度許すかが定義される。
【0008】
δの値が小さすぎると、学習に時間がかかる傾向がある。またδが大きすぎると、報酬が十分に高くならない可能性がある。そこでδを適切な値に設定することが求められる。しかし、問題ごとに適切なδの値は異なり、どの値が良いかは収束するまで学習してみないとわからない。そのため、従来は様々な値のδを用いて、報酬が収束するまでの強化学習を繰り返し実行することとなり、計算コストが過大となっている。
【0009】
1つの側面では、本件は、強化学習に用いるパラメータの適切な値を容易に取得できるようにすることを目的とする。
【課題を解決するための手段】
【0010】
1つの案では、以下の処理をコンピュータに実行させる強化学習プログラムが提供される。
コンピュータは、複数の候補値それぞれを、強化学習の対象となる問題に対応するモデルに適用する方策の更新前後でモデルから得られる行動確率分布の差の上限として、複数の候補値ごとの強化学習をモデルに対して実施する。コンピュータは、複数の候補値ごとの強化学習を、所定の指標値に基づいて、報酬の収束を待たずに終了させる。そしてコンピュータは、所定の指標値に基づいて、複数の候補値から少なくとも1つの候補値を選択する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
信号相関量の確定装置と方法
7日前
富士通株式会社
データセット特徴タイプ推論
7日前
富士通株式会社
光伝送装置および光伝送システム
8日前
富士通株式会社
双方向光リンクの異常モニタリング
10日前
富士通株式会社
バイアスのための生成人工知能の検査
今日
富士通株式会社
制御プログラム、制御方法及び決済装置
3日前
富士通株式会社
情報処理プログラムおよび情報処理方法
7日前
富士通株式会社
大規模言語モデルを使用したデータ調整
7日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
10日前
富士通株式会社
無線アクセスネットワークプロビジョニング
7日前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
7日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
14日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
7日前
富士通株式会社
量子ビットデバイス及び量子ビットデバイスの製造方法
14日前
富士通株式会社
情報処理プログラム、情報処理方法、及び情報処理装置
8日前
富士通株式会社
情報処理プログラム、情報処理装置、および情報処理方法
3日前
富士通株式会社
光送信機のサブ信号の遅延差のリアルタイム監視装置及び方法
7日前
富士通株式会社
ブロックチェーンに基づくエスクローされたマーケットプレイス
7日前
富士通株式会社
共有メモリ制御プログラム、共有メモリ制御方法および情報処理装置
7日前
富士通株式会社
光伝送路特性推定装置、光伝送システム、及び光伝送路特性推定方法
8日前
富士通株式会社
スタート支援装置、スタート支援方法、およびスタート支援プログラム
8日前
富士通株式会社
棄却なしの並列試行マルコフ連鎖モンテカルロ法を用いた統計的サンプリング
今日
富士通株式会社
依存情報を列に集約したマトリクススケジューラ及びマトリクススケジューリング方法
15日前
富士通株式会社
量子回路シミュレーションプログラム、量子回路シミュレーション方法および情報処理装置
16日前
富士通株式会社
機械学習プログラム、判定プログラム、機械学習方法、判定方法、機械学習装置、および判定装置
今日
個人
対話装置
28日前
個人
情報処理装置
28日前
個人
情報処理システム
今日
個人
記入設定プラグイン
16日前
個人
情報処理装置
24日前
個人
検査システム
2日前
株式会社サタケ
籾摺・調製設備
1日前
キヤノン電子株式会社
携帯装置
1日前
個人
不動産売買システム
8日前
個人
情報入力装置
28日前
個人
物価スライド機能付生命保険
28日前
続きを見る