TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024118220
公報種別
公開特許公報(A)
公開日
2024-08-30
出願番号
2023024535
出願日
2023-02-20
発明の名称
強化学習プログラム、情報処理装置および強化学習方法
出願人
富士通株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06N
20/00 20190101AFI20240823BHJP(計算;計数)
要約
【課題】学習データにはない文章入力に対しても、認識精度を向上させる。
【解決手段】情報処理装置1は、強化学習におけるポリシーの最適化問題において、信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する。かかる情報処理装置1の処理は、例えば、携帯基地局の通信品質を担保しながら、省電力を行う制約条件付きのCPOに適用することができる。
【選択図】図1
特許請求の範囲
【請求項1】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、
観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
続きを表示(約 1,500 文字)
【請求項2】
前記閾値を調整する処理は、
前記ポリシーの近似解と更新前のポリシーとの差が前記閾値以下であるという制約条件を満たすかどうかを判定し、前記制約条件を満たさないと判定した場合には前記ポリシーの近似解を前記更新前のポリシーに近づけて判定処理を繰り返し、前記制約条件を満たすと判定した場合には前記ポリシーの近似解を更新するという前記アルゴリズムの動作に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項3】
前記閾値を調整する処理は、最初の前記判定処理で前記制約条件を満たすと判定した場合には、前記閾値を大きくし、最初の前記判定処理で前記制約条件を満たさないと判定した場合でも2回目以降の前記判定処理で前記制約条件を満たすと判定した場合には、前記閾値を所定値分小さくし、2回目以降の前記判定処理で前記制約条件を満たさないと判定した場合には、前記閾値を所定値分大きくする
ことを特徴とする請求項2に記載の強化学習プログラム。
【請求項4】
前記閾値を調整する処理は、前記アルゴリズムの動作により得られた、前記閾値に対する更新前後のポリシーの差に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項5】
前記閾値を調整する処理は、前記閾値に対する更新前後のポリシーの差が第1の基準値以上である場合に、前記閾値を所定値分大きくし、前記閾値に対する更新前後のポリシーの差が前記第1の基準値未満である場合に、前記閾値を所定値分小さくする
ことを特徴とする請求項4に記載の強化学習プログラム。
【請求項6】
前記閾値を調整する処理は、
前記ポリシーの近似解と更新前のポリシーとの差が前記閾値以下であるという制約条件を満たすかどうかを判定し、前記制約条件を満たさないと判定した場合には前記ポリシーの近似解を前記更新前のポリシーに近づけて判定処理を繰り返し、前記制約条件を満たすと判定した場合には前記ポリシーの近似解を更新するという前記アルゴリズムにおける更新に至る繰り返し回数に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項7】
前記閾値を調整する処理は、前記繰り返し回数が第2の基準値以上である場合に、前記閾値を所定値分小さくし、前記繰り返し回数が前記第2の基準値未満である場合に、前記閾値を所定値分大きくする
ことを特徴とする請求項6に記載の強化学習プログラム。
【請求項8】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測する観測部と、
前記観測部によって観測された差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する調整部と、
を有することを特徴とする情報処理装置。
【請求項9】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、
観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する
処理をコンピュータが実行することを特徴とする強化学習方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、強化学習プログラムなどに関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
従来、ある環境に対してポリシーに基づき行動を決定し、その結果得られる報酬を基にポリシーを更新することで、報酬が最適化されるようにポリシーを更新(改善)していく強化学習(Reinforcement learning)の技術がある。
【0003】
ポリシーを更新する手法として、例えば、信頼領域ポリシー最適化(TRPO:Trust Region Policy Optimization)が知られている。かかるTRPOは、以下の式(1)のように、強化学習におけるポリシーの更新を、更新前と更新後とのポリシー間のKL距離(Kullback-Leibler divergence)の制約条件付き最適化問題として捉える。なお、π
old
,π
new
は、更新前,更新後のポリシー(確率分布)である。J(・)は、報酬期待値である。E[D
KL
(π
new
||π
old
)]は、更新前と更新後とのポリシー間のKL距離の期待値である。
TIFF
2024118220000002.tif
20
170
【0004】
D
KL
(π
new
||π
old
)で表されるKL距離は、2つの確率分布間の差を表す指標である。したがって、TRPOは、更新前と更新後とのポリシーの差に上限δを設けたうえで、報酬期待値の向上幅が最大となるポリシーπ
new
を求めるアルゴリズムといえる。なお、実際、報酬期待値J(・)やKL距離の期待値E[D
KL
(π
new
||π
old
)]を厳密に求めることは困難であるので、更新前のポリシーで収集したデータを用いたポリシーの近似値を使用して報酬期待値やKL距離の期待値を求める。この際、更新前と更新後とのポリシーが大きく異なっていると、近似が使用できないので、信頼できる領域としてKL距離に上限δが設けられている。
【0005】
また、TRPOの派生アルゴリズムとしてCPO(Constrained Policy Optimizaion)がある。CPOは、ポリシーに対して物理的な制約などを考慮する際に用いられるアルゴリズムである。CPOも、TRPOと同様に、KL距離に上限を設けた最適化問題を考慮し、ポリシーの更新を行う。
【0006】
また、強化学習において、方策(ポリシー)を改善することに関する技術が開示されている(例えば、特許文献1,2参照)。
【先行技術文献】
【特許文献】
【0007】
特開2021-064222号公報
特開2021-033332号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、信頼領域ポリシー最適化(TRPO)のようなKL距離に上限を設けた強化学習において、KL距離の上限δの値によって学習の進み方が変化することが知られている。しかしながら、学習には多大な時間がかかるため、様々な上限δの値で学習を行い、様々な上限δの値の中で最適な値を見つけるという作業は非効率である。すなわち、学習に最適な上限δの値を自動的に調整するのは難しいという問題がある。
【0009】
本発明は、1つの側面では、KL距離に上限を設けた強化学習において、学習に最適な上限の値を自動的に調整することを目的とする。
【課題を解決するための手段】
【0010】
1つの態様では、強化学習プログラムは、強化学習におけるポリシーの最適化問題において、信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する、処理をコンピュータに実行させる。
【発明の効果】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
ラック装置
2日前
富士通株式会社
リスクと診断
3日前
富士通株式会社
目標確定方法と装置
21日前
富士通株式会社
光受信機及び光受信方法
17日前
富士通株式会社
試験装置および試験方法
17日前
富士通株式会社
光伝送装置及び光伝送方法
25日前
富士通株式会社
探索プログラムおよび探索方法
22日前
富士通株式会社
信号処理装置及び信号処理方法
1日前
富士通株式会社
運転者上下車状態判断方法と装置
21日前
富士通株式会社
動作認識装置と方法及び電子機器
21日前
富士通株式会社
時系列カテゴリデータの動的分類
25日前
富士通株式会社
光センサ及び光センサの製造方法
1日前
富士通株式会社
物品認識装置、方法及び電子機器
21日前
富士通株式会社
動作認識装置と方法及び電子機器
21日前
富士通株式会社
光送信器およびタイミング調整方法
8日前
富士通株式会社
3点サポートイベント検出方法と装置
21日前
富士通株式会社
ネットワーク装置及びモデル学習方法
17日前
富士通株式会社
表示制御プログラム、方法、及び装置
17日前
富士通株式会社
機械学習プログラム、方法、及び装置
1日前
富士通株式会社
機械学習プログラム、方法、及び装置
1日前
富士通株式会社
フォークリフト状態の検出装置及び方法
21日前
富士通株式会社
化合物半導体増幅器及び回路モジュール
22日前
富士通株式会社
評価プログラム、評価装置及び評価方法
22日前
富士通株式会社
モデル生成方法及びモデル生成プログラム
25日前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
7日前
富士通株式会社
制御プログラム、制御方法及び情報処理装置
17日前
富士通株式会社
評価プログラム,評価方法及び情報処理装置
22日前
富士通株式会社
基板集積導波管アンテナ及びアレイアンテナ
21日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
7日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
7日前
富士通株式会社
光送信装置、遅延制御回路、及び遅延制御方法
21日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
7日前
富士通株式会社
機械学習のためのグラフセット分析及び可視化
17日前
富士通株式会社
多層基板および多層基板の配線設計プログラム
22日前
富士通株式会社
撮影角度決定方法および撮影角度決定プログラム
21日前
富士通株式会社
検証プログラム、検証方法、および情報処理装置
22日前
続きを見る
他の特許を見る