TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024118220
公報種別
公開特許公報(A)
公開日
2024-08-30
出願番号
2023024535
出願日
2023-02-20
発明の名称
強化学習プログラム、情報処理装置および強化学習方法
出願人
富士通株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06N
20/00 20190101AFI20240823BHJP(計算;計数)
要約
【課題】学習データにはない文章入力に対しても、認識精度を向上させる。
【解決手段】情報処理装置1は、強化学習におけるポリシーの最適化問題において、信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する。かかる情報処理装置1の処理は、例えば、携帯基地局の通信品質を担保しながら、省電力を行う制約条件付きのCPOに適用することができる。
【選択図】図1
特許請求の範囲
【請求項1】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、
観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
続きを表示(約 1,500 文字)
【請求項2】
前記閾値を調整する処理は、
前記ポリシーの近似解と更新前のポリシーとの差が前記閾値以下であるという制約条件を満たすかどうかを判定し、前記制約条件を満たさないと判定した場合には前記ポリシーの近似解を前記更新前のポリシーに近づけて判定処理を繰り返し、前記制約条件を満たすと判定した場合には前記ポリシーの近似解を更新するという前記アルゴリズムの動作に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項3】
前記閾値を調整する処理は、最初の前記判定処理で前記制約条件を満たすと判定した場合には、前記閾値を大きくし、最初の前記判定処理で前記制約条件を満たさないと判定した場合でも2回目以降の前記判定処理で前記制約条件を満たすと判定した場合には、前記閾値を所定値分小さくし、2回目以降の前記判定処理で前記制約条件を満たさないと判定した場合には、前記閾値を所定値分大きくする
ことを特徴とする請求項2に記載の強化学習プログラム。
【請求項4】
前記閾値を調整する処理は、前記アルゴリズムの動作により得られた、前記閾値に対する更新前後のポリシーの差に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項5】
前記閾値を調整する処理は、前記閾値に対する更新前後のポリシーの差が第1の基準値以上である場合に、前記閾値を所定値分大きくし、前記閾値に対する更新前後のポリシーの差が前記第1の基準値未満である場合に、前記閾値を所定値分小さくする
ことを特徴とする請求項4に記載の強化学習プログラム。
【請求項6】
前記閾値を調整する処理は、
前記ポリシーの近似解と更新前のポリシーとの差が前記閾値以下であるという制約条件を満たすかどうかを判定し、前記制約条件を満たさないと判定した場合には前記ポリシーの近似解を前記更新前のポリシーに近づけて判定処理を繰り返し、前記制約条件を満たすと判定した場合には前記ポリシーの近似解を更新するという前記アルゴリズムにおける更新に至る繰り返し回数に基づいて、前記閾値を調整する
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項7】
前記閾値を調整する処理は、前記繰り返し回数が第2の基準値以上である場合に、前記閾値を所定値分小さくし、前記繰り返し回数が前記第2の基準値未満である場合に、前記閾値を所定値分大きくする
ことを特徴とする請求項6に記載の強化学習プログラム。
【請求項8】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測する観測部と、
前記観測部によって観測された差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する調整部と、
を有することを特徴とする情報処理装置。
【請求項9】
強化学習におけるポリシーの最適化問題において、
信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、
観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する
処理をコンピュータが実行することを特徴とする強化学習方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、強化学習プログラムなどに関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
従来、ある環境に対してポリシーに基づき行動を決定し、その結果得られる報酬を基にポリシーを更新することで、報酬が最適化されるようにポリシーを更新(改善)していく強化学習(Reinforcement learning)の技術がある。
【0003】
ポリシーを更新する手法として、例えば、信頼領域ポリシー最適化(TRPO:Trust Region Policy Optimization)が知られている。かかるTRPOは、以下の式(1)のように、強化学習におけるポリシーの更新を、更新前と更新後とのポリシー間のKL距離(Kullback-Leibler divergence)の制約条件付き最適化問題として捉える。なお、π
old
,π
new
は、更新前,更新後のポリシー(確率分布)である。J(・)は、報酬期待値である。E[D
KL
(π
new
||π
old
)]は、更新前と更新後とのポリシー間のKL距離の期待値である。
TIFF
2024118220000002.tif
20
170
【0004】
D
KL
(π
new
||π
old
)で表されるKL距離は、2つの確率分布間の差を表す指標である。したがって、TRPOは、更新前と更新後とのポリシーの差に上限δを設けたうえで、報酬期待値の向上幅が最大となるポリシーπ
new
を求めるアルゴリズムといえる。なお、実際、報酬期待値J(・)やKL距離の期待値E[D
KL
(π
new
||π
old
)]を厳密に求めることは困難であるので、更新前のポリシーで収集したデータを用いたポリシーの近似値を使用して報酬期待値やKL距離の期待値を求める。この際、更新前と更新後とのポリシーが大きく異なっていると、近似が使用できないので、信頼できる領域としてKL距離に上限δが設けられている。
【0005】
また、TRPOの派生アルゴリズムとしてCPO(Constrained Policy Optimizaion)がある。CPOは、ポリシーに対して物理的な制約などを考慮する際に用いられるアルゴリズムである。CPOも、TRPOと同様に、KL距離に上限を設けた最適化問題を考慮し、ポリシーの更新を行う。
【0006】
また、強化学習において、方策(ポリシー)を改善することに関する技術が開示されている(例えば、特許文献1,2参照)。
【先行技術文献】
【特許文献】
【0007】
特開2021-064222号公報
特開2021-033332号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、信頼領域ポリシー最適化(TRPO)のようなKL距離に上限を設けた強化学習において、KL距離の上限δの値によって学習の進み方が変化することが知られている。しかしながら、学習には多大な時間がかかるため、様々な上限δの値で学習を行い、様々な上限δの値の中で最適な値を見つけるという作業は非効率である。すなわち、学習に最適な上限δの値を自動的に調整するのは難しいという問題がある。
【0009】
本発明は、1つの側面では、KL距離に上限を設けた強化学習において、学習に最適な上限の値を自動的に調整することを目的とする。
【課題を解決するための手段】
【0010】
1つの態様では、強化学習プログラムは、強化学習におけるポリシーの最適化問題において、信頼領域を設定してポリシーの更新を行う際に、更新前後のポリシーの差を観測し、観測した差が信頼領域のある範囲内に留まるように、ポリシーの更新に至るアルゴリズムの動作に応じて、前記信頼領域の閾値を調整する、処理をコンピュータに実行させる。
【発明の効果】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン電子株式会社
通信システム
7日前
株式会社ザメディア
出席管理システム
1日前
トヨタ自動車株式会社
工程計画装置
1日前
株式会社タクテック
商品取出集品システム
今日
トヨタ自動車株式会社
作業判定方法
2日前
ミサワホーム株式会社
情報処理装置
今日
トヨタ自動車株式会社
作業評価装置
7日前
個人
公益寄付インタラクティブシステム
7日前
ゼネラル株式会社
RFIDタグ付き物品
3日前
株式会社村田製作所
動き検知装置
今日
トヨタ自動車株式会社
情報処理システム
2日前
株式会社国際電気
支援システム
3日前
富士フイルム株式会社
タッチセンサ
7日前
個人
コンテンツ配信システム
今日
トヨタ自動車株式会社
情報処理方法
2日前
個人
プラットフォームシステム
今日
富士通株式会社
画像生成方法
6日前
株式会社デンソー
情報処理方法
7日前
ブラザー工業株式会社
ラベルプリンタ
2日前
株式会社知財事業研究所
運行計画作成システム
今日
トヨタ自動車株式会社
作業支援システム
今日
甍エンジニアリング株式会社
屋根材買い取りシステム
6日前
株式会社マーケットヴィジョン
情報処理システム
7日前
日立建機株式会社
作業機械の管理装置
3日前
日立建機株式会社
潤滑油診断システム
1日前
株式会社日立製作所
設計支援装置
1日前
株式会社アイシン
情報提供システム
6日前
アルプスアルパイン株式会社
入力装置
6日前
トヨタ自動車株式会社
車両用の情報処理装置
1日前
トヨタ自動車株式会社
車両用の情報処理装置
2日前
株式会社日立製作所
タスク管理システム
今日
株式会社カプコン
システム、サーバおよびプログラム
1日前
サクサ株式会社
画像処理装置、方法、およびシステム
2日前
個人
情報処理システム、情報処理方法及びプログラム
6日前
ブラザー工業株式会社
印刷装置
1日前
セイコーエプソン株式会社
印刷システム
7日前
続きを見る
他の特許を見る