TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024069862
公報種別公開特許公報(A)
公開日2024-05-22
出願番号2022180115
出願日2022-11-10
発明の名称学習装置、学習方法、及び、記録媒体
出願人日本電気株式会社
代理人個人,個人,個人
主分類G06N 20/00 20190101AFI20240515BHJP(計算;計数)
要約【課題】強化学習における方策の模倣学習において、生徒モデルの最適方策を学習可能とする。
【解決手段】学習装置において、取得手段は、行動の実行結果として、次の状態と報酬とを取得する。算出手段は、次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する。生成手段は、状態価値から成形報酬を生成する。方策更新手段は、成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する。パラメータ更新手段は、割引因子を更新する。
【選択図】図4
特許請求の範囲【請求項1】
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える学習装置。
続きを表示(約 700 文字)【請求項2】
前記生徒モデルの目的関数はエントロピー正則化項を含み、
前記エントロピー正則化項は、正則化の程度を示す係数である逆温度を含み、
前記方策更新手段は、前記成形報酬と、前記割引因子と、前記逆温度とを用いて前記生徒モデルの方策を更新し、
前記パラメータ更新手段は、前記逆温度を更新する請求項1に記載の学習装置。
【請求項3】
前記パラメータ更新手段は、前記割引因子を、予め決められた真の値に近づけるように更新する請求項1に記載の学習装置。
【請求項4】
前記生成手段は、前記割引因子として前記真の値を用いて成形報酬を生成する請求項3に記載の学習装置。
【請求項5】
コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する学習方法。
【請求項6】
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。

発明の詳細な説明【技術分野】
【0001】
本開示は、強化学習における模倣学習に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
強化学習において、方策の学習に模倣学習を用いる手法が提案されている。模倣学習は、方策を学習する技術である。方策とは、ある状態に対して、次の行動を決定するモデルである。模倣学習の中でも、インタラクティブ模倣学習は、行動データではなく、教師モデルを参考にして方策の学習を行う。インタラクティブ模倣学習としてはいくつかの手法が提案されており、例えば、教師の方策を教師モデルとして用いる手法や、教師の価値関数を教師モデルとして用いる手法がある。また、教師の価値関数を教師モデルとして用いる手法においても、価値関数として、状態の関数である状態価値を用いる手法や、状態と行動の関数である行動価値を用いる手法がある。
【0003】
インタラクティブ模倣学習の一例として、非特許文献1は、期待割引報酬和を計算する際、特定の報酬を切り捨てるパラメータkを導入し、教師モデルを用いて同時に報酬成形を行うことで方策を学習する手法を提案している。
【先行技術文献】
【特許文献】
【0004】
Wen Sun, J. Andrew Bagnell, Byron Boots, "Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning”, ICLR 2018
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1の手法では、方策の模倣学習において、最適な生徒モデルを学習することができないという課題がある。また、パラメータkが離散変数であるため、パラメータkを適切に調整するためには演算コストが大きくなってしまうという課題もある。
【0006】
本開示の1つの目的は、強化学習における方策のインタラクティブ模倣学習において、生徒モデルの最適方策を学習可能とすることにある。
【課題を解決するための手段】
【0007】
本開示の一つの観点では、学習装置は、
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える。
【0008】
本開示の他の観点では、学習方法は、コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する。
【0009】
本開示のさらに他の観点では、記録媒体は、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録する。
【発明の効果】
【0010】
本開示によれば、強化学習における方策の模倣学習において、生徒モデルの最適方策を学習することが可能となる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

日本電気株式会社
ディスプレイアンテナ
2日前
日本電気株式会社
アンテナ装置およびディスプレイアンテナ
2日前
日本電気株式会社
無線通信装置、方法、及び無線通信システム
3日前
日本電気株式会社
画像処理装置、画像処理方法、及び、記録媒体
2日前
日本電気株式会社
情報処理装置、情報処理方法、およびプログラム
3日前
日本電気株式会社
顔認証支援装置、システム、方法及びプログラム
2日前
日本電気株式会社
情報処理装置、情報処理方法、およびプログラム
今日
日本電気株式会社
情報処理装置、情報処理方法、およびプログラム
今日
日本電気株式会社
質問生成装置、質問生成方法、およびプログラム
今日
日本電気株式会社
質問生成装置、質問生成方法、およびプログラム
今日
日本電気株式会社
取引支援システム、取引支援方法、及びプログラム
今日
日本電気株式会社
漏油検知装置、漏油検知システム及び漏油検知方法
2日前
日本電気株式会社
広告枠管理装置、広告枠管理方法、及び、記録媒体
3日前
日本電気株式会社
処理装置、処理システム、処理方法、及びプログラム
今日
日本電気株式会社
捕集装置、制御装置、捕集方法、制御方法及びプログラム
2日前
日本電気株式会社
情報処理装置、予測モデル、情報処理方法、及びプログラム
2日前
日本電気株式会社
配車システム、情報処理装置、情報処理方法、およびプログラム
2日前
日本電気株式会社
プログラム制御装置、プログラム制御方法およびプログラム制御プログラム
今日
日本電気株式会社
光空間通信装置、光空間通信装置の制御方法および光空間通信装置の制御装置
今日
日本電気株式会社
液浸密閉環境における振動試験装置ならびに機械環境計測センサの校正方法および装置
6日前
日本電気株式会社
衛星コンステレーション装置、衛星コンステレーションシステム、方法、及びプログラム
3日前
個人
暗号化記憶媒体
21日前
個人
プロジェクター
1か月前
個人
求人支援システム
10日前
キヤノン電子株式会社
周辺機器
29日前
個人
求人マッチングサーバ
29日前
カゴメ株式会社
営農支援プログラム
28日前
カゴメ株式会社
営農支援プログラム
28日前
カゴメ株式会社
営農支援プログラム
28日前
カゴメ株式会社
営農支援プログラム
28日前
シャープ株式会社
情報出力装置
8日前
株式会社ワコム
電子ペン
24日前
アスエネ株式会社
水管理の方法
29日前
株式会社ワコム
電子ペン
22日前
トヨタ自動車株式会社
検査装置
1か月前
CKD株式会社
遠隔支援システム
29日前
続きを見る