TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024069862
公報種別公開特許公報(A)
公開日2024-05-22
出願番号2022180115
出願日2022-11-10
発明の名称学習装置、学習方法、及び、記録媒体
出願人日本電気株式会社
代理人個人,個人,個人
主分類G06N 20/00 20190101AFI20240515BHJP(計算;計数)
要約【課題】強化学習における方策の模倣学習において、生徒モデルの最適方策を学習可能とする。
【解決手段】学習装置において、取得手段は、行動の実行結果として、次の状態と報酬とを取得する。算出手段は、次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する。生成手段は、状態価値から成形報酬を生成する。方策更新手段は、成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する。パラメータ更新手段は、割引因子を更新する。
【選択図】図4
特許請求の範囲【請求項1】
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える学習装置。
続きを表示(約 700 文字)【請求項2】
前記生徒モデルの目的関数はエントロピー正則化項を含み、
前記エントロピー正則化項は、正則化の程度を示す係数である逆温度を含み、
前記方策更新手段は、前記成形報酬と、前記割引因子と、前記逆温度とを用いて前記生徒モデルの方策を更新し、
前記パラメータ更新手段は、前記逆温度を更新する請求項1に記載の学習装置。
【請求項3】
前記パラメータ更新手段は、前記割引因子を、予め決められた真の値に近づけるように更新する請求項1に記載の学習装置。
【請求項4】
前記生成手段は、前記割引因子として前記真の値を用いて成形報酬を生成する請求項3に記載の学習装置。
【請求項5】
コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する学習方法。
【請求項6】
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。

発明の詳細な説明【技術分野】
【0001】
本開示は、強化学習における模倣学習に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
強化学習において、方策の学習に模倣学習を用いる手法が提案されている。模倣学習は、方策を学習する技術である。方策とは、ある状態に対して、次の行動を決定するモデルである。模倣学習の中でも、インタラクティブ模倣学習は、行動データではなく、教師モデルを参考にして方策の学習を行う。インタラクティブ模倣学習としてはいくつかの手法が提案されており、例えば、教師の方策を教師モデルとして用いる手法や、教師の価値関数を教師モデルとして用いる手法がある。また、教師の価値関数を教師モデルとして用いる手法においても、価値関数として、状態の関数である状態価値を用いる手法や、状態と行動の関数である行動価値を用いる手法がある。
【0003】
インタラクティブ模倣学習の一例として、非特許文献1は、期待割引報酬和を計算する際、特定の報酬を切り捨てるパラメータkを導入し、教師モデルを用いて同時に報酬成形を行うことで方策を学習する手法を提案している。
【先行技術文献】
【特許文献】
【0004】
Wen Sun, J. Andrew Bagnell, Byron Boots, "Truncated Horizon Policy Search: Combining Reinforcement Learning & Imitation Learning”, ICLR 2018
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1の手法では、方策の模倣学習において、最適な生徒モデルを学習することができないという課題がある。また、パラメータkが離散変数であるため、パラメータkを適切に調整するためには演算コストが大きくなってしまうという課題もある。
【0006】
本開示の1つの目的は、強化学習における方策のインタラクティブ模倣学習において、生徒モデルの最適方策を学習可能とすることにある。
【課題を解決するための手段】
【0007】
本開示の一つの観点では、学習装置は、
行動の実行結果として、次の状態と報酬とを取得する取得手段と、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出する算出手段と、
前記状態価値から成形報酬を生成する生成手段と、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新する方策更新手段と、
前記割引因子を更新するパラメータ更新手段と、
を備える。
【0008】
本開示の他の観点では、学習方法は、コンピュータにより実行され、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する。
【0009】
本開示のさらに他の観点では、記録媒体は、
行動の実行結果として、次の状態と報酬とを取得し、
次の状態と教師モデルの状態価値関数とを用いて、次の状態の状態価値を算出し、
前記状態価値から成形報酬を生成し、
前記成形報酬と、学習対象である生徒モデルの割引因子とを用いて、生徒モデルの方策を更新し、
前記割引因子を更新する処理をコンピュータに実行させるプログラムを記録する。
【発明の効果】
【0010】
本開示によれば、強化学習における方策の模倣学習において、生徒モデルの最適方策を学習することが可能となる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
情報検索装置
17日前
個人
ドットパターン
16日前
個人
ノートPC寝台
19日前
個人
電子文書の閲覧用電子機器
23日前
個人
モノ造りプロトコルレイヤー
8日前
キヤノン電子株式会社
携帯情報端末
18日前
大和製衡株式会社
組合せ計数装置
19日前
トヨタ自動車株式会社
図面表示装置
1日前
株式会社COLORS
表示制御装置
4日前
株式会社ゼロワン
ケア支援システム
18日前
株式会社ゼロワン
ケア支援システム
18日前
ブラザー工業株式会社
印刷制御装置
19日前
株式会社広島銀行
本人確認システム
18日前
有限会社カツミ工業
管理装置
19日前
三菱電機株式会社
情報検索装置
9日前
geeva株式会社
ギフト贈呈システム
3日前
geeva株式会社
ギフト贈呈システム
3日前
トヨタ車体株式会社
管理システム
17日前
株式会社ビズベース
検査システム
18日前
geeva株式会社
ギフト贈呈システム
3日前
geeva株式会社
ギフト贈呈システム
3日前
株式会社日立国際電気
生産管理システム
3日前
日本テクノ株式会社
電力料金課金システム
19日前
トヨタ自動車株式会社
画像比較装置
4日前
株式会社セラク
営農支援システム及び方法
8日前
新日本建工株式会社
建築用システム
2日前
福華電子股ふん有限公司
多方向出力デバイス
19日前
富士通株式会社
算出方法及び算出プログラム
3日前
アマノ株式会社
自律走行作業システム
17日前
キヤノン株式会社
画像処理装置及び学習装置
3日前
トヨタ自動車株式会社
移動物体探索装置
3日前
トヨタ自動車株式会社
電子制御ユニット
23日前
株式会社アドインテ
推定システム及び推定方法
4日前
トヨタ自動車株式会社
文書比較システム
4日前
富士古河E&C株式会社
運用管理支援システム
2日前
トヨタ自動車株式会社
文書管理システム
4日前
続きを見る