TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024140139
公報種別公開特許公報(A)
公開日2024-10-10
出願番号2023051144
出願日2023-03-28
発明の名称学習装置、学習方法およびプログラム
出願人日本電気株式会社,国立研究開発法人産業技術総合研究所
代理人個人,個人
主分類G06N 20/00 20190101AFI20241003BHJP(計算;計数)
要約【課題】制御対象に対する制御の学習に要する時間を比較的短くする。
【解決手段】学習装置が、制御対象に対する制御の強化学習を行う強化学習手段と、前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行うモデル学習手段と、前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行うモデル制御学習手段と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
制御対象に対する制御の強化学習を行う強化学習手段と、
前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行うモデル学習手段と、
前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行うモデル制御学習手段と、
を備える学習装置。
続きを表示(約 1,000 文字)【請求項2】
前記モデル制御学習手段は、前記モデルと、前記強化学習で得られた方策とを用いて、前記制御対象に対する制御の時系列の初期値を生成し、前記制御対象に対する制御の学習にて、前記制御対象に対する制御の時系列を更新する、
請求項1に記載の学習装置。
【請求項3】
前記強化学習手段は、前記制御対象に実行させる複数のタスクそれぞれについて前記強化学習を行い、
前記モデル学習手段は、前記制御対象に実行させる複数のタスクそれぞれについて前記強化学習に用いられたデータを用いて、前記モデルの学習をおこなってそのモデルを更新し、
前記モデル制御学習手段は、前記複数のタスクそれぞれについて、前記強化学習を実行済みのタスクに関して学習済みの前記モデルを用いて、前記制御対象に対する制御の学習を行う、
請求項1または請求項2に記載の学習装置。
【請求項4】
前記強化学習手段は、前記強化学習に用いる方策の初期値を、前記強化学習を実行済みのタスクに関して学習済みの前記モデルを用いて決定する、
請求項3に記載の学習装置。
【請求項5】
前記強化学習手段は、前記強化学習に用いる報酬関数を、前記強化学習を実行済みのタスクに関して学習済みの前記モデルを用いて決定する、
請求項3に記載の学習装置。
【請求項6】
コンピュータが、
制御対象に対する制御の強化学習を行い、
前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行い、
前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行う、
ことを含む学習方法。
【請求項7】
コンピュータに、
制御対象に対する制御の強化学習を行うことと、
前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行うことと、
前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行うことと、
を実行させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、学習装置、学習方法およびプログラムに関する。
続きを表示(約 1,200 文字)【背景技術】
【0002】
制御対象に対する制御の学習方法の1つに強化学習がある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特開2022-014099号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
制御対象に対する制御の学習をなるべく短時間で行えることが好ましい。
【0005】
本発明の目的の一例は、上述の課題を解決することのできる学習装置、学習方法、およびプログラムを提供することである。
【課題を解決するための手段】
【0006】
本発明の第1の態様によれば、学習装置は、制御対象に対する制御の強化学習を行う強化学習手段と、前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行うモデル学習手段と、前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行うモデル制御学習手段と、を備える。
【0007】
本発明の第2の態様によれば、学習方法は、コンピュータが、制御対象に対する制御の強化学習を行い、前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行い、前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行う、ことを含む。
【0008】
本発明の第3の態様によれば、プログラムは、コンピュータに、制御対象に対する制御の強化学習を行うことと、前記強化学習に用いられたデータを用いて、前記制御対象に関する状態と、前記制御対象に対する制御と、前記制御対象に関する状態の時間変化との関係を示すモデルの学習を行うことと、前記モデルと、前記強化学習の結果とを用いて、前記制御対象に対する制御の学習を行うことと、を実行させるためのプログラムである。
【発明の効果】
【0009】
本発明によれば、制御対象に対する制御の学習に要する時間が比較的短いことが期待される。
【図面の簡単な説明】
【0010】
実施形態に係る学習装置の構成の例を示す図である。
実施形態に係る学習装置が行う処理の手順の例を示す図である。
実施形態に係る制御対象に対する制御を行うときの、システムの構成の例を示す図である。
実施形態に係る制御装置の構成の例を示す図である。
実施形態に係る学習装置の構成のもう1つの例を示す図である。
実施形態に係る学習方法における処理の手順の例を示す図である。
少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

日本電気株式会社
アンテナ装置、処理方法、およびプログラム
9日前
日本電気株式会社
情報処理装置、情報処理方法及びプログラム
8日前
日本電気株式会社
複合材料、ボロメータ、及び複合材料形成方法
10日前
日本電気株式会社
ハニカムコアを含む放熱板およびその製造方法
9日前
日本電気株式会社
情報処理装置、情報処理方法、およびプログラム
8日前
日本電気株式会社
文章生成装置、文章生成方法、及び、プログラム
10日前
日本電気株式会社
ネットワーク監視装置およびネットワーク監視方法
8日前
日本電気株式会社
システム設計装置、システム設計方法及びプログラム
10日前
日本電気株式会社
制御装置、制御システム、制御方法およびプログラム
8日前
日本電気株式会社
プログラム
8日前
日本電気株式会社
情報処理装置、情報処理システム、情報処理方法及びプログラム
8日前
日本電気株式会社
情報処理システム
10日前
日本電気株式会社
処理方法及びプログラム
15日前
日本電気株式会社
情報出力装置、情報出力システム、情報出力方法および情報出力プログラム
8日前
日本電気株式会社
電波状況可視化装置、電波状況可視化方法、及び、電波状況可視化プログラム
8日前
日本電気株式会社
コーディネート診断システム、情報処理装置、情報処理方法、およびプログラム
10日前
日本電気株式会社
目標軌道生成装置及び方法、車両走行制御システム、装置、及び方法、並びにプログラム
8日前
日本電気株式会社
セキュリティ判定装置、セキュアシステム設計装置、セキュリティ判定方法及びプログラム
8日前
日本電気株式会社
端末装置、ネットワークデバイス、及び方法
10日前
日本電気株式会社
精算システム、精算方法、プログラム、及び精算装置
8日前
先進モビリティ株式会社
車両走行制御装置、車両走行制御システム、車両走行制御方法、及びプログラム
8日前
日本電気株式会社
情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム
15日前
日本電気株式会社
光トランシーバ、光通信システム、光伝送装置、光トランシーバのチャネル設定方法及びプログラム
10日前
個人
物品
29日前
個人
認証システム
1か月前
個人
自動精算システム
22日前
個人
保証金管理システム
1か月前
個人
管理サーバ
8日前
個人
鑑定証明システム
1か月前
個人
救急搬送システム
29日前
個人
業界地図作成システム
2か月前
キヤノン株式会社
印刷装置
22日前
株式会社MRC
集客システム
1か月前
個人
生成AIとの常時接続システム
29日前
個人
技術マッチングシステム
1か月前
個人
VRによる人体各部位の立体化
8日前
続きを見る