TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024089676
公報種別公開特許公報(A)
公開日2024-07-04
出願番号2022205002
出願日2022-12-22
発明の名称制御パラメータに関する深層強化学習の評価方法
出願人株式会社明電舎
代理人園田・小林弁理士法人
主分類G06N 20/00 20190101AFI20240627BHJP(計算;計数)
要約【課題】強化学習が所望の方向に進行し、適切な学習結果が得られているか否かを評価する。
【解決手段】第1学習モデルと第2学習モデルとを使用するActor-Critic強化学習を評価するための方法である。本方法は、強化学習のための制御パラメータ設定値を設定することと、制御パラメータ設定値に対応する観測情報を取得することと、第2学習モデルから出力される価値を用いて、第1学習モデルを更新することと、各制御パラメータ設定値に対応する価値の分布を示す価値マップを生成することと、を含む。
【選択図】図5
特許請求の範囲【請求項1】
第1学習モデルと第2学習モデルとを備える装置において、前記第1学習モデルと前記第2学習モデルとを使用する強化学習を評価するための方法であって、
前記第1学習モデルは、制御対象の観測情報の入力に対応する制御パラメータ設定値を出力するための学習モデルであり、前記第2学習モデルは、前記制御対象の観測情報の入力、前記観測情報に対応する報酬値、および前記制御パラメータ設定値に基づく制御を実行した後に得られる次観測情報に対応する期待値に基づき、前記制御パラメータ設定値に対応する価値を出力するための学習モデルであり、前記装置によって、
強化学習のための制御パラメータ設定値を設定することと、
前記制御パラメータ設定値に対応する前記観測情報を取得することと、
前記第2学習モデルから出力される各制御パラメータ設定値に対応する価値を用いて、前記第1学習モデルから出力される制御パラメータ設定値の価値が大きくなるように、前記第1学習モデルを更新することと、
制御パラメータ設定値に対応する価値の評価のために、各制御パラメータ設定値に対応する価値の分布を示す価値マップを生成することと、
を含む、方法。
続きを表示(約 310 文字)【請求項2】
前記強化学習のための制御パラメータ設定値を設定することは、前記制御パラメータ設定値が設定可能である範囲の全ての値を前記制御パラメータ設定値の値として設定することを含む、請求項1に記載の方法。
【請求項3】
前記価値マップの中に評価対象点を作成し、前記評価対象点の近傍に存在する複数の制御パラメータ設定値に対応する価値を用いて、前記評価対象点に対応する価値を算出することを含む、請求項1に記載の方法。
【請求項4】
前記価値マップを用いて、第1学習モデルから出力される制御パラメータ設定値の価値を定量的に評価することをさらに含む、請求項2または3に記載の方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、制御パラメータに関する深層強化学習の評価方法に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
強化学習を使用して、例えばPID制御などの機器制御に必要な制御パラメータを調節する手法が知られている。強化学習は、一般に、環境から観測状態の情報を得て、環境に対する行動を決定し、その行動の後の環境の観測状態に基づき次の行動を決定する、という動作を繰り返すことで学習を進めるアルゴリズムである。そのため、強化学習によれば、いわゆる教師あり学習とは異なり、教師データを必要としないので、自ら最適解を探索して、未知の制御則を得られる可能性がある。
例えば、特許文献1には、事前強化学習によりPID制御のパラメータに関する学習済みモデルを作成し、その学習済みモデルを装置の制御に利用する手法が開示されている。
【先行技術文献】
【特許文献】
【0003】
特開2021-147228号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ニューラルネットワークを用いる強化学習、すなわち深層強化学習では、前述のように教師データを必要としない。しかし、強化学習のためのデータ収集を学習過程内でアルゴリズムにより自動的に実行するので、強化学習を安定的に進行させることは容易ではない。特に、学習の初期段階で誤った方向に学習が行われると、それが以後の学習進行に影響を与えるため、結果的に適切な学習結果が得られないという問題がある。
【0005】
本開示は、機器制御のための制御パラメータに関して強化学習を適用する際に、所望の方向に学習が進行し、適切な学習結果が得られているか否かを評価するための評価方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る方法は、第1学習モデルと第2学習モデルとを備える装置において、前記第1学習モデルと前記第2学習モデルとを使用する強化学習を評価するための方法である。
第1学習モデルは、制御対象の観測情報の入力に対応する制御パラメータ設定値を出力するための学習モデルであり、第2学習モデルは、前記制御対象の観測情報の入力、前記観測情報に対応する報酬値、および前記制御パラメータ設定値に基づく制御を実行した後に得られる次観測情報に対応する期待値に基づき、前記制御パラメータ設定値に対応する価値を出力するための学習モデルである。
本方法は、前記装置によって、強化学習のための制御パラメータ設定値を設定することと、前記制御パラメータ設定値に対応する観測情報を取得することと、前記第2学習モデルから出力される、各制御パラメータ設定値に対応する価値を用いて、前記第1学習モデルから出力される制御パラメータ設定値の価値が大きくなるように、前記第1学習モデルを更新することと、制御パラメータ設定値に対応する価値の評価のために、各制御パラメータ設定値に対応する価値の分布を示す価値マップを生成することと、を含む。
【発明の効果】
【0007】
本開示の評価方法によれば、強化学習が所望の方向に進行し、適切な学習結果が得られているか、評価することができる。
【図面の簡単な説明】
【0008】
図1は、一実施形態に係る深層強化学習のための装置構成の実施例を示す図である。
図2は、一実施形態に係る深層強化学習の経験過程における処理を示す図である。
図3は、一実施形態に係る深層強化学習の学習過程における処理を示す図である。
図4は、一実施形態に係る深層強化学習の評価過程における処理を示す図である。
図5は、学習評価部に関連する構成を抜粋して示す図である。
図6は、評価過程のための学習評価部の構成の例を示す図である。
図7は、第2学習モデル出力の価値分布をプロットした結果の例を示す図である。
図8は、学習評価部の代替的な構成を示す図である。
図9は、本発明の経験過程、学習過程、および評価過程の流れを示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施の形態について説明する。以下に説明する実施形態は例示であり、この記載によって限定解釈されるものではない。
【0010】
図1は、一実施形態に係る強化学習のための装置構成の実施例を示す。
本装置は、制御部100と学習部200により構成される。
制御部100は、制御対象110を制御するための装置一式であり、指令生成部120、制御器130、観測蓄積部140などを含む。制御対象110としては、例えばモーターの回転速度の制御があり得る。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社明電舎
盤構造
26日前
株式会社明電舎
潤滑油監視装置
3日前
株式会社明電舎
ロッカーボギー車
5日前
株式会社明電舎
セル多重インバータ
4日前
株式会社明電舎
ロータ及び回転電機
17日前
株式会社明電舎
異常検知装置及び異常検知方法
10日前
株式会社明電舎
設備診断システム、設備診断方法
6日前
株式会社明電舎
双方向絶縁型DCDCコンバータ
18日前
株式会社明電舎
オゾン水の生成装置および生成方法
3日前
株式会社明電舎
デバイス固定構造及び電力変換装置
11日前
株式会社明電舎
車両動揺補正装置及び車両動揺補正方法
5日前
株式会社明電舎
PMモータの温度推定装置および温度推定方法
12日前
株式会社明電舎
制御パラメータに関する深層強化学習の評価方法
3日前
株式会社明電舎
水力発電システムの制御方法及び水力発電システム
18日前
株式会社明電舎
3レベルインバータの中性点電位制御装置および中性点電位制御方法
13日前
個人
暗号化記憶媒体
1か月前
個人
環境情報処理装置
17日前
個人
外食予約システム
17日前
個人
求人支援システム
1か月前
個人
電子文書の閲覧用電子機器
3日前
個人
サービス提供システム
10日前
ニデック株式会社
冷却装置
11日前
個人
海外在住支援システム
17日前
株式会社ワコム
電子ペン
20日前
株式会社ワコム
電子ペン
1か月前
個人
施術スタッフ育成システム
4日前
株式会社ワコム
電子ペン
1か月前
シャープ株式会社
情報出力装置
1か月前
株式会社寺岡精工
システム
1か月前
東洋電装株式会社
操作装置
20日前
東洋電装株式会社
操作装置
20日前
東洋電装株式会社
操作装置
20日前
学校法人修道学園
農地集約システム
10日前
株式会社SUBARU
画像処理装置
4日前
株式会社カロニマ
情報発信システム
24日前
トヨタ紡織株式会社
検査装置
1か月前
続きを見る