TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024118219
公報種別
公開特許公報(A)
公開日
2024-08-30
出願番号
2023024534
出願日
2023-02-20
発明の名称
適合システム及び適合方法
出願人
トヨタ自動車株式会社
代理人
個人
,
個人
主分類
G05B
13/02 20060101AFI20240823BHJP(制御;調整)
要約
【課題】センサの信号のノイズなどによる状態変数の変動が、制御マップの最適化の終盤において学習の収束を妨げることを抑制できる適合システムを提供する。
【解決手段】適合システムの処理回路は、既定の条件が成立するまで(ステップS130:NO)は、各学習ルーチンにおいて第1試行及び第2試行を行い、報酬が大きかった一方の試行における変更を制御マップに反映させて学習ルーチンを終了させる第1処理(ステップS140からステップS180)を実行する。処理回路は、既定の条件が成立した後(ステップS130:YES)は、各学習ルーチンにおいて第1試行及び第2試行を複数回ずつ行い(ステップS190及びステップS200)、複数回の第1試行の報酬と複数回の第2試行の報酬とを比較して報酬が大きかった一方の試行における変更を制御マップに反映させて学習ルーチンを終了させる第2処理を実行する。
【選択図】図5
特許請求の範囲
【請求項1】
処理回路と、記憶装置と、を備え、
前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合システムであり、
最適化が終盤まで進行したことを判定するための既定の条件が成立するまでは、各学習ルーチンにおいて前記関数から出力される前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路が実行し、
前記既定の条件が成立した後は、各学習ルーチンにおいて前記第1試行及び前記第2試行を複数回ずつ行い、複数回の前記第1試行の前記報酬と複数回の前記第2試行の前記報酬とを比較して前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第2処理を前記処理回路が実行する
適合システム。
続きを表示(約 1,300 文字)
【請求項2】
前記第2処理において、前記第1試行及び前記第2試行のうち複数回の前記試行の前記報酬の平均値が他方よりも大きい一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる
請求項1に記載の適合システム。
【請求項3】
前記関数は、制御開始からの経過時間に応じた前記モータへの前記指令値を出力する制御マップであり、
前記第1試行における前記変更は、前記制御マップにおける経過時間帯毎の前記指令値の値を、既定の調整幅内でそれぞれランダムに調整する前記変更であり、
前記第2試行における前記変更は、前記第1試行の前記変更における経過時間帯毎の前記指令値の調整を、正負を逆にして前記制御マップにおける経過時間帯毎の前記指令値の値に施す前記変更である
請求項1に記載の適合システム。
【請求項4】
前記関数が、前記モータによって車両に搭載されているエンジンのクランクシャフトを駆動して前記エンジンをクランキングする際の制御に用いる前記関数であり、
前記試行は、前記モータによって前記エンジンをクランキングして前記エンジンを始動させる前記試行であり、
前記センサは、前記エンジンの機関回転速度を検出するクランクポジションセンサと、前記車両から発せられる音を検出するマイクロフォンと、前記車両の振動を検出する加速度センサと、を含み、
前記状態変数が、前記クランクポジションセンサで検出した機関回転速度と、前記マイクロフォンで検出した音圧と、前記加速度センサで検出した加速度と、を含む
請求項1に記載の適合システム。
【請求項5】
処理回路と、記憶装置と、を備えた適合システムを用いて、
前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合方法であり、
最適化が終盤まで進行したことを判定するための既定の条件が成立するまで、各学習ルーチンにおいて前記関数が出力する前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路に実行させる第1ステップと、
前記既定の条件が成立した後に、各学習ルーチンにおいて前記第1試行及び前記第2試行を複数回ずつ行い、複数回の前記第1試行の前記報酬と複数回の前記第2試行の前記報酬とを比較して前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第2処理を前記処理回路に実行させる第2ステップと、を含む
適合方法。
発明の詳細な説明
【技術分野】
【0001】
この発明はモータの制御に用いる関数を最適化する適合方法及び適合システムに関するものである。
続きを表示(約 2,600 文字)
【背景技術】
【0002】
特許文献1には、モータの電流指令値を学習する機械学習器が開示されている。この機械学習器は、学習過程において、モータを駆動しながら状態変数を取得する。そして、機械学習器は、状態変数に基づいて報酬を算出する。機械学習器は、報酬に基づいて電流指令値を学習する。
【先行技術文献】
【特許文献】
【0003】
特開2018-014838号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
適合システムを用いてモータへの指令値を出力するための関数を自動で最適化する場合、適合システムは、モータを駆動させながら状態変数を取得する試行を行う。適合システムは、状態変数に基づいて算出した報酬を用いて試行の内容を評価する。そして、適合システムは、その評価に応じて関数を更新して学習する。このように適合システムは、試行と、評価と、学習とを繰り返すことによって徐々に関数を更新することによって、関数を最適化する。
【0005】
関数の最適化が完了に近づくにつれて、学習が次第に収束することが好ましい。しかし、センサからの信号のノイズなどによる状態変数の偶発的な変動の影響により、学習が収束しにくい場合がある。
【課題を解決するための手段】
【0006】
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決するための適合システムは、処理回路と、記憶装置と、を備えている。この適合システムでは、前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する。そして、この適合システムでは、最適化が終盤まで進行したことを判定するための既定の条件が成立するまでは、各学習ルーチンにおいて前記関数から出力される前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路が実行する。この適合システムでは、前記既定の条件が成立した後は、各学習ルーチンにおいて前記第1試行及び前記第2試行を複数回ずつ行い、複数回の前記第1試行の前記報酬と複数回の前記第2試行の前記報酬とを比較して前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第2処理を前記処理回路が実行する。
【0007】
上記課題を解決するための適合方法は、処理回路と、記憶装置と、を備えた適合システムを用いて、モータを制御する制御装置に記憶させる関数を最適化する適合方法である。この適合方法は、前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記関数を最適化する。この適合方法は、最適化が終盤まで進行したことを判定するための既定の条件が成立するまで、各学習ルーチンにおいて前記関数が出力する前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路に実行させる第1ステップを含む。この適合方法は、前記既定の条件が成立した後に、各学習ルーチンにおいて前記第1試行及び前記第2試行を複数回ずつ行い、複数回の前記第1試行の前記報酬と複数回の前記第2試行の前記報酬とを比較して前記第1試行及び前記第2試行のうち前記報酬が大きかった一方の前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第2処理を前記処理回路に実行させる第2ステップを含む。
【発明の効果】
【0008】
センサの信号のノイズなどによる状態変数の変動が、関数の最適化の終盤において学習の収束を妨げることを抑制できる。
【図面の簡単な説明】
【0009】
図1は、適合システムの構成、並びに同適合システムと車両との関係を示す模式図である。
図2は、車両のパワートレーンの構成を示す模式図である。
図3は、エンジンを始動する際の(a)モータジェネレータのトルクの推移と、(b)点火の有無と、(c)機関回転速度の推移と、を示すタイムチャートである。
図4は、トルクの指令値の制御マップの一例を説明するための説明図である。
図5は、適合システムが実行する一連の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、適合システムの一実施形態について、図1から図5を参照して説明する。
<適合システム100の構成>
図1に示すように適合システム100は、処理回路101と、記憶装置102とを備えている。記憶装置102は、プログラムやデータを記憶している。処理回路101は記憶装置102に記憶されているプログラムを実行する。適合システム100は、車両10に搭載されている制御装置20に記憶させる関数を最適化する。車両10は、ハイブリッドシステム30を搭載している。制御装置20は、ハイブリッドシステム30を制御する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
トヨタ自動車株式会社
車両
13日前
トヨタ自動車株式会社
車両
6日前
トヨタ自動車株式会社
車両
8日前
トヨタ自動車株式会社
電池
今日
トヨタ自動車株式会社
車両
13日前
トヨタ自動車株式会社
車両
13日前
トヨタ自動車株式会社
組立体
2日前
トヨタ自動車株式会社
組電池
6日前
トヨタ自動車株式会社
電動車両
13日前
トヨタ自動車株式会社
二次電池
7日前
トヨタ自動車株式会社
伸縮装置
1日前
トヨタ自動車株式会社
移動装置
2日前
トヨタ自動車株式会社
制御装置
1日前
トヨタ自動車株式会社
締結工具
今日
トヨタ自動車株式会社
推定装置
13日前
トヨタ自動車株式会社
ワッシャ
13日前
トヨタ自動車株式会社
電動車両
7日前
トヨタ自動車株式会社
充電装置
1日前
トヨタ自動車株式会社
冷却装置
7日前
トヨタ自動車株式会社
表示装置
8日前
トヨタ自動車株式会社
支援装置
6日前
トヨタ自動車株式会社
教示方法
13日前
トヨタ自動車株式会社
二次電池
2日前
トヨタ自動車株式会社
二次電池
2日前
トヨタ自動車株式会社
電源装置
6日前
トヨタ自動車株式会社
走行装置
13日前
トヨタ自動車株式会社
燃料電池
2日前
トヨタ自動車株式会社
スペーサ
6日前
トヨタ自動車株式会社
端末装置
今日
トヨタ自動車株式会社
電池パック
1日前
トヨタ自動車株式会社
燃料系配管
今日
トヨタ自動車株式会社
電気自動車
13日前
トヨタ自動車株式会社
電池パック
1日前
トヨタ自動車株式会社
電池パック
14日前
トヨタ自動車株式会社
車両制御装置
7日前
トヨタ自動車株式会社
部品締結構造
2日前
続きを見る
他の特許を見る