TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024118218
公報種別
公開特許公報(A)
公開日
2024-08-30
出願番号
2023024533
出願日
2023-02-20
発明の名称
適合システム及び適合方法
出願人
トヨタ自動車株式会社
代理人
個人
,
個人
主分類
G05B
13/02 20060101AFI20240823BHJP(制御;調整)
要約
【課題】センサの信号のノイズなどによる状態変数の変動が、関数の最適化の終盤において学習の収束を妨げることを抑制できる適合システムを提供する。
【解決手段】適合システムの処理回路は、学習ルーチンの実行回数が既定回数以上且つ終了回数未満である場合(ステップS200:YES)に、第2処理(ステップS210からステップS230)を実行する。第2処理は、各学習ルーチンにおいて第1試行及び第2試行を行い、第1試行及び第2試行のうち報酬が大きかった試行における変更を記憶装置に記録することによって学習ルーチンを終了させる処理である。処理回路は、学習ルーチンの実行回数が終了回数に達した場合(ステップS200:NO)に、第3処理(ステップS240からステップS260)を実行する。第3処理は、複数の変更の要約統計量を算出して制御マップに反映させることで制御マップの最適化を完了させる処理である。
【選択図】図6
特許請求の範囲
【請求項1】
処理回路と、記憶装置と、を備え、
前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合システムであり、
前記処理回路が、
前記学習ルーチンの実行回数が既定回数未満である場合に、各学習ルーチンにおいて前記関数から出力される前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を実行し、
前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第1試行及び前記第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第2処理を実行し、
前記学習ルーチンの実行回数が前記終了回数に達した場合に、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第3処理を実行する
適合システム。
続きを表示(約 1,400 文字)
【請求項2】
前記関数は、制御開始からの経過時間に応じた前記モータへの前記指令値を出力する制御マップであり、
前記第1試行における前記変更は、前記制御マップにおける経過時間帯毎の前記指令値の値を、既定の調整幅内でそれぞれランダムに調整する前記変更であり、
前記第2試行における前記変更は、前記第1試行の前記変更における経過時間帯毎の前記指令値の調整を、正負を逆にして前記制御マップにおける経過時間帯毎の前記指令値の値に施す前記変更である
請求項1に記載の適合システム。
【請求項3】
前記要約統計量が、平均値である
請求項1に記載の適合システム。
【請求項4】
前記関数が、前記モータによって車両に搭載されているエンジンのクランクシャフトを駆動して前記エンジンをクランキングする際の制御に用いる前記関数であり、
前記試行は、前記モータによって前記エンジンをクランキングして前記エンジンを始動させる前記試行であり、
前記センサは、前記エンジンの機関回転速度を検出するクランクポジションセンサと、前記車両から発せられる音を検出するマイクロフォンと、前記車両の振動を検出する加速度センサと、を含み、
前記状態変数が、前記クランクポジションセンサで検出した機関回転速度と、前記マイクロフォンで検出した音圧と、前記加速度センサで検出した加速度と、を含む
請求項1に記載の適合システム。
【請求項5】
処理回路と、記憶装置と、を備えた適合システムを用いて、
前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合方法であり、
前記学習ルーチンの実行回数が既定回数未満であるときに、各学習ルーチンにおいて前記関数が出力する前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路に実行させる第1ステップと、
前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第1試行及び前記第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第2処理を前記処理回路に実行させる第2ステップと、
前記学習ルーチンの実行回数が前記終了回数に達したときに、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第3処理を前記処理回路に実行させる第3ステップと、を含む
適合方法。
発明の詳細な説明
【技術分野】
【0001】
この発明はモータの制御に用いる関数を最適化する適合方法及び適合システムに関するものである。
続きを表示(約 2,900 文字)
【背景技術】
【0002】
特許文献1には、モータの電流指令値を学習する機械学習器が開示されている。この機械学習器は、学習過程において、モータを駆動しながら状態変数を取得する。そして、機械学習器は、状態変数に基づいて報酬を算出する。機械学習器は、報酬に基づいて電流指令値を学習する。
【先行技術文献】
【特許文献】
【0003】
特開2018-014838号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
適合システムを用いてモータへの指令値を出力するための関数を自動で最適化する場合、適合システムは、モータを駆動させながら状態変数を取得する試行を行う。適合システムは、状態変数に基づいて算出した報酬を用いて試行の内容を評価する。そして、適合システムは、その評価に応じて関数を更新して学習する。このように適合システムは、試行と、評価と、学習とを繰り返すことによって徐々に関数を更新することによって、関数を最適化する。
【0005】
関数の最適化が完了に近づくにつれて、学習が次第に収束することが好ましい。しかし、センサからの信号のノイズなどによる状態変数の変動の影響により、学習が収束しにくい場合がある。
【課題を解決するための手段】
【0006】
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決するための適合システムは、処理回路と、記憶装置と、を備えている。この適合システムでは、前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する。そして、前記処理回路は、前記学習ルーチンの実行回数が既定回数未満である場合に、各学習ルーチンにおいて前記関数から出力される指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を実行する。前記処理回路は、前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第1試行及び前記第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第2処理を実行する。前記処理回路は、前記学習ルーチンの実行回数が前記終了回数に達した場合に、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第3処理を実行する。
【0007】
上記課題を解決するための適合方法は、処理回路と、記憶装置と、を備えた適合システムを用いて、モータを制御する制御装置に記憶させる関数を最適化する適合方法である。この適合方法は、前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する。この適合方法は、前記学習ルーチンの実行回数が既定回数未満であるときに、各学習ルーチンにおいて前記関数が出力する指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第1試行及び第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第1処理を前記処理回路に実行させる第1ステップを含む。この適合方法は、前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満であるときに、各学習ルーチンにおいて前記第1試行及び前記第2試行を行い、前記第1試行及び前記第2試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第2処理を前記処理回路に実行させる第2ステップを含む。この適合方法は、前記学習ルーチンの実行回数が前記終了回数に達したときに、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第3処理を前記処理回路に実行させる第3ステップを含む。
【発明の効果】
【0008】
センサの信号のノイズなどによる状態変数の変動が、関数の最適化の終盤において学習の収束を妨げることを抑制できる。
【図面の簡単な説明】
【0009】
図1は、適合システムの構成、並びに同適合システムと車両との関係を示す模式図である。
図2は、車両のパワートレーンの構成を示す模式図である。
図3は、エンジンを始動する際の(a)モータジェネレータのトルクの推移と、(b)点火の有無と、(c)機関回転速度の推移と、を示すタイムチャートである。
図4は、トルクの指令値の制御マップの一例を説明するための説明図である。
図5は、適合システムが実行する一連の処理の流れの一部を示すフローチャートである。
図6は、適合システムが実行する一連の処理の流れの一部を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、適合システムの一実施形態について、図1から図6を参照して説明する。
<適合システム100の構成>
図1に示すように適合システム100は、処理回路101と、記憶装置102とを備えている。記憶装置102は、プログラムやデータを記憶している。処理回路101は記憶装置102に記憶されているプログラムを実行する。適合システム100は、車両10に搭載されている制御装置20に記憶させる関数を最適化する。車両10は、ハイブリッドシステム30を搭載している。制御装置20は、ハイブリッドシステム30を制御する。
(【0011】以降は省略されています)
特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る