特許ウォッチ

公開番号2024118218
公報種別公開特許公報(A)
公開日2024-08-30
出願番号2023024533
出願日2023-02-20
発明の名称適合システム及び適合方法
出願人トヨタ自動車株式会社
代理人個人,個人
主分類G05B 13/02 20060101AFI20240823BHJP(制御;調整)
要約【課題】センサの信号のノイズなどによる状態変数の変動が、関数の最適化の終盤において学習の収束を妨げることを抑制できる適合システムを提供する。
【解決手段】適合システムの処理回路は、学習ルーチンの実行回数が既定回数以上且つ終了回数未満である場合(ステップS200:YES)に、第2処理(ステップS210からステップS230)を実行する。第2処理は、各学習ルーチンにおいて第1試行及び第2試行を行い、第1試行及び第2試行のうち報酬が大きかった試行における変更を記憶装置に記録することによって学習ルーチンを終了させる処理である。処理回路は、学習ルーチンの実行回数が終了回数に達した場合(ステップS200:NO)に、第3処理(ステップS240からステップS260)を実行する。第3処理は、複数の変更の要約統計量を算出して制御マップに反映させることで制御マップの最適化を完了させる処理である。
【選択図】図6
特許請求の範囲【請求項１】
処理回路と、記憶装置と、を備え、
前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合システムであり、
前記処理回路が、
前記学習ルーチンの実行回数が既定回数未満である場合に、各学習ルーチンにおいて前記関数から出力される前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第１試行及び第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第１処理を実行し、
前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第１試行及び前記第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第２処理を実行し、
前記学習ルーチンの実行回数が前記終了回数に達した場合に、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第３処理を実行する
適合システム。
続きを表示（約 1,400 文字）【請求項２】
前記関数は、制御開始からの経過時間に応じた前記モータへの前記指令値を出力する制御マップであり、
前記第１試行における前記変更は、前記制御マップにおける経過時間帯毎の前記指令値の値を、既定の調整幅内でそれぞれランダムに調整する前記変更であり、
前記第２試行における前記変更は、前記第１試行の前記変更における経過時間帯毎の前記指令値の調整を、正負を逆にして前記制御マップにおける経過時間帯毎の前記指令値の値に施す前記変更である
請求項１に記載の適合システム。
【請求項３】
前記要約統計量が、平均値である
請求項１に記載の適合システム。
【請求項４】
前記関数が、前記モータによって車両に搭載されているエンジンのクランクシャフトを駆動して前記エンジンをクランキングする際の制御に用いる前記関数であり、
前記試行は、前記モータによって前記エンジンをクランキングして前記エンジンを始動させる前記試行であり、
前記センサは、前記エンジンの機関回転速度を検出するクランクポジションセンサと、前記車両から発せられる音を検出するマイクロフォンと、前記車両の振動を検出する加速度センサと、を含み、
前記状態変数が、前記クランクポジションセンサで検出した機関回転速度と、前記マイクロフォンで検出した音圧と、前記加速度センサで検出した加速度と、を含む
請求項１に記載の適合システム。
【請求項５】
処理回路と、記憶装置と、を備えた適合システムを用いて、
前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する適合方法であり、
前記学習ルーチンの実行回数が既定回数未満であるときに、各学習ルーチンにおいて前記関数が出力する前記指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第１試行及び第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第１処理を前記処理回路に実行させる第１ステップと、
前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第１試行及び前記第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第２処理を前記処理回路に実行させる第２ステップと、
前記学習ルーチンの実行回数が前記終了回数に達したときに、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第３処理を前記処理回路に実行させる第３ステップと、を含む
適合方法。

発明の詳細な説明【技術分野】
【０００１】
この発明はモータの制御に用いる関数を最適化する適合方法及び適合システムに関するものである。
続きを表示（約 2,900 文字）【背景技術】
【０００２】
特許文献１には、モータの電流指令値を学習する機械学習器が開示されている。この機械学習器は、学習過程において、モータを駆動しながら状態変数を取得する。そして、機械学習器は、状態変数に基づいて報酬を算出する。機械学習器は、報酬に基づいて電流指令値を学習する。
【先行技術文献】
【特許文献】
【０００３】
特開２０１８－０１４８３８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
適合システムを用いてモータへの指令値を出力するための関数を自動で最適化する場合、適合システムは、モータを駆動させながら状態変数を取得する試行を行う。適合システムは、状態変数に基づいて算出した報酬を用いて試行の内容を評価する。そして、適合システムは、その評価に応じて関数を更新して学習する。このように適合システムは、試行と、評価と、学習とを繰り返すことによって徐々に関数を更新することによって、関数を最適化する。
【０００５】
関数の最適化が完了に近づくにつれて、学習が次第に収束することが好ましい。しかし、センサからの信号のノイズなどによる状態変数の変動の影響により、学習が収束しにくい場合がある。
【課題を解決するための手段】
【０００６】
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決するための適合システムは、処理回路と、記憶装置と、を備えている。この適合システムでは、前記処理回路が、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返すことによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する。そして、前記処理回路は、前記学習ルーチンの実行回数が既定回数未満である場合に、各学習ルーチンにおいて前記関数から出力される指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第１試行及び第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第１処理を実行する。前記処理回路は、前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満である場合に、各学習ルーチンにおいて前記第１試行及び前記第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第２処理を実行する。前記処理回路は、前記学習ルーチンの実行回数が前記終了回数に達した場合に、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第３処理を実行する。
【０００７】
上記課題を解決するための適合方法は、処理回路と、記憶装置と、を備えた適合システムを用いて、モータを制御する制御装置に記憶させる関数を最適化する適合方法である。この適合方法は、前記処理回路に、モータへの指令値を出力する関数に変更を加えた状態でセンサによって状態変数を取得しながら前記モータを駆動する試行と、取得した前記状態変数に基づいて報酬を算出する評価と、前記報酬に基づいて前記関数を更新する学習と、を含む学習ルーチンを繰り返し実行させることによって、前記モータを制御する制御装置に記憶させる前記関数を最適化する。この適合方法は、前記学習ルーチンの実行回数が既定回数未満であるときに、各学習ルーチンにおいて前記関数が出力する指令値をそれぞれ正負が逆の方向に調整するように前記関数に前記変更を加えた第１試行及び第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させることで前記関数を更新して前記学習ルーチンを終了させる第１処理を前記処理回路に実行させる第１ステップを含む。この適合方法は、前記学習ルーチンの実行回数が前記既定回数以上且つ前記既定回数よりも多い終了回数未満であるときに、各学習ルーチンにおいて前記第１試行及び前記第２試行を行い、前記第１試行及び前記第２試行のうち前記報酬が大きかった前記試行における前記変更を前記関数に反映させずに前記記憶装置に記録することによって前記学習ルーチンを終了させる第２処理を前記処理回路に実行させる第２ステップを含む。この適合方法は、前記学習ルーチンの実行回数が前記終了回数に達したときに、前記関数に反映されずに前記記憶装置に記憶されている複数の前記変更の要約統計量を算出して、前記要約統計量に基づく前記変更を前記関数に反映させることで前記学習ルーチンを終了させて前記関数の最適化を完了させる第３処理を前記処理回路に実行させる第３ステップを含む。
【発明の効果】
【０００８】
センサの信号のノイズなどによる状態変数の変動が、関数の最適化の終盤において学習の収束を妨げることを抑制できる。
【図面の簡単な説明】
【０００９】
図１は、適合システムの構成、並びに同適合システムと車両との関係を示す模式図である。
図２は、車両のパワートレーンの構成を示す模式図である。
図３は、エンジンを始動する際の（ａ）モータジェネレータのトルクの推移と、（ｂ）点火の有無と、（ｃ）機関回転速度の推移と、を示すタイムチャートである。
図４は、トルクの指令値の制御マップの一例を説明するための説明図である。
図５は、適合システムが実行する一連の処理の流れの一部を示すフローチャートである。
図６は、適合システムが実行する一連の処理の流れの一部を示すフローチャートである。
【発明を実施するための形態】
【００１０】
以下、適合システムの一実施形態について、図１から図６を参照して説明する。
＜適合システム１００の構成＞
図１に示すように適合システム１００は、処理回路１０１と、記憶装置１０２とを備えている。記憶装置１０２は、プログラムやデータを記憶している。処理回路１０１は記憶装置１０２に記憶されているプログラムを実行する。適合システム１００は、車両１０に搭載されている制御装置２０に記憶させる関数を最適化する。車両１０は、ハイブリッドシステム３０を搭載している。制御装置２０は、ハイブリッドシステム３０を制御する。
（【００１１】以降は省略されています）

関連特許