TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025174914
公報種別公開特許公報(A)
公開日2025-11-28
出願番号2025081037
出願日2025-05-14
発明の名称産業プロセスシステムの強化学習エージェントをトレーニングする方法、及び産業プロセスシステムの強化学習エージェントをトレーニングするシステム
出願人アーベーベー・シュバイツ・アーゲー,ABB Schweiz AG
代理人弁理士法人鈴榮特許綜合事務所
主分類G06N 20/00 20190101AFI20251120BHJP(計算;計数)
要約【課題】産業プロセスシステムのための強化学習(RL)エージェントをトレーニングするための方法を提供する。
【解決手段】方法は、産業プロセスシステムのプラント履歴データを用いてRLエージェントをトレーニングするステップ110と、プラント履歴データ及び産業プロセスシステムの低忠実度シミュレータを使用してRLエージェントを再トレーニングするステップ120と、を含む。ステップ120は、RLエージェントをトレーニングする間に探索されなかったプロセス状態及び動的挙動の領域としてホワイトスポットを識別するようにプラント履歴データを分析するステップ130と、ホワイトスポットから得られた情報と、低忠実度シミュレータを用いて産業プロセスシステムをシミュレートすることによって提供されたシミュレートされたデータとを用いた優先的な探索によってRLエージェントを再トレーニングするステップ140と、を含む。
【選択図】図1
特許請求の範囲【請求項1】
産業プロセスシステムの強化学習、RL、エージェントをトレーニングするための方法であって、
前記RLエージェントを前記産業プロセスシステムのプラント履歴データを用いてトレーニングすることと、
前記プラント履歴データと産業プロセスシステムの低忠実度シミュレータとを使用して、前記RLエージェントを再トレーニングすることとを備え、前記RLエージェントを再トレーニングすることは、
前記RLエージェントのトレーニング中に探索されなかったプロセス状態及び動的挙動の領域としてホワイトスポットを識別するように前記プラント履歴データを分析することと、
前記ホワイトスポットから得られた情報と、前記低忠実度シミュレータを用いて前記産業プロセスシステムをシミュレートすることによって提供されたシミュレートされたデータとを用いて、優先順位付けされた探索によって前記RLエージェントを再トレーニングすることとを備える、方法。
続きを表示(約 1,300 文字)【請求項2】
ホワイトスポットを識別するために前記プラント履歴データを分析することは、
プロセス状態変数の下限及びプロセス状態変数の上限からなるグループから選択された少なくとも1つの境界を取り出すことと、
前記下限及び前記上限からなるグループから選択される境界のうちの少なくとも1つを使用して変数空間探索によって前記ホワイトスポットを識別することとを備える、請求項1に記載の方法。
【請求項3】
プラント履歴データの内の少なくとも1つから、又は前記優先順位付けされた探索によって、安全関連変数のダイナミクスを推論することと、
操作変数の値に基づいて安全変数を予測するように構成された安全検証器を構築するように前記安全関連変数のダイナミクスを活用することとを備える、請求項1又は2に記載の方法。
【請求項4】
予測された安全変数を予め定められた安全制約と比較することと、
前記安全制約との前記安全変数のコンプライアンスを確実にするように操作された変数の値を調整することとを備える、請求項3に記載の方法。
【請求項5】
不十分な学習及び前記安全変数の安全制約への不適合からなるグループから選択される少なくとも1つのインシデントに起因して前記安全検証器が故障した場合、前記産業プロセスシステムは、安全保証器によって予め規定された安全状態に操作される、請求項3に記載の方法。
【請求項6】
不十分な学習及び/又は前記安全変数の前記安全制約への不適合に起因して前記安全検証器が故障した場合、前記産業プロセスシステムは、安全保証器によって予め規定された安全状態に操作される、請求項4に記載の方法。
【請求項7】
高忠実度シミュレータを使用することによって、前記RLエージェントを前記産業プロセスシステムと相互作用させることによって、プラント履歴データを使用することによって、又はそれらの組み合わせによって、前記RLエージェントを微調整することを備える、請求項1又は2に記載の方法。
【請求項8】
高忠実度シミュレータを使用することによって、前記RLエージェントを前記産業プロセスシステムと相互作用させることによって、プラント履歴データを使用することによって、又はそれらの組み合わせによって、前記RLエージェントを微調整することを備える、請求項3に記載の方法。
【請求項9】
高忠実度シミュレータを使用することによって、前記RLエージェントを前記産業プロセスシステムと相互作用させることによって、プラント履歴データを使用することによって、又はそれらの組み合わせによって、前記RLエージェントを微調整することを備える、請求項4に記載の方法。
【請求項10】
高忠実度シミュレータを使用することによって、前記RLエージェントを前記産業プロセスシステムと相互作用させることによって、プラント履歴データを使用することによって、又はそれらの組み合わせによって、前記RLエージェントを微調整することを備える、請求項5に記載の方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、産業プロセスシステムの強化学習エージェントの分野にある。本出願の実施形態は、産業プロセスシステムのための強化学習エージェントをトレーニングするための方法、及び産業プロセスシステムのための強化学習エージェントをトレーニングするためのシステムに関する。
続きを表示(約 2,100 文字)【背景技術】
【0002】
強化学習ベースの制御は、産業プロセス制御に対する有望な新規のアプローチである。強化学習エージェントは、産業プロセスシステムにおいて使用され得る。産業プロセスシステムで使用するために、強化学習エージェントは、特定の産業プロセスシステムに対してトレーニングされなければならない。産業プロセスシステムのための強化学習エージェントのトレーニングは、複数の理由により困難である。
【0003】
サンプルの複雑さが高いため、あるレベルの性能を達成するためには、トレーニング中に多数の経験、すなわちプロセス挙動に関する情報が必要とされる。さらに、安全性及び経済的な懸念のために、強化学習エージェントは、実際の産業プロセスシステム上でトレーニングすることができない。1つの解決策は、強化学習エージェントをトレーニングするために高忠実度プロセスシミュレータを使用することである。しかし、高忠実度プロセスシミュレータの開発は、膨大な時間、金銭的、及び計算コストを必要とする。また、強化学習エージェントの性能は、トレーニングが実行されるモデルと実際のプロセスとの間の固有の不一致に起因して、さらには産業プロセスシステムの変化するダイナミクスに起因して、準最適であり得る。さらに、コストのかかる故障及び事故を防止するために、エージェントは、トレーニング中及び展開中に産業プロセスシステムの安全な領域を探索することしかできない。
【0004】
したがって、産業プロセスシステムの強化学習エージェントをトレーニングするためのより効果的な方法及びシステムが必要とされている。
【0005】
本発明は、独立請求項に従って、産業プロセスシステムのための強化学習エージェントをトレーニングするための方法、及び産業プロセスシステムのための強化学習エージェントをトレーニングするためのシステムを提供することによって、これらの問題に対処する。
【発明の概要】
【0006】
本開示の様々な実施形態への参照が詳細に行われ、それらの1つ以上の例が各図面に図示される。一般的に、個々の実施形態に関する違いのみが説明される。各例は、説明のために提供され、本開示の限定として意図されない。一実施形態の一部として図示又は説明される特徴は、他の実施形態上で、又は他の実施形態と併せて使用され、またさらなる実施形態をもたらすことができる。本明細書は、そのような修正及び変形を含むことが意図される。
【0007】
比例積分微分(PID)制御、モデル予測制御(MPC)、及び高度プロセス制御(APC)などの従来の制御方法と比較して、強化学習(RL)ベースの制御は、非線形挙動を有する複雑なシステムを扱うことができるため、際立っている。プロセスとの相互作用から学習し、多様な目的を最適化するその能力は、それを動的な解決策として区別する。さらに、RL制御は、従来の産業用制御戦略に関連する手動のモデリング及び調整の労力を大幅に低減しながら、発展する動作条件及び障害に適応することに優れている。
【0008】
産業プロセス制御に強化学習を適用すること、例えば強化学習エージェントを提供することは、課題を提起する。サンプル効率は、特にRLエージェントのトレーニング及びメンテナンス中の、産業プロセスシステムにおけるRLエージェントの主要な課題の1つである。RLアルゴリズムは、従来、効果的なポリシーを学習するために、プロセス及び/又は環境との多数の対話を必要とする。したがって、本発明の目的は、産業プロセスのためのRLエージェントをトレーニングするために必要なサンプルの数を減らすこと、及び/又はRLエージェントをトレーニングするためのサンプルをより効率的に提供すること、特に優れた性能を達成することである。
【0009】
多くの産業環境では、実際の動作環境においてRLエージェントを最初からトレーニングすることは、実現不可能及び/又は安全でない場合がある。RLエージェントの所望の精度を達成するために、トレーニング段階中に高忠実度シミュレータを使用することができる。高忠実度シミュレータの欠点は、それらが高価であり、これらのシミュレータの実行が、複数ヶ月のトレーニング時間をもたらす可能性があることである。さらに、多くの産業システムは、高次元の状態及びアクション空間を特徴とする。従来のRLアルゴリズムは、そのような複雑な環境を効率的にナビゲートすることに苦労することがある。したがって、本発明の目的は、連続的で高次元の空間を扱うことができる方法を提供することである。
【0010】
さらに、RLエージェントは、最適なポリシーを取得するだけでなく、環境の変動に対する回復力を示しながら、厳しい安全制約にも準拠しなければならないので、安全性が優先される。本発明のさらなる目的は、経時的に発展する条件にリアルタイムで適応し、それらのロバスト性を保証するための機構を確立することである。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
RFタグシート
1か月前
個人
職業自動販売機
14日前
個人
5掛けポイント
21日前
個人
ペルソナ認証方式
29日前
個人
地球保全システム
1か月前
個人
QRコードの彩色
1か月前
個人
自動調理装置
1か月前
個人
情報処理装置
24日前
個人
農作物用途分配システム
1か月前
個人
残土処理システム
1か月前
個人
表変換編集支援システム
2か月前
個人
インターネットの利用構造
28日前
個人
タッチパネル操作指代替具
1か月前
個人
サービス情報提供システム
16日前
個人
知的財産出願支援システム
1か月前
個人
スケジュール調整プログラム
1か月前
個人
パスワード管理支援システム
2か月前
個人
携帯端末障害問合せシステム
1か月前
株式会社キーエンス
受発注システム
1か月前
個人
海外支援型農作物活用システム
2か月前
株式会社キーエンス
受発注システム
1か月前
株式会社キーエンス
受発注システム
1か月前
個人
システム及びプログラム
2か月前
個人
エリアガイドナビAIシステム
29日前
個人
AIキャラクター制御システム
2か月前
個人
食品レシピ生成システム
1か月前
個人
音声対話型帳票生成支援システム
2か月前
個人
人格進化型対話応答制御システム
2か月前
個人
社会還元・施設向け供給支援構造
2か月前
キヤノン株式会社
情報処理装置
8日前
キヤノン株式会社
情報処理装置
8日前
株式会社ワコム
電子ペン
23日前
株式会社ワコム
電子ペン
23日前
株式会社ケアコム
項目選択装置
24日前
続きを見る