TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024153964
公報種別
公開特許公報(A)
公開日
2024-10-30
出願番号
2023067503
出願日
2023-04-18
発明の名称
社会インフラ制御システム
出願人
株式会社DeTwin
代理人
個人
主分類
G06N
3/092 20230101AFI20241023BHJP(計算;計数)
要約
【課題】自律的に最適制御を行うことができる社会インフラ制御システムを提供する。
【解決手段】社会インフラ制御システム10は、状態および報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を社会インフラ50に出力するデータ学習部24を備える。データ学習部24は、第1深層強化学習エージェント30および第2深層強化学習エージェント40を有する。第1深層強化学習エージェント30は、深層学習により状態の価値とリスクと制御値とを予測する。第1深層強化学習エージェント30の学習は、社会インフラ50の目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、データ保存部で蓄積された社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含む。
【選択図】図3
特許請求の範囲
【請求項1】
社会インフラを制御する社会インフラ制御システムであって、
前記社会インフラに関係するデータであって、少なくとも、前記社会インフラに設けられる各種センサからのセンサデータを収集するデータ収集部と、
前記データ収集部により収集されたデータの質的な制御である前処理を行うデータ処理部と、
前記収集されたデータおよび前記前処理されたデータを保存するデータ保存部と、
前記前処理されたデータであって、前記社会インフラの現状を示すデータに相当する状態に基づいて報酬を決定する報酬決定部と、
前記状態および前記報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を前記社会インフラに出力するデータ学習部と、
を備え、
前記データ学習部は、第1深層強化学習エージェントおよび第2深層強化学習エージェントを有し、
前記第1深層強化学習エージェントは、深層学習により前記状態の価値とリスクと前記制御値とを予測し、
前記第1深層強化学習エージェントの学習は、前記社会インフラの目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、前記データ保存部で蓄積された前記社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含み、
前記第1深層強化学習エージェントは、新しく収集されたデータを用いて前記モデルベースの学習アルゴリズムおよび前記モデルフリーの学習アルゴリズムを共に再学習させ、さらに、前記モデルフリーの学習アルゴリズムに前記モデルベースの学習アルゴリズムの入出力関係を学習させ、
前記第2深層強化学習エージェントは、状態空間に設計される報酬関数に従い前記状態に基づいて第2の報酬を出力し、当該第2の報酬に基づいて深層学習により異常スコアを予測し、
前記異常スコアは、前記データ保存部で蓄積された過去データのパターンと異なるデータパターンが入力されると上げられ、
前記第1深層強化学習エージェントが深層学習により前記リスクを予測するネットワーク部には、前記第2深層強化学習エージェントからの前記異常スコアが入力され、
前記第2深層強化学習エージェントは、前記異常スコアの予測性能が低下した場合、過去のデータと比較して前記社会インフラの運転範囲の境界を越えているのか、あるいは入力データのパターンが変化しているのかの原因を、前記入力データに基づき予測するアルゴリズム管理部を有し、
前記アルゴリズム管理部による、前記入力データのパターンが変化しているかどうかの検定は、統計的な検定を用いて行われ、
前記第2深層強化学習エージェントは、前記アルゴリズム管理部により前記社会インフラの運転範囲の境界を越えていると判定された場合、新しいデータを用いて再学習を行う、社会インフラ制御システム。
続きを表示(約 650 文字)
【請求項2】
前記データ処理部は、前記収集されたデータから物理法則の式を用いて他の新たな情報を取得し、当該新たな情報を前記前処理されたデータとして追加する、請求項1に記載の社会インフラ制御システム。
【請求項3】
前記第1深層強化学習エージェントが複数設けられ、当該複数の第1深層強化学習エージェントが前記第2深層強化学習エージェントの出力に並列に配置され、互いに連携して学習する、請求項1に記載の社会インフラ制御システム。
【請求項4】
前記複数の第1深層強化学習エージェントからなるマルチエージェントは、リスクの高い行動が検出されると、当該行動に基づく制御に関連したデータを削除して前記データ保存部に保存しない、請求項3に記載の社会インフラ制御システム。
【請求項5】
前記第2深層強化学習エージェントは、人間の専門家であるエキスパートの知識がリアルタイムで入力できるように、データを可視化する表示部を用いて、前記エキスパートに向けてリアルタイムにデータ変動範囲、許容境界、データセット基準を表示させる協調部を有し、
前記第2深層強化学習エージェントは、前記アルゴリズム管理部により前記社会インフラの運転範囲の境界を越えていると判定された場合、前記運転範囲の境界を超えた入力データに対して、前記協調部によって前記エキスパートから知識を得て、前記運転範囲およびデータの基準値を見直して再学習を行う、請求項1に記載の社会インフラ制御システム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、社会インフラを制御する社会インフラ制御システムに関する。
続きを表示(約 2,500 文字)
【背景技術】
【0002】
従来、現実空間にある多様なデータを収集し、それらのデータを基に仮想空間で各対象をモデル化して予測分析し、その結果として得られた最適化制御を現実空間に対して行う技術が知られている。特許文献1には、産業の主要業績評価指標を最適化するために1つ以上の産業処理ユニットからの複数のデータを分析するシステムが提案されている。
【先行技術文献】
【特許文献】
【0003】
特開2018-195308号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば多くの機器から構成されるプラントなどの社会インフラを制御する際、従来のように仮装空間のモデルで学習して得られた最適化制御を現実空間の社会インフラに対して行うことが考えられる。しかし上記のようなモデルベースの学習の場合、仮装空間のモデルでは最適化された制御であっても、現実空間の社会インフラでは必ずしも最適化されているとは限らない。より良い制御動作(最適運転点)を見つけるべく、モデルを改良することも考えられるが、未知の環境を完全に再現するのは難しい。現実に既に存在しているデータは偏っている場合が多く存在し、社会インフラの安全を確実に守りつつ、自律的にデータ探索とその大局的な最適点を求めることは困難となっている。
【0005】
本発明の目的は、自律的に安全な最適制御を行うことができる社会インフラ制御システムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る社会インフラ制御システムは、社会インフラに関係するデータ(センサーデータ、テキスト記録データなどを含む)であって、少なくとも、社会インフラに設けられる各種センサからのセンサデータを収集するデータ収集部と、データ収集部により収集されたデータの質的な制御である前処理を行うデータ処理部と、収集されたデータおよび前処理されたデータを保存するデータ保存部と、前処理されたデータであって、社会インフラの現状を示すデータに相当する状態に基づいて報酬を決定する報酬決定部と、状態および報酬を用いて深層強化学習アルゴリズムを実行し、得られた制御値を社会インフラに出力するデータ学習部と、を備える。
【0007】
データ学習部は、第1深層強化学習エージェントおよび第2深層強化学習エージェントを有する。
第1深層強化学習エージェントは、深層学習により状態の価値とリスクと制御値とを予測する。第1深層強化学習エージェントの学習は、社会インフラの目標指標を予測するモデルが作成されて、当該モデルの振る舞いを学習するモデルベースの学習と、データ保存部で蓄積された社会インフラの現実世界のデータからサンプリングにより深層学習の重み量を調整するモデルフリーの学習とを含む。第1深層強化学習エージェントは、新しく収集されたデータを用いてモデルベースの学習アルゴリズムおよびモデルフリーの学習アルゴリズムを共に再学習させ、さらに、モデルフリーの学習アルゴリズムにモデルベースの学習アルゴリズムの入出力関係を学習させる。
第2深層強化学習エージェントは、状態空間に設計される報酬関数に従い状態に基づいて第2の報酬を出力し、当該第2の報酬に基づいて深層学習により異常スコアを予測する。異常スコアは、データ保存部で蓄積された過去データのパターンと異なるデータパターンが入力されると、上げられる。第1深層強化学習エージェントが深層学習によりリスクを予測するネットワーク部には、第2深層強化学習エージェントからの異常スコアが入力される。
第2深層強化学習エージェントは、異常スコアの予測性能が低下した場合、過去のデータと比較して社会インフラの運転範囲の境界を越えているのか、あるいは入力データのパターンが変化しているのかの原因を、入力データに基づき予測するアルゴリズム管理部を有する。アルゴリズム管理部による、入力データのパターンが変化しているかどうかの検定は、統計的な検定を用いて行われる。第2深層強化学習エージェントは、アルゴリズム管理部により社会インフラの運転範囲の境界を越えていると判定された場合、新しいデータを用いて再学習を行う。
【0008】
これにより、社会インフラを制御しながらリアルタイムに最適な制御動作(最適運転点)を自律的に探索することができる。深層強化学習エージェントの深層学習の出力にはランダム性があり、最適解の近傍で新たなデータが収集されて探索が行われる。その新たなデータに従い、精度と感度表現を満足するモデルベースの学習アルゴリズムが修正され、工学的、物理的な振る舞いが確認される(人間によって確認できる)。そのモデルを学習する深層学習は、人間が直接意味付けすることはむずかしいが、上述のような学習により精度及び感度が比較的早く取得され、第1深層強化学習エージェントによる最適解の安全性が確保され、精度と感度と信頼度が向上する。また、第1および第2深層強化学習エージェントの連携により安全な制御が実現する。
【図面の簡単な説明】
【0009】
一実施形態に係る社会インフラ制御システムおよび社会インフラの全体構成を示す図である。
一実施形態に係る社会インフラ制御システムの機能ブロック図である。
一実施形態に係るデータ学習部の機能ブロック図である。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について図面を参照して説明する。本実施形態は、エキスパート(人間の専門家)の知識をリアルタイムに学習し、社会インフラを目標指標(KPI)とすることで、社会インフラを安全に自律運用できる社会インフラ制御システムを構築するという提案である。社会インフラは、例えば多くの機器から構成されるプラントなどである。目標指標は、パフォーマンス、生産性、品質などの社会インフラの有益な指標として設定される。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
対話装置
21日前
個人
政治のAI化
1か月前
個人
情報処理装置
21日前
個人
記入設定プラグイン
9日前
個人
情報処理装置
17日前
個人
プラグインホームページ
1か月前
個人
情報入力装置
21日前
個人
不動産売買システム
1日前
個人
物価スライド機能付生命保険
21日前
個人
マイホーム非電子入札システム
21日前
キヤノン株式会社
画像処理装置
1か月前
株式会社BONNOU
管理装置
14日前
サクサ株式会社
カードの制動構造
23日前
ホシデン株式会社
タッチ入力装置
1日前
株式会社ワコム
電子消去具
1日前
個人
決済手数料0%のクレジットカード
24日前
株式会社東芝
電子機器
2日前
トヨタ自動車株式会社
情報処理装置
27日前
ミサワホーム株式会社
宅配ロッカー
1か月前
村田機械株式会社
割当補助システム
27日前
個人
パターン抽出方法及び通信多重化方法
今日
パテントフレア株式会社
交差型バーコード
1か月前
株式会社ライト
情報処理装置
14日前
大王製紙株式会社
RFIDタグ
今日
住友重機械工業株式会社
力覚伝達装置
16日前
Sansan株式会社
組織図生成装置
1か月前
トヨタ自動車株式会社
管理装置
1か月前
応研株式会社
業務支援システム
1か月前
株式会社CBE-A
情報処理システム
今日
株式会社mov
情報処理システム
21日前
西日本電信電話株式会社
分析装置
1か月前
西日本電信電話株式会社
評価装置
1か月前
株式会社半導体エネルギー研究所
検索支援方法
14日前
個人
システム、データおよびプログラム
10日前
株式会社豆蔵
ピッキング装置
23日前
株式会社大林組
施工管理システム
1か月前
続きを見る
他の特許を見る