特許ウォッチ

公開番号2024146537
公報種別公開特許公報(A)
公開日2024-10-15
出願番号2023059507
出願日2023-03-31
発明の名称制御装置、方法、プログラム、及び制御システム
出願人オムロン株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06Q 10/04 20230101AFI20241004BHJP(計算;計数)
要約【課題】準最適なデータのもとであっても、制御対象の行動を適切に決定する。
【解決手段】制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部を含む。行動決定部は、複数種類の時系列長のうち、現時刻以前の前記時系列長のトークンをモデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、決定された時系列長のトークンをモデルに入力して最終的に出力される行動を、制御対象の行動として決定する。
【選択図】図1
特許請求の範囲【請求項１】
制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、
現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む
制御装置。
続きを表示（約 1,100 文字）【請求項２】
予め用意された前記トークンの時系列に基づいて、前記モデルを強化学習により学習する学習部を更に含む、請求項１記載の制御装置。
【請求項３】
前記強化学習における報酬は、前記制御対象の行動履歴データにおいて、タスクを達成したか否か、又はタスク達成までの時間に基づいて定められる請求項２記載の制御装置。
【請求項４】
最終的に出力される収益が最大になるときの時系列長を決定する際に、エクスペクタイル回帰を利用する請求項１記載の制御装置。
【請求項５】
前記制御対象は、移動体、ロボット、又はコンピュータ処理である請求項１記載の制御装置。
【請求項６】
前記制御対象は、ロボット、自動運転車両、コンピュータによる入札処理、コンピュータによる自然言語処理、コンピュータによるゲーム処理、又はコンピュータによる物理現象に関する処理である請求項５記載の制御装置。
【請求項７】
前記制御対象は、ロボットであって、
前記観測情報は、前記ロボットの状態、前記ロボットが対象とするオブジェクトの状態、又はセンサ情報を含み、
前記行動は、前記ロボットの操作に関する決定を含み、
報酬は、前記ロボットが行うタスクの完了、前記ロボットの動きの正確さ、または前記ロボットの動作のエネルギー効率に基づいて定められる請求項６記載の制御装置。
【請求項８】
前記制御対象は、自動運転車両であって、
前記観測情報は、前記自動運転車両の状態、他車両の状態、障害物までの距離、周囲の状況を含み、
前記行動は、前記自動運転車両の運転に関する決定を含み、
報酬は、目的地に到達するのにかかった時間、回避された衝突の数、又は燃料効率に基づいて定められる請求項６記載の制御装置。
【請求項９】
前記制御対象は、コンピュータによる広告に関する入札処理であって、
前記観測情報は、前記広告の宣伝対象についてのユーザの特定の行動に関係する情報を含み、
前記行動は、入札額の選択、前記広告のターゲットに関する選択、または前記広告のフォーマットの選択を含み、
報酬は、入札に成功したときに得られる価値に基づいて定められる請求項６記載の制御装置。
【請求項１０】
前記制御対象は、コンピュータによる自然言語処理であって、
前記観測情報は、テキストに関する情報を含み、
前記行動は、前記テキストに対する処理に関する決定を含み、
報酬は、タスクに関する正確さに基づいて定められる請求項６記載の制御装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、制御装置、制御方法、制御プログラム、及び制御システムに関する。
続きを表示（約 2,200 文字）【背景技術】
【０００２】
事前に与えられたデータのみで、エージェントを学習させるオフライン強化学習は、ロボティクスを始めとするデータ取得のコストが高い現場で有効である。オフライン強化学習ではＤｅｃｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＤＴ）という、過去の時系列データから将来の行動を生成する手法が提案されている（例えば非特許文献１）。
【０００３】
また、将来の収益を予測するＭｕｌｔｉＧａｍｅＤｅｃｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ（ＭＧＤＴ）という手法も提案されている（非特許文献２）。
【先行技術文献】
【非特許文献】
【０００４】
Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097. https://arxiv.org/abs/2106.01345
Lee, Kuang-Huei, et al. "Multi-game decision transformers." arXiv preprint arXiv:2205.15241 (2022). https://arxiv.org/abs/2205.15241
【発明の概要】
【発明が解決しようとする課題】
【０００５】
準最適なデータによるオフライン強化学習において、準最適な軌道をつなぎ合わせて、最適に近い軌道を生成すること（Ｓｔｉｔｃｈｉｎｇ）が主要な課題である。上記非特許文献１に記載のＤＴは、過去の状態、行動、及び収益の時系列から、将来の行動を生成するものである。しかし、ＤＴは、将来の収益がどのようになるかを予測しないため、Ｓｔｉｔｃｈｉｎｇがうまく機能しない可能性がある。この問題に対して、上記非特許文献２に記載のＭＧＤＴは将来の収益を予測することを考慮したが、時系列入力の長さは一定であり、軌道をつなぎ合わせるタイミングを十分に考慮できていない。
【０００６】
本開示は、上記の点に鑑みてなされたものであり、準最適なデータのもとであっても、制御対象の行動を適切に決定することを目的とする。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、本開示に係る制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む。
【０００８】
また、本開示に係る制御方法は、プロセッサが、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行する。
【０００９】
また、本開示に係る制御プログラムは、コンピュータに、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行させる。
【００１０】
また、本開示に係る制御システムは、制御装置と、制御対象とを含む制御システムであって、前記制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定して、前記制御対象に通知する行動決定部を含み、前記制御対象は、各時刻ステップにおける前記制御対象の環境の観測情報を前記制御装置へ通知し、通知された前記行動に従って行動する。
【発明の効果】
（【００１１】以降は省略されています）

関連特許