TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024146537
公報種別公開特許公報(A)
公開日2024-10-15
出願番号2023059507
出願日2023-03-31
発明の名称制御装置、方法、プログラム、及び制御システム
出願人オムロン株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06Q 10/04 20230101AFI20241004BHJP(計算;計数)
要約【課題】準最適なデータのもとであっても、制御対象の行動を適切に決定する。
【解決手段】制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部を含む。行動決定部は、複数種類の時系列長のうち、現時刻以前の前記時系列長のトークンをモデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、決定された時系列長のトークンをモデルに入力して最終的に出力される行動を、制御対象の行動として決定する。
【選択図】図1
特許請求の範囲【請求項1】
制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、
現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む
制御装置。
続きを表示(約 1,100 文字)【請求項2】
予め用意された前記トークンの時系列に基づいて、前記モデルを強化学習により学習する学習部を更に含む、請求項1記載の制御装置。
【請求項3】
前記強化学習における報酬は、前記制御対象の行動履歴データにおいて、タスクを達成したか否か、又はタスク達成までの時間に基づいて定められる請求項2記載の制御装置。
【請求項4】
最終的に出力される収益が最大になるときの時系列長を決定する際に、エクスペクタイル回帰を利用する請求項1記載の制御装置。
【請求項5】
前記制御対象は、移動体、ロボット、又はコンピュータ処理である請求項1記載の制御装置。
【請求項6】
前記制御対象は、ロボット、自動運転車両、コンピュータによる入札処理、コンピュータによる自然言語処理、コンピュータによるゲーム処理、又はコンピュータによる物理現象に関する処理である請求項5記載の制御装置。
【請求項7】
前記制御対象は、ロボットであって、
前記観測情報は、前記ロボットの状態、前記ロボットが対象とするオブジェクトの状態、又はセンサ情報を含み、
前記行動は、前記ロボットの操作に関する決定を含み、
報酬は、前記ロボットが行うタスクの完了、前記ロボットの動きの正確さ、または前記ロボットの動作のエネルギー効率に基づいて定められる請求項6記載の制御装置。
【請求項8】
前記制御対象は、自動運転車両であって、
前記観測情報は、前記自動運転車両の状態、他車両の状態、障害物までの距離、周囲の状況を含み、
前記行動は、前記自動運転車両の運転に関する決定を含み、
報酬は、目的地に到達するのにかかった時間、回避された衝突の数、又は燃料効率に基づいて定められる請求項6記載の制御装置。
【請求項9】
前記制御対象は、コンピュータによる広告に関する入札処理であって、
前記観測情報は、前記広告の宣伝対象についてのユーザの特定の行動に関係する情報を含み、
前記行動は、入札額の選択、前記広告のターゲットに関する選択、または前記広告のフォーマットの選択を含み、
報酬は、入札に成功したときに得られる価値に基づいて定められる請求項6記載の制御装置。
【請求項10】
前記制御対象は、コンピュータによる自然言語処理であって、
前記観測情報は、テキストに関する情報を含み、
前記行動は、前記テキストに対する処理に関する決定を含み、
報酬は、タスクに関する正確さに基づいて定められる請求項6記載の制御装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、制御装置、制御方法、制御プログラム、及び制御システムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
事前に与えられたデータのみで、エージェントを学習させるオフライン強化学習は、ロボティクスを始めとするデータ取得のコストが高い現場で有効である。オフライン強化学習ではDecision Transformer(DT)という、過去の時系列データから将来の行動を生成する手法が提案されている(例えば非特許文献1)。
【0003】
また、将来の収益を予測するMulti Game Decision Transformer(MGDT)という手法も提案されている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097. https://arxiv.org/abs/2106.01345
Lee, Kuang-Huei, et al. "Multi-game decision transformers." arXiv preprint arXiv:2205.15241 (2022). https://arxiv.org/abs/2205.15241
【発明の概要】
【発明が解決しようとする課題】
【0005】
準最適なデータによるオフライン強化学習において、準最適な軌道をつなぎ合わせて、最適に近い軌道を生成すること(Stitching)が主要な課題である。上記非特許文献1に記載のDTは、過去の状態、行動、及び収益の時系列から、将来の行動を生成するものである。しかし、DTは、将来の収益がどのようになるかを予測しないため、Stitchingがうまく機能しない可能性がある。この問題に対して、上記非特許文献2に記載のMGDTは将来の収益を予測することを考慮したが、時系列入力の長さは一定であり、軌道をつなぎ合わせるタイミングを十分に考慮できていない。
【0006】
本開示は、上記の点に鑑みてなされたものであり、準最適なデータのもとであっても、制御対象の行動を適切に決定することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本開示に係る制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む。
【0008】
また、本開示に係る制御方法は、プロセッサが、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行する。
【0009】
また、本開示に係る制御プログラムは、コンピュータに、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行させる。
【0010】
また、本開示に係る制御システムは、制御装置と、制御対象とを含む制御システムであって、前記制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定して、前記制御対象に通知する行動決定部を含み、前記制御対象は、各時刻ステップにおける前記制御対象の環境の観測情報を前記制御装置へ通知し、通知された前記行動に従って行動する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

オムロン株式会社
椅子
11日前
オムロン株式会社
ドライバ
17日前
オムロン株式会社
通信装置
3日前
オムロン株式会社
電磁継電器
4日前
オムロン株式会社
電磁継電器
4日前
オムロン株式会社
電磁継電器
4日前
オムロン株式会社
検査ソケット
今日
オムロン株式会社
プローブピン
今日
オムロン株式会社
トリガスイッチ
4日前
オムロン株式会社
画像処理装置、画像処理方法およびプログラム
3日前
オムロン株式会社
スイッチ、スイッチアッセンブリ及び操作装置
3日前
オムロン株式会社
制御システム、設計装置、および設計プログラム
10日前
オムロン株式会社
制御装置、データ収集方法、およびデータ収集プログラム
3日前
オムロン株式会社
制御装置、学習済みモデル生成装置、方法、及びプログラム
4日前
オムロン株式会社
環境地図を生成するための方法、システム、及び移動ロボット
4日前
オムロン株式会社
予測システム、アグリゲーションシステム、方法およびプログラム
4日前
オムロン株式会社
カード処理装置およびこれを備えたカードゲームシステム、カード処理方法およびカード処理プログラム
3日前
オムロン株式会社
栽培支援システム、栽培支援装置、栽培支援方法及びプログラム
3日前
オムロン株式会社
工作機械コントローラ、コントローラ制御プログラム、ソースコード修正装置、およびソースコード修正プログラム
3日前
個人
情報提示方法
25日前
個人
プログラム
17日前
個人
プログラム
24日前
個人
自動精算システム
1か月前
個人
アカウントマップ
18日前
個人
RFタグ読取装置
1か月前
個人
売買システム
1か月前
個人
管理サーバ
1か月前
個人
市場受発注システム
1か月前
個人
発想支援方法及びシステム
28日前
個人
学習装置及び推論装置
17日前
日本精機株式会社
車両用表示装置
1か月前
個人
案件管理装置および端末装置
4日前
日本精機株式会社
車両用表示装置
1か月前
個人
分類処理プログラム及び方法
28日前
井関農機株式会社
ロボット作業車両
1か月前
個人
VRによる人体各部位の立体化
1か月前
続きを見る