TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024146537
公報種別公開特許公報(A)
公開日2024-10-15
出願番号2023059507
出願日2023-03-31
発明の名称制御装置、方法、プログラム、及び制御システム
出願人オムロン株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06Q 10/04 20230101AFI20241004BHJP(計算;計数)
要約【課題】準最適なデータのもとであっても、制御対象の行動を適切に決定する。
【解決手段】制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部を含む。行動決定部は、複数種類の時系列長のうち、現時刻以前の前記時系列長のトークンをモデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、決定された時系列長のトークンをモデルに入力して最終的に出力される行動を、制御対象の行動として決定する。
【選択図】図1
特許請求の範囲【請求項1】
制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、
現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む
制御装置。
続きを表示(約 1,100 文字)【請求項2】
予め用意された前記トークンの時系列に基づいて、前記モデルを強化学習により学習する学習部を更に含む、請求項1記載の制御装置。
【請求項3】
前記強化学習における報酬は、前記制御対象の行動履歴データにおいて、タスクを達成したか否か、又はタスク達成までの時間に基づいて定められる請求項2記載の制御装置。
【請求項4】
最終的に出力される収益が最大になるときの時系列長を決定する際に、エクスペクタイル回帰を利用する請求項1記載の制御装置。
【請求項5】
前記制御対象は、移動体、ロボット、又はコンピュータ処理である請求項1記載の制御装置。
【請求項6】
前記制御対象は、ロボット、自動運転車両、コンピュータによる入札処理、コンピュータによる自然言語処理、コンピュータによるゲーム処理、又はコンピュータによる物理現象に関する処理である請求項5記載の制御装置。
【請求項7】
前記制御対象は、ロボットであって、
前記観測情報は、前記ロボットの状態、前記ロボットが対象とするオブジェクトの状態、又はセンサ情報を含み、
前記行動は、前記ロボットの操作に関する決定を含み、
報酬は、前記ロボットが行うタスクの完了、前記ロボットの動きの正確さ、または前記ロボットの動作のエネルギー効率に基づいて定められる請求項6記載の制御装置。
【請求項8】
前記制御対象は、自動運転車両であって、
前記観測情報は、前記自動運転車両の状態、他車両の状態、障害物までの距離、周囲の状況を含み、
前記行動は、前記自動運転車両の運転に関する決定を含み、
報酬は、目的地に到達するのにかかった時間、回避された衝突の数、又は燃料効率に基づいて定められる請求項6記載の制御装置。
【請求項9】
前記制御対象は、コンピュータによる広告に関する入札処理であって、
前記観測情報は、前記広告の宣伝対象についてのユーザの特定の行動に関係する情報を含み、
前記行動は、入札額の選択、前記広告のターゲットに関する選択、または前記広告のフォーマットの選択を含み、
報酬は、入札に成功したときに得られる価値に基づいて定められる請求項6記載の制御装置。
【請求項10】
前記制御対象は、コンピュータによる自然言語処理であって、
前記観測情報は、テキストに関する情報を含み、
前記行動は、前記テキストに対する処理に関する決定を含み、
報酬は、タスクに関する正確さに基づいて定められる請求項6記載の制御装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、制御装置、制御方法、制御プログラム、及び制御システムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
事前に与えられたデータのみで、エージェントを学習させるオフライン強化学習は、ロボティクスを始めとするデータ取得のコストが高い現場で有効である。オフライン強化学習ではDecision Transformer(DT)という、過去の時系列データから将来の行動を生成する手法が提案されている(例えば非特許文献1)。
【0003】
また、将来の収益を予測するMulti Game Decision Transformer(MGDT)という手法も提案されている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097. https://arxiv.org/abs/2106.01345
Lee, Kuang-Huei, et al. "Multi-game decision transformers." arXiv preprint arXiv:2205.15241 (2022). https://arxiv.org/abs/2205.15241
【発明の概要】
【発明が解決しようとする課題】
【0005】
準最適なデータによるオフライン強化学習において、準最適な軌道をつなぎ合わせて、最適に近い軌道を生成すること(Stitching)が主要な課題である。上記非特許文献1に記載のDTは、過去の状態、行動、及び収益の時系列から、将来の行動を生成するものである。しかし、DTは、将来の収益がどのようになるかを予測しないため、Stitchingがうまく機能しない可能性がある。この問題に対して、上記非特許文献2に記載のMGDTは将来の収益を予測することを考慮したが、時系列入力の長さは一定であり、軌道をつなぎ合わせるタイミングを十分に考慮できていない。
【0006】
本開示は、上記の点に鑑みてなされたものであり、準最適なデータのもとであっても、制御対象の行動を適切に決定することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本開示に係る制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する行動決定部を含む。
【0008】
また、本開示に係る制御方法は、プロセッサが、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行する。
【0009】
また、本開示に係る制御プログラムは、コンピュータに、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定し、前記決定した前記行動に基づいて、前記制御対象を動作させる処理であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定する処理を実行させる。
【0010】
また、本開示に係る制御システムは、制御装置と、制御対象とを含む制御システムであって、前記制御装置は、制御対象の環境の観測情報、収益、及び行動を入力とし、制御対象の行動を決定するためのモデルに基づいて、前記制御対象の行動を決定する行動決定部であって、現時刻以前の時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される収益が最大になるときの時系列長を決定し、現時刻以前の、前記決定された時系列長のトークンを、時間ステップ毎に前記モデルに入力して最終的に出力される前記行動を、前記制御対象の行動として決定して、前記制御対象に通知する行動決定部を含み、前記制御対象は、各時刻ステップにおける前記制御対象の環境の観測情報を前記制御装置へ通知し、通知された前記行動に従って行動する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

オムロン株式会社
椅子
1か月前
オムロン株式会社
ドライバ
1か月前
オムロン株式会社
通信装置
27日前
オムロン株式会社
電磁継電器
28日前
オムロン株式会社
電磁継電器
28日前
オムロン株式会社
電磁継電器
28日前
オムロン株式会社
検査ソケット
24日前
オムロン株式会社
プローブピン
24日前
オムロン株式会社
トリガスイッチ
28日前
オムロン株式会社
生体信号計測装置
20日前
オムロン株式会社
生体信号計測装置
20日前
オムロン株式会社
生体信号計測装置
20日前
オムロン株式会社
プッシュイン式端子台
今日
オムロン株式会社
プッシュイン式端子台
今日
オムロン株式会社
光学機器およびその製造方法
今日
オムロン株式会社
通信装置、および信号復調方法
20日前
オムロン株式会社
無停電電源装置及び増設ユニット
今日
オムロン株式会社
支援装置、支援方法及びプログラム
21日前
オムロン株式会社
サーボドライバ及び射出成型システム
6日前
オムロン株式会社
回転装置及び磁気粘性流体の充填方法
21日前
オムロン株式会社
画像処理装置、画像処理方法およびプログラム
今日
オムロン株式会社
画像処理装置、画像処理方法およびプログラム
今日
オムロン株式会社
画像処理装置、画像処理方法およびプログラム
27日前
オムロン株式会社
スイッチ、スイッチアッセンブリ及び操作装置
27日前
オムロン株式会社
電力計、電流補正方法及び電力開閉モジュール
今日
オムロン株式会社
制御システム、設計装置、および設計プログラム
1か月前
オムロン株式会社
ロボットを制御するシステム、方法およびプログラム
今日
オムロン株式会社
制御装置、データ収集方法、およびデータ収集プログラム
27日前
オムロン株式会社
光学的情報読取装置および光学的情報読取装置の制御方法
今日
オムロン株式会社
生体信号処理装置、生体信号計測装置、生体信号処理方法
20日前
オムロン株式会社
文字入力装置、文字入力方法、および文字入力プログラム
6日前
オムロン株式会社
制御装置、学習済みモデル生成装置、方法、及びプログラム
28日前
オムロン株式会社
環境地図を生成するための方法、システム、及び移動ロボット
28日前
オムロン株式会社
予測システム、アグリゲーションシステム、方法およびプログラム
28日前
オムロン株式会社
施設管理システム及び施設管理方法
13日前
オムロン株式会社
カード処理装置およびこれを備えたカードゲームシステム、カード処理方法およびカード処理プログラム
27日前
続きを見る