TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024161737
公報種別
公開特許公報(A)
公開日
2024-11-20
出願番号
2023076716
出願日
2023-05-08
発明の名称
制御装置、制御方法およびプログラム
出願人
株式会社東芝
代理人
弁理士法人酒井国際特許事務所
主分類
G06T
7/00 20170101AFI20241113BHJP(計算;計数)
要約
【課題】制御対象の行動をより高精度に決定する。
【解決手段】制御装置は、取得部、第1行動計算部、観測加工部、第2行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第1観測情報を取得する。第1行動計算部は、第1観測情報を入力して制御対象の第1行動を出力するように学習された第1モデルを用いて、第1観測情報に対する第1行動を計算する。観測加工部は、第1行動に基づいて第1観測情報を加工して第2観測情報を出力する。第2行動計算部は、第2観測情報を入力して制御対象の第2行動を出力するように学習された第2モデルを用いて、第2観測情報に対する第2行動を計算する。決定部は、第1行動と第2行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。
【選択図】図2
特許請求の範囲
【請求項1】
制御対象の行動の決定に用いる第1観測情報を取得する取得部と、
前記第1観測情報を入力して前記制御対象の第1行動を出力するように学習された第1モデルを用いて、前記第1観測情報に対する前記第1行動を計算する第1行動計算部と、
前記第1行動に基づいて前記第1観測情報を加工して第2観測情報を出力する観測加工部と、
前記第2観測情報を入力して前記制御対象の第2行動を出力するように学習された第2モデルを用いて、前記第2観測情報に対する前記第2行動を計算する第2行動計算部と、
前記第1行動と前記第2行動とに基づいて前記制御対象の行動を決定する決定部と、
決定された行動をとるように前記制御対象を制御する対象制御部と、
を備える制御装置。
続きを表示(約 1,000 文字)
【請求項2】
前記第2観測情報を用いて、前記第2モデルの更新に用いる第2行動価値を計算し、計算した前記第2行動価値を用いて前記第2モデルを更新する第2更新部と、
前記第2観測情報と前記第2行動価値とを用いて、前記第1モデルの更新に用いる第1行動価値を計算し、計算した前記第1行動価値を用いて前記第1モデルを更新する第1更新部と、
をさらに備える、
請求項1に記載の制御装置。
【請求項3】
前記制御対象の行動を加工する行動加工部をさらに備え、
前記観測加工部は、加工された行動に基づいて、前記第1観測情報を加工して前記第2観測情報を出力する、
請求項2に記載の制御装置。
【請求項4】
前記第1更新部は、さらに、前記第1観測情報を用いて前記第1行動価値を計算し、計算した前記第1行動価値を用いて前記第1モデルを更新する、
請求項2に記載の制御装置。
【請求項5】
前記第1更新部は、前記第2行動を実行しないと仮定した更新式と、前記第1行動価値を用いて、前記第1モデルを更新する、
請求項2に記載の制御装置。
【請求項6】
前記第1更新部は、前記第2行動を実行すると仮定した更新式と、前記第1行動価値を用いて、前記第1モデルを更新する、
請求項2に記載の制御装置。
【請求項7】
前記第2更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第2モデルを更新する、
請求項2に記載の制御装置。
【請求項8】
前記第1更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第1モデルを更新する、
請求項2に記載の制御装置。
【請求項9】
前記第1観測情報は、画像であり、
前記観測加工部は、前記画像の切り取り、回転、および、透視変換のうち少なくとも1つを行う、
請求項1に記載の制御装置。
【請求項10】
前記観測加工部は、前記第1観測情報に対して、前記第1行動を示す情報、前記第1行動について計算された報酬、および、時刻、の少なくとも1つを追加する、
請求項1に記載の制御装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は、制御装置、制御方法およびプログラムに関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
ロボット(制御対象の一例)を用いたピッキング作業において、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。このような技術では、ピッキングの成否は、基本的にエンドエフェクタと把持対象物(ピッキングの対象物)の周辺画像のみで判別できる。従って、方策として画像の局所的な部分のみに注目すればよい。
【0003】
一方、このような技術では、制御対象の行動は、最も重要なピクセルの周辺画像のみから決定される。従って、全体的な状態、例えばカメラ角度の変更による影響を行動に反映させることは困難である。
【先行技術文献】
【非特許文献】
【0004】
James, S., & Davison, A. J., “Q-attention: Enabling efficient learning for vision-based robotic manipulation,” IEEE Robotics and Automation Letters, 7(2), 1612-1619, (2022).
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、制御対象の行動をより高精度に決定できる制御装置、制御方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の制御装置は、取得部、第1行動計算部、観測加工部、第2行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第1観測情報を取得する。第1行動計算部は、第1観測情報を入力して制御対象の第1行動を出力するように学習された第1モデルを用いて、第1観測情報に対する第1行動を計算する。観測加工部は、第1行動に基づいて第1観測情報を加工して第2観測情報を出力する。第2行動計算部は、第2観測情報を入力して制御対象の第2行動を出力するように学習された第2モデルを用いて、第2観測情報に対する第2行動を計算する。決定部は、第1行動と第2行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。
【図面の簡単な説明】
【0007】
実施形態の制御システムの構成例を示す図。
実施形態の制御装置のブロック図
観測情報の加工の例を示す図。
実施形態における制御処理のフローチャート。
実施形態における学習処理のフローチャート。
変形例の制御装置のブロック図。
実施形態の制御装置のハードウェア構成図。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、この発明にかかる制御装置の好適な実施形態を詳細に説明する。以下では、物体(物品)を把持するロボット(ピッキングロボット)を制御する制御装置を含む制御システムを例として説明する。制御対象はロボットに限られず、どのような対象であってもよい。
【0009】
上記のように、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。例えば、初めに画像のピクセルごとに重要度を計算し、最も重要なピクセルの周辺で画像を切り出し、周辺画像からピッキングロボットの行動を決定する技術が提案されている。この技術でも、最も重要なピクセルの周辺画像のみから行動が決定されるため、全体的な状態の変更による影響を行動の決定に反映させることは困難である。
【0010】
また、上記のような技術では、学習時にはピクセルごとに重要度を計算する部分と、周辺画像からピッキングロボットの行動を計算する部分と、が独立に学習される。従って、一般に学習のサンプル効率が悪くなるという問題がある。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る