特許ウォッチ

公開番号2024161737
公報種別公開特許公報(A)
公開日2024-11-20
出願番号2023076716
出願日2023-05-08
発明の名称制御装置、制御方法およびプログラム
出願人株式会社東芝
代理人弁理士法人酒井国際特許事務所
主分類G06T 7/00 20170101AFI20241113BHJP(計算;計数)
要約【課題】制御対象の行動をより高精度に決定する。
【解決手段】制御装置は、取得部、第1行動計算部、観測加工部、第2行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第1観測情報を取得する。第1行動計算部は、第1観測情報を入力して制御対象の第1行動を出力するように学習された第1モデルを用いて、第1観測情報に対する第1行動を計算する。観測加工部は、第1行動に基づいて第1観測情報を加工して第2観測情報を出力する。第2行動計算部は、第2観測情報を入力して制御対象の第2行動を出力するように学習された第2モデルを用いて、第2観測情報に対する第2行動を計算する。決定部は、第1行動と第2行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。
【選択図】図2
特許請求の範囲【請求項１】
制御対象の行動の決定に用いる第１観測情報を取得する取得部と、
前記第１観測情報を入力して前記制御対象の第１行動を出力するように学習された第１モデルを用いて、前記第１観測情報に対する前記第１行動を計算する第１行動計算部と、
前記第１行動に基づいて前記第１観測情報を加工して第２観測情報を出力する観測加工部と、
前記第２観測情報を入力して前記制御対象の第２行動を出力するように学習された第２モデルを用いて、前記第２観測情報に対する前記第２行動を計算する第２行動計算部と、
前記第１行動と前記第２行動とに基づいて前記制御対象の行動を決定する決定部と、
決定された行動をとるように前記制御対象を制御する対象制御部と、
を備える制御装置。
続きを表示（約 1,000 文字）【請求項２】
前記第２観測情報を用いて、前記第２モデルの更新に用いる第２行動価値を計算し、計算した前記第２行動価値を用いて前記第２モデルを更新する第２更新部と、
前記第２観測情報と前記第２行動価値とを用いて、前記第１モデルの更新に用いる第１行動価値を計算し、計算した前記第１行動価値を用いて前記第１モデルを更新する第１更新部と、
をさらに備える、
請求項１に記載の制御装置。
【請求項３】
前記制御対象の行動を加工する行動加工部をさらに備え、
前記観測加工部は、加工された行動に基づいて、前記第１観測情報を加工して前記第２観測情報を出力する、
請求項２に記載の制御装置。
【請求項４】
前記第１更新部は、さらに、前記第１観測情報を用いて前記第１行動価値を計算し、計算した前記第１行動価値を用いて前記第１モデルを更新する、
請求項２に記載の制御装置。
【請求項５】
前記第１更新部は、前記第２行動を実行しないと仮定した更新式と、前記第１行動価値を用いて、前記第１モデルを更新する、
請求項２に記載の制御装置。
【請求項６】
前記第１更新部は、前記第２行動を実行すると仮定した更新式と、前記第１行動価値を用いて、前記第１モデルを更新する、
請求項２に記載の制御装置。
【請求項７】
前記第２更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第２モデルを更新する、
請求項２に記載の制御装置。
【請求項８】
前記第１更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第１モデルを更新する、
請求項２に記載の制御装置。
【請求項９】
前記第１観測情報は、画像であり、
前記観測加工部は、前記画像の切り取り、回転、および、透視変換のうち少なくとも１つを行う、
請求項１に記載の制御装置。
【請求項１０】
前記観測加工部は、前記第１観測情報に対して、前記第１行動を示す情報、前記第１行動について計算された報酬、および、時刻、の少なくとも１つを追加する、
請求項１に記載の制御装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明の実施形態は、制御装置、制御方法およびプログラムに関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
ロボット（制御対象の一例）を用いたピッキング作業において、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。このような技術では、ピッキングの成否は、基本的にエンドエフェクタと把持対象物（ピッキングの対象物）の周辺画像のみで判別できる。従って、方策として画像の局所的な部分のみに注目すればよい。
【０００３】
一方、このような技術では、制御対象の行動は、最も重要なピクセルの周辺画像のみから決定される。従って、全体的な状態、例えばカメラ角度の変更による影響を行動に反映させることは困難である。
【先行技術文献】
【非特許文献】
【０００４】
James, S., & Davison, A. J., “Q-attention: Enabling efficient learning for vision-based robotic manipulation,” IEEE Robotics and Automation Letters, 7(2), 1612-1619, (2022).
【発明の概要】
【発明が解決しようとする課題】
【０００５】
本発明は、制御対象の行動をより高精度に決定できる制御装置、制御方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
実施形態の制御装置は、取得部、第１行動計算部、観測加工部、第２行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第１観測情報を取得する。第１行動計算部は、第１観測情報を入力して制御対象の第１行動を出力するように学習された第１モデルを用いて、第１観測情報に対する第１行動を計算する。観測加工部は、第１行動に基づいて第１観測情報を加工して第２観測情報を出力する。第２行動計算部は、第２観測情報を入力して制御対象の第２行動を出力するように学習された第２モデルを用いて、第２観測情報に対する第２行動を計算する。決定部は、第１行動と第２行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。
【図面の簡単な説明】
【０００７】
実施形態の制御システムの構成例を示す図。
実施形態の制御装置のブロック図
観測情報の加工の例を示す図。
実施形態における制御処理のフローチャート。
実施形態における学習処理のフローチャート。
変形例の制御装置のブロック図。
実施形態の制御装置のハードウェア構成図。
【発明を実施するための形態】
【０００８】
以下に添付図面を参照して、この発明にかかる制御装置の好適な実施形態を詳細に説明する。以下では、物体（物品）を把持するロボット（ピッキングロボット）を制御する制御装置を含む制御システムを例として説明する。制御対象はロボットに限られず、どのような対象であってもよい。
【０００９】
上記のように、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。例えば、初めに画像のピクセルごとに重要度を計算し、最も重要なピクセルの周辺で画像を切り出し、周辺画像からピッキングロボットの行動を決定する技術が提案されている。この技術でも、最も重要なピクセルの周辺画像のみから行動が決定されるため、全体的な状態の変更による影響を行動の決定に反映させることは困難である。
【００１０】
また、上記のような技術では、学習時にはピクセルごとに重要度を計算する部分と、周辺画像からピッキングロボットの行動を計算する部分と、が独立に学習される。従って、一般に学習のサンプル効率が悪くなるという問題がある。
（【００１１】以降は省略されています）

関連特許