特許ウォッチ

公開番号2024120253
公報種別公開特許公報(A)
公開日2024-09-05
出願番号2023026923
出願日2023-02-24
発明の名称操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラム
出願人本田技研工業株式会社
代理人個人,個人,個人,個人
主分類B25J 13/00 20060101AFI20240829BHJP(手工具;可搬型動力工具;手工具用の柄;作業場設備;マニプレータ)
要約【課題】物体操作の学習を行う際に効率的な試行錯誤が実施させることができる操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムを提供することを目的とする。
【解決手段】操作方法学習装置は、対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、環境モデルを用いて前記装置の状態量を取得する第1取得部と、環境モデルを用いて対象物体の状態量を取得する第2取得部と、環境モデルを用いて装置と対象物体の接触状態を取得する第3取得部と、接触状態を入力とし、接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、装置の状態量と対象物体の状態量と接触状態量を入力とし、対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、内部報酬を用いて更新される第1方策と、外部報酬を用いて更新される第2方策を確率的に選択しながら探索する探索部と、を備える。
【選択図】図2
特許請求の範囲【請求項１】
対象物体の操作方法を学習する操作方法学習装置であって、
前記対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、
前記環境モデルを用いて前記装置の状態量を取得する第１取得部と、
前記環境モデルを用いて前記対象物体の状態量を取得する第２取得部と、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得する第３取得部と、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、
前記内部報酬を用いて更新される第１方策と、前記外部報酬を用いて更新される第２方策を確率的に選択しながら探索する探索部と、
を備える操作方法学習装置。
続きを表示（約 1,800 文字）【請求項２】
前記接触状態は、前記装置が既に触れた位置を示す情報、前記装置と前記対象物体の相対位置姿勢の情報から推定した接触状態、前記対象物体上で既に触れた位置を示す情報、前記装置と前記対象物体とが接触している場合の力を表す情報、および触覚センサが検出した検出値のうちの少なくとも１つである、
請求項１に記載の操作方法学習装置。
【請求項３】
前記探索部は、訓練時に、予め前記内部報酬に基づくデータを集め、訓練を行う、
請求項１または請求項２に記載の操作方法学習装置。
【請求項４】
前記外部報酬計算部は、前記対象物体の位置、前記対象物体の姿勢、前記装置と前記対象物体とが接触している場合の力を表す情報、触覚センサが検出した検出値、訓練時に前回用いた行動指示、および目標接触位置のうちの少なくとも１つである、
請求項１または請求項２に記載の操作方法学習装置。
【請求項５】
前記探索部は、探索毎に前記内部報酬と前記外部報酬と前記装置に対する行動指示と前記装置の行動を記憶し、所定の前記行動回数毎に前記第１方策と前記第２方策を更新する、
請求項１または請求項２に記載の操作方法学習装置。
【請求項６】
前記装置は、２つ以上の指部をそなえるロボットハンドであり、
前記ロボットハンドは、指先毎に力覚センサが取り付けら、前記ロボットハンドの各部に触覚センサが取り付けられている、
請求項１または請求項２に記載の操作方法学習装置。
【請求項７】
前記内部報酬計算部は、ロボットハンドのモデルと前記対象物体のモデルとの相対位置姿勢に基づいて、接触していそうな部位を推定して前記内部報酬を計算する、
請求項１または請求項２に記載の操作方法学習装置。
【請求項８】
対象物体の操作方法を学習するシステムであって、
前記対象物体を操作可能な装置と、
前記装置の状態量を取得する第１取得部と、
前記対象物体の状態量を取得する第２取得部と、
前記装置と前記対象物体の接触状態を取得する第３取得部と、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、
前記内部報酬を用いて更新される第１方策と、前記外部報酬を用いて更新される第２方策を確率的に選択しながら探索する探索部と、
を備える操作方法学習システム。
【請求項９】
対象物体の操作方法を学習する操作方法学習装置のコンピュータが、
前記対象物体を操作可能な装置を含む環境モデルを用いて前記装置の状態量を取得し、
前記環境モデルを用いて前記対象物体の状態量を取得し、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得し、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算し、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算し、
前記内部報酬を用いて更新される第１方策と、前記外部報酬を用いて更新される第２方策を確率的に選択しながら探索する、
操作方法学習方法。
【請求項１０】
対象物体の操作方法を学習する操作方法学習装置のコンピュータに、
前記対象物体を操作可能な装置を含む環境モデルを用いて前記装置の状態量を取得させ、
前記環境モデルを用いて前記対象物体の状態量を取得させ、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得させ、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算させ、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索させ、目的タスク解決のための外部報酬を計算させ、
前記内部報酬を用いて更新される第１方策と、前記外部報酬を用いて更新される第２方策を確率的に選択しながら探索させる、
プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムに関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
例えば、多指を有するロボットハンドによる物体の持ち替えなどの操り作業は、人が設計したモデルに基づく動作プランを用いて開発が進められている。
また、予測モデルをデータから学習したり、モデル無しで方策を獲得する開発が行われている。例えば、ハンドの広範囲に力・触覚センサを取り付けて、手探りで把持させてグラフ構造であるＧＣＮ（Graph Convolution Networks）モデルを学習させる手法が提案されている（例えば、非特許文献１参照）。このような手法では、与えられたタスクを解決するための報酬である外部報酬を用いて方策を訓練する。
【先行技術文献】
【非特許文献】
【０００３】
船橋賢，磯部智喜， et al., “GCNと分布型触覚センサを用いた様々な物体に対する多指ロボットハンドによる操り動作の実現”，第40回日本ロボット学会学術講演会，RSJ2022， 4B2-03, 2022
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、人が設計したモデルを用いてプランニングする従来技術では、適用可能な操作は限定的で、かつモデルと実世界の誤差により実行時のロバスト性が高くなかった。
また、非特許文献１に記載の技術では、学習対象が高次元で複雑な問題の場合、情報を圧縮する構造を取り入れるなどの工夫が必要となり、触覚センサやカメラと多指ハンドを用いる場合、高効率なアプローチはまだ成熟しておらず，学習効率が悪い。また、非特許文献１に記載の技術では、有益な試行錯誤がなされず学習が進まないことがある。
【０００５】
本発明は、上記の問題点に鑑みてなされたものであって、物体操作の学習を行う際に効率的な試行錯誤が実施させることができる操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
（１）上記目的を達成するため、本発明の一態様に係る操作方法学習装置は、対象物体の操作方法を学習する操作方法学習装置であって、前記対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、前記環境モデルを用いて前記装置の状態量を取得する第１取得部と、前記環境モデルを用いて前記対象物体の状態量を取得する第２取得部と、前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得する第３取得部と、前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、前記内部報酬を用いて更新される第１方策と、前記外部報酬を用いて更新される第２方策を確率的に選択しながら探索する探索部と、を備える操作方法学習装置である。
【０００７】
（２）（１）の操作方法学習装置において、前記接触状態は、前記装置が既に触れた位置を示す情報、前記装置と前記対象物体の相対位置姿勢の情報から推定した接触状態、前記対象物体上で既に触れた位置を示す情報、前記装置と前記対象物体とが接触している場合の力を表す情報、および触覚センサが検出した検出値のうちの少なくとも１つであるようにしてもよい。
【０００８】
（３）（１）の操作方法学習装置において、前記探索部は、訓練時に、予め前記内部報酬に基づくデータを集め、訓練を行うようにしてもよい。
【０００９】
（４）（１）の操作方法学習装置において、前記外部報酬計算部は、前記対象物体の位置、前記対象物体の姿勢、前記装置と前記対象物体とが接触している場合の力を表す情報、触覚センサが検出した検出値、訓練時に前回用いた行動指示、および目標接触位置のうちの少なくとも１つであるようにしてもよい。
【００１０】
（５）（１）の操作方法学習装置において、前記探索部は、探索毎に前記第１方策と前記第２方策のどちらかを確率的に選択し、探索に用いる行動を決定するようにしてもよい。
（【００１１】以降は省略されています）

関連特許