TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024120253
公報種別公開特許公報(A)
公開日2024-09-05
出願番号2023026923
出願日2023-02-24
発明の名称操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラム
出願人本田技研工業株式会社
代理人個人,個人,個人,個人
主分類B25J 13/00 20060101AFI20240829BHJP(手工具;可搬型動力工具;手工具用の柄;作業場設備;マニプレータ)
要約【課題】物体操作の学習を行う際に効率的な試行錯誤が実施させることができる操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムを提供することを目的とする。
【解決手段】操作方法学習装置は、対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、環境モデルを用いて前記装置の状態量を取得する第1取得部と、環境モデルを用いて対象物体の状態量を取得する第2取得部と、環境モデルを用いて装置と対象物体の接触状態を取得する第3取得部と、接触状態を入力とし、接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、装置の状態量と対象物体の状態量と接触状態量を入力とし、対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、内部報酬を用いて更新される第1方策と、外部報酬を用いて更新される第2方策を確率的に選択しながら探索する探索部と、を備える。
【選択図】図2
特許請求の範囲【請求項1】
対象物体の操作方法を学習する操作方法学習装置であって、
前記対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、
前記環境モデルを用いて前記装置の状態量を取得する第1取得部と、
前記環境モデルを用いて前記対象物体の状態量を取得する第2取得部と、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得する第3取得部と、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、
前記内部報酬を用いて更新される第1方策と、前記外部報酬を用いて更新される第2方策を確率的に選択しながら探索する探索部と、
を備える操作方法学習装置。
続きを表示(約 1,800 文字)【請求項2】
前記接触状態は、前記装置が既に触れた位置を示す情報、前記装置と前記対象物体の相対位置姿勢の情報から推定した接触状態、前記対象物体上で既に触れた位置を示す情報、前記装置と前記対象物体とが接触している場合の力を表す情報、および触覚センサが検出した検出値のうちの少なくとも1つである、
請求項1に記載の操作方法学習装置。
【請求項3】
前記探索部は、訓練時に、予め前記内部報酬に基づくデータを集め、訓練を行う、
請求項1または請求項2に記載の操作方法学習装置。
【請求項4】
前記外部報酬計算部は、前記対象物体の位置、前記対象物体の姿勢、前記装置と前記対象物体とが接触している場合の力を表す情報、触覚センサが検出した検出値、訓練時に前回用いた行動指示、および目標接触位置のうちの少なくとも1つである、
請求項1または請求項2に記載の操作方法学習装置。
【請求項5】
前記探索部は、探索毎に前記内部報酬と前記外部報酬と前記装置に対する行動指示と前記装置の行動を記憶し、所定の前記行動回数毎に前記第1方策と前記第2方策を更新する、
請求項1または請求項2に記載の操作方法学習装置。
【請求項6】
前記装置は、2つ以上の指部をそなえるロボットハンドであり、
前記ロボットハンドは、指先毎に力覚センサが取り付けら、前記ロボットハンドの各部に触覚センサが取り付けられている、
請求項1または請求項2に記載の操作方法学習装置。
【請求項7】
前記内部報酬計算部は、ロボットハンドのモデルと前記対象物体のモデルとの相対位置姿勢に基づいて、接触していそうな部位を推定して前記内部報酬を計算する、
請求項1または請求項2に記載の操作方法学習装置。
【請求項8】
対象物体の操作方法を学習するシステムであって、
前記対象物体を操作可能な装置と、
前記装置の状態量を取得する第1取得部と、
前記対象物体の状態量を取得する第2取得部と、
前記装置と前記対象物体の接触状態を取得する第3取得部と、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、
前記内部報酬を用いて更新される第1方策と、前記外部報酬を用いて更新される第2方策を確率的に選択しながら探索する探索部と、
を備える操作方法学習システム。
【請求項9】
対象物体の操作方法を学習する操作方法学習装置のコンピュータが、
前記対象物体を操作可能な装置を含む環境モデルを用いて前記装置の状態量を取得し、
前記環境モデルを用いて前記対象物体の状態量を取得し、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得し、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算し、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算し、
前記内部報酬を用いて更新される第1方策と、前記外部報酬を用いて更新される第2方策を確率的に選択しながら探索する、
操作方法学習方法。
【請求項10】
対象物体の操作方法を学習する操作方法学習装置のコンピュータに、
前記対象物体を操作可能な装置を含む環境モデルを用いて前記装置の状態量を取得させ、
前記環境モデルを用いて前記対象物体の状態量を取得させ、
前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得させ、
前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算させ、
前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索させ、目的タスク解決のための外部報酬を計算させ、
前記内部報酬を用いて更新される第1方策と、前記外部報酬を用いて更新される第2方策を確率的に選択しながら探索させる、
プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムに関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
例えば、多指を有するロボットハンドによる物体の持ち替えなどの操り作業は、人が設計したモデルに基づく動作プランを用いて開発が進められている。
また、予測モデルをデータから学習したり、モデル無しで方策を獲得する開発が行われている。例えば、ハンドの広範囲に力・触覚センサを取り付けて、手探りで把持させてグラフ構造であるGCN(Graph Convolution Networks)モデルを学習させる手法が提案されている(例えば、非特許文献1参照)。このような手法では、与えられたタスクを解決するための報酬である外部報酬を用いて方策を訓練する。
【先行技術文献】
【非特許文献】
【0003】
船橋 賢,磯部 智喜, et al., “GCNと分布型触覚センサを用いた様々な物体に対する多指ロボットハンドによる操り動作の実現”,第40回日本ロボット学会学術講演会,RSJ2022, 4B2-03, 2022
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、人が設計したモデルを用いてプランニングする従来技術では、適用可能な操作は限定的で、かつモデルと実世界の誤差により実行時のロバスト性が高くなかった。
また、非特許文献1に記載の技術では、学習対象が高次元で複雑な問題の場合、情報を圧縮する構造を取り入れるなどの工夫が必要となり、触覚センサやカメラと多指ハンドを用いる場合、高効率なアプローチはまだ成熟しておらず,学習効率が悪い。また、非特許文献1に記載の技術では、有益な試行錯誤がなされず学習が進まないことがある。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、物体操作の学習を行う際に効率的な試行錯誤が実施させることができる操作方法学習装置、操作方法学習システム、操作方法学習方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る操作方法学習装置は、対象物体の操作方法を学習する操作方法学習装置であって、前記対象物体を操作可能な装置を含む環境モデルを記憶する記憶部と、前記環境モデルを用いて前記装置の状態量を取得する第1取得部と、前記環境モデルを用いて前記対象物体の状態量を取得する第2取得部と、前記環境モデルを用いて前記装置と前記対象物体の接触状態を取得する第3取得部と、前記接触状態を入力とし、前記接触状態の出現頻度から内部報酬を計算する内部報酬計算部と、前記装置の状態量と前記対象物体の状態量と接触状態量を入力とし、前記対象物体の操作方策を探索し、目的タスク解決のための外部報酬を計算する外部報酬計算部と、前記内部報酬を用いて更新される第1方策と、前記外部報酬を用いて更新される第2方策を確率的に選択しながら探索する探索部と、を備える操作方法学習装置である。
【0007】
(2)(1)の操作方法学習装置において、前記接触状態は、前記装置が既に触れた位置を示す情報、前記装置と前記対象物体の相対位置姿勢の情報から推定した接触状態、前記対象物体上で既に触れた位置を示す情報、前記装置と前記対象物体とが接触している場合の力を表す情報、および触覚センサが検出した検出値のうちの少なくとも1つであるようにしてもよい。
【0008】
(3)(1)の操作方法学習装置において、前記探索部は、訓練時に、予め前記内部報酬に基づくデータを集め、訓練を行うようにしてもよい。
【0009】
(4)(1)の操作方法学習装置において、前記外部報酬計算部は、前記対象物体の位置、前記対象物体の姿勢、前記装置と前記対象物体とが接触している場合の力を表す情報、触覚センサが検出した検出値、訓練時に前回用いた行動指示、および目標接触位置のうちの少なくとも1つであるようにしてもよい。
【0010】
(5)(1)の操作方法学習装置において、前記探索部は、探索毎に前記第1方策と前記第2方策のどちらかを確率的に選択し、探索に用いる行動を決定するようにしてもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
木製ハンマー
2か月前
個人
関節モジュール
2か月前
個人
寸切りボルト回し
2か月前
個人
スロットルトリガー
2か月前
中国電力株式会社
腰袋
5か月前
太陽工業株式会社
チャック装置
1か月前
コクヨ株式会社
補助器具
1か月前
日東工器株式会社
衝撃工具
4か月前
日東工器株式会社
動力工具
2か月前
日東工器株式会社
動力工具
2か月前
日東工器株式会社
動力工具
2か月前
日東工器株式会社
動力工具
2か月前
個人
メンテナンス用スタンド
3か月前
株式会社マキタ
打撃工具
1日前
学校法人立命館
グリッパ
2か月前
株式会社マキタ
動力工具
5か月前
CKD株式会社
把持装置
2か月前
東京計器株式会社
接触検知装置
3か月前
オムロン株式会社
電動把持工具
1か月前
トヨタ自動車株式会社
ロボット
3か月前
川崎重工業株式会社
罫書用治具
5か月前
株式会社マキタ
電動ハンマ
15日前
個人
容器引っ掛け棒およびその使用方法
3か月前
個人
回転工具およびバリ取り部品
3か月前
株式会社ハーモ
開閉チャック装置
3か月前
株式会社ダイヘン
搬送装置
1日前
株式会社ダイヘン
搬送装置
5か月前
株式会社ダイヘン
搬送装置
1か月前
株式会社ダイヘン
搬送装置
5か月前
トヨタ自動車株式会社
ハンド構造
4か月前
白山工業株式会社
ロボットアーム
2か月前
株式会社ダイヘン
制御装置
9日前
株式会社エビス
携帯付属物取付具
1日前
トヨタ自動車株式会社
締付判定方法
2か月前
東京都公立大学法人
ロボットハンド
6か月前
株式会社大林組
ロッカー装置
3か月前
続きを見る