TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025023895
公報種別
公開特許公報(A)
公開日
2025-02-19
出願番号
2024115440
出願日
2024-07-19
発明の名称
ロボット技能学習のための効率の良い方法
出願人
ファナック株式会社
代理人
個人
,
個人
,
個人
,
個人
主分類
B25J
9/22 20060101AFI20250212BHJP(手工具;可搬型動力工具;手工具用の柄;作業場設備;マニプレータ)
要約
【課題】コンプライアンス制御器を利用した高精度組立て作業のためのロボット技能学習用の方法およびシステムを提供する。
【解決手段】人間による実演データを用いてオフラインモードで強化学習(RL)制御器が事前訓練され、各反復について状態および行動データを収集する。実演データは、RL制御器内でニューラルネットワークを事前訓練するために使用される。事前訓練の後、RL制御器は、オンライン生産へと移動させられ、自己学習モードでコンプライアンス制御器/ロボットシステムに結合される。自己学習中、ニューラルネットワークベースのRL制御器は、行動、状態および報酬データを用いて、状態と有効な行動の間の相関関係を学習し続ける。自己学習中、同時訓練が必要に応じて提供され、ここで人間のオペレータが、正常な組立て動作を保証するようにRL制御器の行動をオーバライドして、これにより、RL制御器の学習された性能が改善される。
【選択図】図9
特許請求の範囲
【請求項1】
ロボット組立て技能学習方法において、
コンプライアンス制御器によって制御されるロボットを提供するステップであって、前記ロボットは、前記ロボットが第1の部品を第2の部品との組立て位置まで移動させる組立て動作を行なうように構成されている、ステップと、
前記コンプライアンス制御器および前記ロボットと通信状態にある強化学習制御器を提供するステップであって、前記強化学習制御器が、前記ロボットからのフィードバックとして受信された状態データに応答して行動を決定するための方策を定義するニューラルネットワークを有している、ステップと、
人間による実演データセットを用いて、前記ロボットからのフィードバックとして受信された報酬データを方策に最大化させるように前記強化学習制御器内の前記ニューラルネットワークを訓練するステップを含めた、前記強化学習制御器を事前訓練するステップと、
自己学習モードで前記強化学習制御器を用いて組立て動作を行なうように前記ロボットを動作させるステップであって、前記強化学習制御器が前記コンプライアンス制御器に対し入力として行動を提供し、前記ロボットからフィードバックとして受信された報酬データおよび前記状態データが、前記強化学習制御器内の前記ニューラルネットワークを連続的に訓練するために使用されるステップと、
同時訓練モードで前記強化学習制御器を用いて前記組立て動作を行なうために前記ロボットを周期的に動作させるステップであって、人間の実演者が、前記組立て動作を行なうために前記ロボットを制御するべく前記コンプライアンス制御器に対して補足的入力を提供する、ステップと、を含む方法。
続きを表示(約 1,400 文字)
【請求項2】
行動が、前記コンプライアンス制御器に対して提供される前記第2の部品との関係における前記第1の部品の3つの並進および3つの回転を含めた目標位置調整であり、前記目標位置調整が、予め定義された動作限界により境界画定された公称目標位置と組合わされ、前記コンプライアンス制御器への前記入力として使用される、請求項1に記載の方法。
【請求項3】
前記状態データには、各々3つの並進成分と3つの回転成分とを含む前記ロボットの位置および速度、ならびに各々3方向での部品間接触力およびトルクが含まれる、請求項1に記載の方法。
【請求項4】
報酬データには、前記組立て動作が正常に完了した場合の正の値および前記組立て動作が正常に完了しなかった場合の負の値が含まれており、前記正の値が前記負の値より大きい絶対値を有する、請求項1に記載の方法。
【請求項5】
前記強化学習制御器内で前記ニューラルネットワークによって定義された方策が、状態との関係における行動の統計的分布であり、前記統計的分布が、平均および標準偏差を含めたパラメータによって定義される、請求項1に記載の方法。
【請求項6】
前記人間による実演データセットには、前記組立て動作の多数の人間による実演について捕捉された行動、状態および報酬データが含まれ、前記強化学習制御器を事前訓練するステップには、前記強化学習制御器と前記ロボットの間に全く相互作用が無い状態で訓練するために前記人間による実演データセットを使用するステップが含まれている、請求項1に記載の方法。
【請求項7】
前記強化学習制御器を事前訓練するステップには、前記人間による実演データセットに基づく方策からの前記ニューラルネットワークによって学習された方策の偏差にペナルティを課す損失関数内でカルバック・ライブラ発散計算を用いるオフライン強化学習技術が含まれる、請求項1に記載の方法。
【請求項8】
前記同時訓練モードが、遠隔操作により人間による実演を使用するステップを含み、前記ロボットの成功測定基準が予め定義された閾値を下回った場合に呼び出され、前記遠隔操作からの行動データは前記同時訓練モードで前記ロボットからフィードバックとして受信された前記状態データおよび報酬データと共に、前記強化学習制御器内で前記ニューラルネットワークをさらに訓練するために使用される、請求項1に記載の方法。
【請求項9】
前記強化学習制御器が、前記ニューラルネットワークを含むアクターモジュールおよび第2のニューラルネットワークを含むクリティックモジュールを有し、前記アクターモジュールが前記コンプライアンス制御器に対する入力として行動を提供し、前記クリティックモジュールがクリティック関数に基づいて前記アクターモジュールの方策のパラメータを更新する、請求項1に記載の方法。
【請求項10】
前記クリティックモジュールによる前記アクターモジュールの訓練ステップには、クリティック関数によって計算された報酬を最大化する所望の行動を決定する最適化計算を使用するステップ、および前記所望の行動に基づいて前記アクターモジュール内の方策の前記パラメータを調整するステップが含まれる、請求項9に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、概して、ロボット技能学習のための方法に関し、より詳細には、コンプライアンス制御器を利用する高精度組立て作業に適用可能なロボット技能学習のための方法において、強化学習制御器がまず人間による実演データを用いてオフラインモードで事前訓練され、その後、自己学習が充分な数の正常な実行を有することを保証するのに必要な場合に、人間のオーバライド行動で更新自己訓練がオンラインで行なわれる方法に関する。
続きを表示(約 3,300 文字)
【背景技術】
【0002】
広範囲の製造および組立て動作を反復的に行なうための産業ロボットの使用は、周知である。しかしながら、ホール内にペグを設置すること、または1つの部品を別の部品に差し込むことなどといったいくつかのタイプの公差の厳しい組立て動作は、なおも、ロボットが行なうには問題がある。ロボットでは、公差の厳しい組立て作業において発生する可能性のある複雑な不整列を検出し補正するのが困難であることから、これらのタイプの動作は多くの場合、手作業で行なわれている。すなわち、把持および固定の両方の不確実性に起因する部品姿勢の小さな偏差のため、ロボットは部品をその公称設置位置まで単純に移動させることができず、むしろ一方の部品の他方の部品内への適正な整列および嵌合を「手探りで探さ」なければならない。
【0003】
これらの不可避的な位置付け上の不確実性に対し組立て作業をロバストなものにするために、ロボットシステムは典型的に力制御器(別名、コンプライアンス制御またはアドミッタンス制御)を使用し、ここで力およびトルクのフィードバックを用いて、組立て動作を完了するのに必要とされる動作コマンドが提供される。ロボット組立て作業のための力制御器をセットアップしチューニングするための従来の方法は、マニュアルチューニングによるものであり、この場合、人間のオペレータが組立て作業のために実際のロボットシステムをプログラミングし、プログラムを実行し、試行錯誤式に力制御パラメータを入念に調整する。しかしながら、物理的試験を用いたこれらの力制御機能のチューニングおよびセットアップは、手作業での試行錯誤を行なう必要があるため、時間もコストもかかるものである。同様に、実際のシステム上でチューニングが行なわれる場合、実際のシステムが要件を満たしていないならば、再設計が求められる可能性がある。実際の物理的試験システム上でのパラメータチューニングは、ロボットがコンプライアントでなく、したがって部品間の予期せぬ強い接触がロボット、部品または周囲の固定具または構造に損傷を加える可能性があることから、危険なことでもある。
【0004】
シミュレーション環境内でのロボット組立て用に力制御パラメータをチューニングするためのシステムが存在するが、これらの既存のシステムは、緩慢さおよびロバスト性の欠如を含めたいくつかの制限を示す。他の既存のシステムは、力制御器に対して学習機能を適用しようと試みるものである。しかしながら、既存の制限学習システムは、ロバストでなく、故障データが典型的に、学習制御器内の実演データを圧倒する。既存の強化学習システムは、訓練するのに長い時間がかかり、典型的に途中で多くの試行の失敗を経験し、先に論述した部品損傷および危険な挙動のリスクを伴う。
【0005】
上述の状況を鑑みて、コンプライアンス制御器を用いた公差が厳しい利用分野でのロボット組立技能学習のために、改良された方法が必要とされている。
【発明の概要】
【0006】
以下の開示は、力またはコンプライアンス制御器を利用した高精度組立て作業に適用可能なロボット技能学習用の方法およびシステムについて記述する。人間による実演データを用いてオフラインモードで強化学習制御器がまず事前訓練され、ここで各実演反復について状態および行動データを収集しながら、数回反復して人間による実演が行なわれる。実演データは、事前訓練中コンプライアンス制御器/ロボットシステムと強化学習制御器の相互作用が全く無い状態で、強化学習制御器内でニューラルネットワークを事前訓練するために使用される。初期事前訓練の後、強化学習制御器は、オンライン生産へと移動させられ、ここで、自己学習モードでコンプライアンス制御器/ロボットシステムに結合される。自己学習中、ニューラルネットワークベースの強化学習制御器、行動、状態および報酬データを用いて、状態と有効な行動の間の相関関係を学習し続ける。自己学習中、同時訓練が必要に応じて提供され、ここで人間のオペレータが、正常な組立て動作を保証するように強化学習制御器の行動をオーバライドして、これにより、今度は、強化学習制御器の学習された性能が改善される。
【0007】
本開示の追加の特徴は、添付図面と併せて以下の明細書および添付クレームを考慮することによって、明確になるものである。
【図面の簡単な説明】
【0008】
図1は、ロボット組立て動作についての課題を創出する部品位置付けの不確実性の源を例示する、公差が厳しい部品に対して行なわれているロボット組立て動作の例示である。
図2は、挿入軸に直交する平面内でロボットにホール探索を行なわせるような形での整列を部品が必要としている、ロボットによる組立て中の部品の例示である。
図3は、挿入軸を中心とする適正な回転配向を見い出すべくロボットに位相探索を行なわせるような形での整列を部品が必要としている、ロボットによる組立て中の部品の例示である。
図4は、当該技術分野において公知のコンプライアンス制御器(すなわち力またはアドミッタンス制御)を用いたロボット組立て動作用に構成されたシステムのブロック図による例示である。
図5は、本開示の一実施形態に係る、アクタークリティック強化学習モジュールを含むコンプライアンス制御器を用いた、ロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図6は、本開示の実施形態において使用されている強化学習システムのブロック図による例示である。
図7は、本開示の一実施形態に係る、訓練されたアクターのみの強化学習モジュールを含むコンプライアンス制御器およびロボットを使用した、ロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図8は、本開示の一実施形態に係る、コンプライアンス制御器/ロボットシステムを用いたアクタークリティック強化学習を使用するロボット組立技能学習用の方法の流れ図である。
図9は、本開示の一実施形態に係る、人間による実演と強化学習ベースの発見とを組合わせたロボット組立技能学習用のシステムの概念的例示である。
図10は、本開示の一実施形態に係る、進行中の自己学習の間の人間による補正のために、同時訓練モードで強化学習モジュールを含むコンプライアンス制御器を使用するロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図11は、本開示の一実施形態に係る、オンライン自己学習モードで強化学習モジュールを含むコンプライアンス制御器を使用するロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図12は、本開示の一実施形態に係る、人間による実演データを使用するオフライン事前訓練および人間の同時訓練を含むオンライン自己学習を含む、コンプライアンス制御器/ロボットシステムを含む強化学習制御器を使用するロボット組立技能学習のための方法の流れ図である。
【発明を実施するための形態】
【0009】
実演データを用いてオフラインで事前訓練された強化学習制御器および人間による同時訓練を用いてオンラインで自己訓練された更新情報を使用したロボット技能学習のための方法に向けられた本開示の実施形態についての以下の論述は、事実上単なる例示にすぎず、いかなる形であれ、開示されている技術またはその利用分野または使用を限定するように意図されたものではない。
【0010】
さまざまな製造および組立て動作のための産業ロボットの使用は周知である。本開示は、多くのロボット組立て動作において遭遇する課題の克服に向けられている。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
腰袋
8日前
株式会社エビス
連結具
2か月前
川崎重工業株式会社
ロボット
2か月前
株式会社マキタ
電動工具
2か月前
株式会社マキタ
打撃工具
2か月前
株式会社マキタ
電動工具
1日前
株式会社マキタ
電動工具
16日前
株式会社ダイヘン
搬送装置
3か月前
川崎重工業株式会社
ロボットアーム
16日前
川崎重工業株式会社
ロボットアーム
16日前
日本車輌製造株式会社
締め付け工具
16日前
川崎重工業株式会社
ロボット
2か月前
川崎重工業株式会社
ロボットリスト
16日前
川崎重工業株式会社
ロボット
2か月前
株式会社マキタ
ハンマドリル
2か月前
CKD株式会社
吸着型搬送装置
1か月前
川崎重工業株式会社
ロボットシステム
16日前
日本信号株式会社
作業機制御システム
1日前
学校法人立命館
ロボットハンド
3か月前
株式会社京阪エンジニアリング
脱着装置
2日前
株式会社アイエイアイ
グリッパー
2か月前
ジヤトコ株式会社
圧入装置
29日前
株式会社安川電機
ロボット
1か月前
株式会社安川電機
ロボット
1か月前
株式会社安川電機
ロボット
1か月前
川崎重工業株式会社
塗装ロボット
1か月前
長堀工業株式会社
締結装置
1か月前
株式会社山下工業研究所
ラチェットレンチ
2か月前
株式会社不二越
ロボットの操作装置
2か月前
株式会社アマダ
磁気吸着装置
1か月前
株式会社マキタ
集塵アタッチメント
1日前
株式会社スター精機
ワーク搬送装置
5日前
工機ホールディングス株式会社
作業機
2か月前
モトコマ株式会社
寄せポンチホルダー
17日前
工機ホールディングス株式会社
作業機
1か月前
工機ホールディングス株式会社
作業機
1か月前
続きを見る
他の特許を見る