TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025023896
公報種別
公開特許公報(A)
公開日
2025-02-19
出願番号
2024115499
出願日
2024-07-19
発明の名称
ロボット組立て技能学習方法
出願人
ファナック株式会社
代理人
個人
,
個人
,
個人
,
個人
主分類
B25J
13/00 20060101AFI20250212BHJP(手工具;可搬型動力工具;手工具用の柄;作業場設備;マニプレータ)
要約
【課題】作業に適用可能なロボット組立て技能学習用の方法およびシステムを提供する。
【解決手段】コンプライアンス制御器に対してアクタークリティック強化学習制御器が結合され、ここでアクターニューラルネットワークがロボット状態データフィードバックに基づいてコンプライアンス制御器に対して目標位置調整行動データを提供し、クリティックニューラルネットワークがアクターを訓練するために使用される。クリティックニューラルネットワークはロボットからロボット状態データフィードバックおよび報酬データを、アクターからの行動データと共に受信し、報酬を最大化するために、状態と結び付けられた最適な行動を相関する。
【選択図】図5
特許請求の範囲
【請求項1】
ロボット組立て技能学習方法において、
コンプライアンス制御器によって制御されるロボットを提供するステップであって、前記ロボットは、ロボットが第1の部品を第2の部品との組立て位置まで移動させる組立て動作を行なうように構成されている、ステップと、
前記コンプライアンス制御器および前記ロボットと通信状態にある強化学習制御器を提供するステップであって、前記強化学習制御器がアクターモジュールとクリティックモジュールを含み、前記アクターモジュールが、前記ロボットからのフィードバックとして受信された状態データに応答して行動を決定するための方策を定義するニューラルネットワークを含んでおり、前記クリティックモジュールが前記ロボットからのフィードバックとして受信された報酬データを最大化する目的で前記状態データと前記行動を相関するクリティック関数を最適化するニューラルネットワークを含んでいるステップと、
学習モードで前記強化学習制御器を用いて組立て動作を行なうように前記ロボットを動作させるステップであって、前記アクターモジュールがコンプライアンス制御器に対し入力として前記行動を提供し、前記クリティックモジュールは、前記アクターモジュールが前記組立て動作の予め定義された性能レベルを実証するまで、前記クリティック関数に基づいて前記アクターモジュールの前記方策のパラメータを更新するステップと、
生産モードで前記強化学習制御器を用いて前記組立て動作を行なうために前記ロボットを動作させるステップであって、前記アクターモジュールが前記コンプライアンス制御器に対する入力として前記行動を提供し、前記クリティックモジュールは使用されない、ステップと、を含む方法。
続きを表示(約 1,100 文字)
【請求項2】
前記行動が、前記コンプライアンス制御器に対して提供される前記第2の部品との関係における前記第1の部品の3つの並進および3つの回転を含めた目標位置調整である、請求項1に記載の方法。
【請求項3】
前記目標位置調整が、予め定義された動作限界により境界画定された公称目標位置と組合わされ、前記コンプライアンス制御器への前記入力として使用される、請求項2に記載の方法。
【請求項4】
前記状態データには、各々3つの並進成分と3つの回転成分とを含む前記ロボットの位置および速度、ならびに各々3方向での部品間接触力およびトルクが含まれる、請求項1に記載の方法。
【請求項5】
報酬データには、前記組立て動作が正常に完了した場合の正の値および前記組立て動作が正常に完了しなかった場合の負の値が含まれており、前記正の値が前記負の値より大きい絶対値を有する、請求項1に記載の方法。
【請求項6】
前記アクターモジュール内で前記ニューラルネットワークによって定義された前記方策が、状態との関係における行動の統計的分布であり、前記統計的分布が、平均および標準偏差を含めた前記パラメータによって定義される、請求項1に記載の方法。
【請求項7】
前記アクターモジュール内の前記方策の前記パラメータは、前記強化学習制御器が前記生産モードで動作している場合に、固定されている、請求項6に記載の方法。
【請求項8】
前記クリティックモジュールによる前記アクターモジュールの訓練ステップには、クリティック関数によって計算された前記報酬を最大化する所望の行動を決定する最適化計算を使用するステップ、および前記所望の行動に基づいて前記アクターモジュール内の前記方策の前記パラメータを調整するステップが含まれる、請求項6に記載の方法。
【請求項9】
前記クリティック関数が、現在の状態および現在の行動についての報酬を、現在の実際の報酬に将来の状態および将来の行動についての加重期待報酬を含めた項を加えたものに等しいものとして計算する、請求項1に記載の方法。
【請求項10】
前記コンプライアンス制御器は、第1の項が前記強化学習制御器により調整される目標位置と現在のロボット位置の間の差を含み、第2の項が接触力ベクトルを乗じたアドミッタンス利得マトリックスの逆数を含む計算を使用してロボットコマンド速度を計算するアドミッタンス制御ルーチンを含んでいる、請求項1に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は概して、ロボット技能学習のための方法に関し、より詳細には、コンプライアンス制御器を利用する高精度組立て作業に適用可能なロボット技能学習のための方法において、アクタークリティック強化学習制御器が、コンプライアンス制御器に対し公称目標位置入力補正を提供しながら訓練され、強化学習制御器が、訓練完了後はアクターのみのモードで使用される方法に関する。
続きを表示(約 3,300 文字)
【背景技術】
【0002】
広範囲の製造および組立て動作を反復的に行なうための産業ロボットの使用は、周知である。しかしながら、ホール内にペグを設置すること、または1つの部品を別の部品に差し込むことなどといったいくつかのタイプの公差の厳しい組立て動作は、なおも、ロボットが行なうには問題がある。ロボットでは、公差の厳しい組立て作業において発生する可能性のある複雑な不整列を検出し補正するのが困難であることから、これらのタイプの動作は多くの場合、手作業で行なわれている。すなわち、把持および固定の両方の不確実性に起因する部品姿勢の小さな偏差のため、ロボットは部品をその公称設置位置まで単純に移動させることができず、むしろ一方の部品の他方の部品内への適正な整列および嵌合を「手探りで探さ」なければならない。
【0003】
これらの不可避的な位置付け上の不確実性に対し組立て作業をロバストなものにするために、ロボットシステムは典型的に力制御器(別名、コンプライアンス制御またはアドミッタンス制御)を使用し、ここで力およびトルクのフィードバックを用いて、組立て動作を完了するのに必要とされる動作コマンドが提供される。ロボット組立て作業のための力制御器をセットアップしチューニングするための従来の方法は、マニュアルチューニングによるものであり、この場合、人間のオペレータが組立て作業のために実際のロボットシステムをプログラミングし、プログラムを実行し、試行錯誤式に力制御パラメータを入念に調整する。しかしながら、物理的試験を用いたこれらの力制御機能のチューニングおよびセットアップは、手作業での試行錯誤を行なう必要があるため、時間もコストもかかるものである。同様に、実際のシステム上でチューニングが行なわれる場合、実際のシステムが要件を満たしていないならば、再設計が求められる可能性がある。実際の物理的試験システム上でのパラメータチューニングは、ロボットがコンプライアントでなく、したがって部品間の予期せぬ強い接触がロボット、部品または周囲の固定具または構造に損傷を加える可能性があることから、危険なことでもある。
【0004】
シミュレーション環境内でのロボット組立て用に力制御パラメータをチューニングするためのシステムが存在するが、これらの既存のシステムは、緩慢さおよびロバスト性の欠如を含めたいくつかの制限を示す。他の既存のシステムは、力制御器に対して学習機能を適用しようと試みるものである。しかしながら、既存の制限学習システムは、ロバストでなく、故障データが典型的に、学習制御器内の実演データを圧倒する。既存の強化学習システムは、訓練するのに長い時間がかかり、典型的に途中で多くの試行の失敗を経験し、先に論述した部品損傷および危険な挙動のリスクを伴う。
【0005】
上述の状況を鑑みて、コンプライアンス制御器を用いた公差が厳しい利用分野でのロボット組立技能学習のために、改良された方法が必要とされている。
【発明の概要】
【0006】
以下の開示は、力またはコンプライアンス制御器を利用した高精度組立て作業に適用可能なロボット組立て技能学習用の方法およびシステムについて説明する。コンプライアンス制御器に対してアクタークリティック強化学習制御器が結合され、ここでアクターニューラルネットワークはロボット状態データフィードバックに基づいてコンプライアンス制御器に対して目標位置調整の形で行動データを提供し、クリティックニューラルネットワークはアクターニューラルネットワークを訓練するために使用される。クリティックニューラルネットワークはロボットからロボット状態データフィードバックおよび報酬データを、アクターニューラルネットワークからの行動データと共に受信し、報酬を最適化するために、状態と結び付けられた最適な行動を相関する。このとき、クリティックは、アクターが状態データに応答して極めて有効な行動を生成するように、アクターのパラメータを調整し、コンプライアンス制御器/ロボットシステムによる組立て作業の迅速で信頼性の高い完了を導く。アクターニューラルネットワークが適切に訓練された後、クリティックニューラルネットワークはもはや使用されない。
【0007】
本開示の追加の特徴は、添付図面と併せて以下の明細書および添付クレームを考慮することによって、明確になるものである。
【図面の簡単な説明】
【0008】
図1は、ロボット組立て動作についての課題を創出する部品位置付けの不確実性の源を例示する、公差が厳しい部品に対して行なわれているロボット組立て動作の例示である。
図2は、挿入軸に直交する平面内でロボットにホール探索を行なわせるような形での整列を部品が必要としている、ロボットによる組立て中の部品の例示である。
図3は、挿入軸を中心とする適正な回転配向を見い出すべくロボットに位相探索を行なわせるような形での整列を部品が必要としている、ロボットによる組立て中の部品の例示である。
図4は、当該技術分野において公知のコンプライアンス制御器(すなわち力またはアドミッタンス制御)を用いたロボット組立て動作用に構成されたシステムのブロック図による例示である。
図5は、本開示の一実施形態に係る、アクタークリティック強化学習モジュールを含むコンプライアンス制御器を用いた、ロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図6は、本開示の実施形態において使用されている強化学習システムのブロック図による例示である。
図7は、本開示の一実施形態に係る、訓練されたアクターのみの強化学習モジュールを含むコンプライアンス制御器およびロボットを使用した、ロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図8は、本開示の一実施形態に係る、コンプライアンス制御器/ロボットシステムを用いたアクタークリティック強化学習を使用するロボット組立技能学習用の方法の流れ図である。
図9は、本開示の一実施形態に係る、人間による実演と強化学習ベースの発見とを組合わせたロボット組立技能学習用のシステムの概念的例示である。
図10は、本開示の一実施形態に係る、進行中の自己学習の間の人間による補正のために、同時訓練モードで強化学習モジュールを含むコンプライアンス制御器を使用するロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図11は、本開示の一実施形態に係る、オンライン自己学習モードで強化学習モジュールを含むコンプライアンス制御器を使用するロボット組立技能学習用に構成されたシステムのブロック図による例示である。
図12は、本開示の一実施形態に係る、人間による実演データを使用するオフライン事前訓練および人間の同時訓練を含むオンライン自己学習を含む、コンプライアンス制御器/ロボットシステムを含む強化学習制御器を使用するロボット組立技能学習のための方法の流れ図である。
【発明を実施するための形態】
【0009】
訓練後アクターのみのモードで使用されるアクタークリティックを使用したロボット技能学習のための方法に向けられた本開示の実施形態についての以下の論述は、事実上単なる例示にすぎず、いかなる形であれ、開示されている技術またはその利用分野または使用を限定するように意図されたものではない。
【0010】
さまざまな製造および組立て動作のための産業ロボットの使用は周知である。本開示は、多くのロボット組立て動作において遭遇する課題の克服に向けられている。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
腰袋
8日前
株式会社エビス
連結具
2か月前
株式会社マキタ
電動工具
16日前
株式会社マキタ
電動工具
1日前
日本車輌製造株式会社
締め付け工具
16日前
川崎重工業株式会社
ロボットアーム
16日前
川崎重工業株式会社
ロボットアーム
16日前
川崎重工業株式会社
ロボットリスト
16日前
川崎重工業株式会社
ロボット
2か月前
川崎重工業株式会社
ロボット
2か月前
川崎重工業株式会社
ロボットシステム
16日前
CKD株式会社
吸着型搬送装置
1か月前
日本信号株式会社
作業機制御システム
1日前
長堀工業株式会社
締結装置
1か月前
川崎重工業株式会社
塗装ロボット
1か月前
株式会社安川電機
ロボット
1か月前
株式会社京阪エンジニアリング
脱着装置
2日前
ジヤトコ株式会社
圧入装置
29日前
株式会社安川電機
ロボット
1か月前
株式会社安川電機
ロボット
1か月前
株式会社マキタ
集塵アタッチメント
1日前
株式会社スター精機
ワーク搬送装置
5日前
株式会社不二越
ロボットの操作装置
2か月前
株式会社アマダ
磁気吸着装置
1か月前
株式会社山下工業研究所
ラチェットレンチ
2か月前
工機ホールディングス株式会社
作業機
2か月前
トヨタ自動車株式会社
制御装置及び制御方法
16日前
モトコマ株式会社
寄せポンチホルダー
17日前
川崎重工業株式会社
ロボットシステム
8日前
工機ホールディングス株式会社
作業機
1か月前
工機ホールディングス株式会社
作業機
1か月前
個人
ターンバックル用工具
23日前
株式会社マキタ
電動工具用集塵システム
1か月前
有限会社松尾エンジニアリング
連結部材
17日前
株式会社ミマキエンジニアリング
印刷システム
1か月前
株式会社ミマキエンジニアリング
印刷システム
1か月前
続きを見る
他の特許を見る