TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025100170
公報種別公開特許公報(A)
公開日2025-07-03
出願番号2023217347
出願日2023-12-22
発明の名称学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラム
出願人オムロン株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 3/092 20230101AFI20250626BHJP(計算;計数)
要約【課題】開始点から終点まで対象物を移動させるタスクを実行する際に用いられる学習済みモデルを効率的に生成する。
【解決手段】制御システムにおいて、制御装置は、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、強化学習を実行する際に用いられる第1損失関数に対して、第1データを学習用モデルへ入力した際の出力値と第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、学習済みモデルを生成するための全体損失関数を設定し、取得したペアに基づいて、全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、対象物の位置データが入力されると対象物の位置の変位を表す移動データを出力する学習済みモデルを生成する。
【選択図】図10
特許請求の範囲【請求項1】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成装置であって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得する学習用取得部と、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定する設定部と、
前記学習用取得部により取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する学習部と、
を備える学習済みモデル生成装置。
続きを表示(約 2,200 文字)【請求項2】
前記第2データは、前記第1データを変換することにより得られたデータである、
請求項1に記載の学習済みモデル生成装置。
【請求項3】
前記学習用対象物は、ロボットのアームであり、
前記第1データ及び前記第2データは、前記アームの位置の変位及び前記アームに設置された力覚センサから出力される力覚値の少なくとも一方を含むデータであり、
前記第2データは、前記第1データを変換することにより得られたデータであって、かつ前記第1データと対称性を有するデータであり、
前記学習部は、前記アームの位置データが入力されると前記アームの前記移動データが出力される前記学習済みモデルを生成する、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項4】
前記第1データが表す移動履歴と前記第2データが表す移動履歴との間の関係は、線対称又は点対称な関係である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項5】
前記第2損失関数は、前記第1データを強化学習における行動価値関数へ入力した際の前記行動価値関数の出力値と、前記第2データを前記行動価値関数へ入力した際の前記行動価値関数の出力値との間の差分を含む損失関数である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項6】
前記学習用モデル及び前記学習済みモデルは、強化学習における方策に相当し、
前記第2損失関数は、
前記第1データを方策へ入力した際の前記方策の出力値と、前記第2データを方策へ入力した際の前記方策の出力値との間の差分を含む損失関数である、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項7】
強化学習における方策は、Soft Actor-Criticアルゴリズムにおけるアクターであり、
強化学習における行動価値関数は、Soft Actor-Criticアルゴリズムにおけるクリティックであり、
前記第2損失関数は、前記第1データを前記クリティックへ入力した際の前記クリティックの出力値と、前記第2データを前記クリティックへ入力した際の前記アクターの出力値との間の差分と、前記第1データを前記アクターへ入力した際の前記アクターの出力値と、前記第2データを前記アクターへ入力した際の前記アクターの出力値との間の差分とを含み、
前記学習部は、
Soft Actor-Criticアルゴリズムに従って強化学習を実行する際に、
前記全体損失関数が小さくなるように、前記クリティックに対応する前記行動価値関数を学習させると共に、前記アクターに対応する前記方策を学習させ、前記アクターに対応する前記学習済みモデルを生成する、
請求項1又は請求項2に記載の学習済みモデル生成装置。
【請求項8】
対象物の位置データを取得する取得部と、
請求項1又は請求項2に記載の学習済みモデル生成装置によって生成された前記学習済みモデルに対して、前記取得部により取得された前記対象物の位置データを入力することにより、前記対象物の前記移動データを取得し、前記対象物の前記移動データに基づいて前記対象物の位置を制御する制御部と、
を備えた制御装置。
【請求項9】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成方法であって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、
取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。
【請求項10】
対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成プログラムであって、
第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、
強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、
取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、
処理をコンピュータに実行させるための学習済みモデル生成プログラム。

発明の詳細な説明【技術分野】
【0001】
本開示は、学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラムに関する。
続きを表示(約 2,300 文字)【背景技術】
【0002】
従来、物体を把持する動作をロボットへ学習させる技術が知られている(例えば、非特許文献1を参照)。この技術では、物体が写る学習用の画像データを増加させ、ロボットはその学習用の画像に基づいて、自らのグリッパーを移動させて物体を把持する際の動作を学習する。
【先行技術文献】
【非特許文献】
【0003】
Xupeng Zhu, Dian Wang, Ondrej Biza, Guanang Su, Robin Walters, Robert Platt, "Sample Efficient Grasp Learning Using Equivariant Models", https://arxiv.org/abs/2202.09468.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記非特許文献1の技術は、ロボットに対して物体を把持する際の動作を学習させる場合に、物体が写る学習用の画像データを増加させる技術である。また、上記非特許文献1では、畳み込みニューラルネットワークを用いて強化学習における行動価値関数が学習される。畳み込みニューラルネットワークは、物体が写る画像の対称性を考慮することが可能なモデルである。上記非特許文献1では、行動価値関数を畳み込みニューラルネットワークによって実現することにより、例えば、画像に写る物体が回転すると、その物体の回転に応じて行動価値関数の値も変化するように構成されている。
【0005】
その一方で、例えば、ロボットが物体を移動させるようなタスクを実行する場合がある。この場合において、例えば、ロボットが強化学習を実行する際には、ロボットは物体の移動経路を学習する必要がある。例えば、ロボットが、物体の一例であるペグを穴へ挿入させるペグインホールというタスクを実行する際には、どのような移動経路でペグを穴へ移動させればよいのかということをロボットが学習する必要がある。
【0006】
上記非特許文献1では、畳み込みニューラルネットワークによって、物体自体の回転対称性を考慮した行動価値関数が実現されている。このため、上記非特許文献1の技術を利用したとしても、物体自体の回転対称性を考慮した学習済みモデルが得られるのみであり、また、その学習済みモデルは、物体を把持する際に用いられる学習済みモデルである。仮に、上記非特許文献1の技術を利用して物体を移動させるタスクを実行する際に用いられる学習済みモデルを得ようとしたとしても、多大な計算コストかかるため、学習済みモデルを効率的に生成することができない。
【0007】
なお、物体を移動させるタスクを実行する際に用いられる学習済みモデルを生成するためには、物体を実際に移動させた際の移動履歴を表す膨大な学習用データを用いる必要がある。しかし、このような膨大な学習用データを用いて学習済みモデルを生成する場合には、多大な計算コストがかかり、学習済みモデルを効率的に生成することができない、という課題がある。
【0008】
本開示は、上記の点に鑑みてなされたものであり、開始点から終点まで対象物を移動させるタスクを実行する際に用いられる学習済みモデルを効率的に生成することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本開示に係る学習済みモデル生成装置は、対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成装置であって、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得する学習用取得部と、強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定する設定部と、前記学習用取得部により取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する学習部と、を備える学習済みモデル生成装置である。
【0010】
また、本開示の学習済みモデル生成方法は、対象物の移動を制御するための学習済みモデルを生成する学習済みモデル生成方法であって、第1開始点から終点までの学習用対象物の移動履歴を表す第1データと、第2開始点から終点までの学習用対象物の移動履歴を表す第2データとのペアを取得し、強化学習を実行する際に用いられる第1損失関数に対して、前記第1データを学習用モデルへ入力した際の出力値と前記第2データを学習用モデルへ入力した際の出力値との差を表す第2損失関数を追加することにより、前記学習済みモデルを生成するための全体損失関数を設定し、取得された前記ペアに基づいて、前記全体損失関数の出力値が小さくなるように、学習用モデルを強化学習させることにより、前記対象物の位置データが入力されると前記対象物の位置の変位を表す移動データを出力する前記学習済みモデルを生成する、処理をコンピュータが実行する学習済みモデル生成方法である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

オムロン株式会社
充電システム及びモジュール
1日前
個人
対話装置
29日前
個人
情報処理装置
29日前
個人
情報処理システム
1日前
個人
検査システム
3日前
個人
記入設定プラグイン
17日前
個人
情報処理装置
25日前
個人
プラグインホームページ
1か月前
個人
情報入力装置
29日前
キヤノン電子株式会社
携帯装置
2日前
個人
不動産売買システム
9日前
株式会社サタケ
籾摺・調製設備
2日前
個人
物価スライド機能付生命保険
29日前
個人
マイホーム非電子入札システム
29日前
個人
備蓄品の管理方法
1日前
キヤノン株式会社
情報処理装置
2日前
サクサ株式会社
中継装置
2日前
株式会社BONNOU
管理装置
22日前
キヤノン株式会社
情報処理装置
2日前
個人
決済手数料0%のクレジットカード
1か月前
ホシデン株式会社
タッチ入力装置
9日前
キヤノン電子株式会社
名刺管理システム
3日前
サクサ株式会社
カードの制動構造
1か月前
東洋電装株式会社
操作装置
2日前
株式会社ワコム
電子消去具
9日前
アスエネ株式会社
排水量管理方法
2日前
株式会社東芝
電子機器
10日前
東洋電装株式会社
操作装置
2日前
村田機械株式会社
割当補助システム
1か月前
個人
パターン抽出方法及び通信多重化方法
8日前
株式会社ライト
情報処理装置
22日前
トヨタ自動車株式会社
情報処理装置
1か月前
株式会社JVCケンウッド
管理装置
3日前
株式会社CBE-A
情報処理システム
8日前
応研株式会社
業務支援システム
1か月前
住友重機械工業株式会社
力覚伝達装置
24日前
続きを見る