特許ウォッチ

公開番号2024071272
公報種別公開特許公報(A)
公開日2024-05-24
出願番号2022182126
出願日2022-11-14
発明の名称情報処理装置
出願人日本電気株式会社
代理人弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
主分類B25J 13/00 20060101AFI20240517BHJP(手工具;可搬型動力工具;手工具用の柄;作業場設備;マニプレータ)
要約【課題】制御対象に対する制御計画の評価として、長期的な影響を考慮した計画列の評価を行うことのできる技術を提供する。
【解決手段】情報処理装置(1)は、制御対象及び環境の少なくともいずれかの状態を示す状態情報と、当該制御対象に対する制御計画の時系列である計画列とを取得する取得部(11)と、前記状態情報と前記計画列とを学習済モデルに入力して得られる出力を用いて、予測される未来の状態を示す状態情報の時系列である状態列を生成する生成部(12)と、前記状態列を用いて前記取得手段が取得した計画列の成功確率を算出する算出部(13)と、を備える。
【選択図】図1
特許請求の範囲【請求項１】
制御対象及び環境の少なくともいずれかの状態を示す状態情報と、当該制御対象に対する制御計画の時系列である計画列とを取得する取得手段と、
前記状態情報と前記計画列とを学習済モデルに入力して得られる出力を用いて、予測される未来の状態を示す状態情報の時系列である状態列を生成する生成手段と、
前記状態列を用いて前記取得手段が取得した計画列の成功確率を算出する算出手段と、
を備える情報処理装置。
続きを表示（約 1,300 文字）【請求項２】
前記算出手段は、前記状態列と機械学習により生成された第２の学習済モデルとを用いて、前記取得手段が取得した計画列の成功確率を算出する、
請求項１に記載の情報処理装置。
【請求項３】
前記算出手段は、前記状態列に含まれる最後尾の状態情報を前記第２の学習済モデルに入力することにより前記成功確率を算出する、
請求項２に記載の情報処理装置。
【請求項４】
前記算出手段は、
前記状態列に含まれる状態情報を、前記第２の学習済モデルに入力することにより前記状態情報のそれぞれの成功確率を算出し、
算出した前記状態情報毎の成功確率の統計結果に基づき、前記計画列の成功確率を算出する、
請求項２に記載の情報処理装置。
【請求項５】
前記算出手段は、
前記状態列に含まれる状態情報である状態ベクトルの平均ベクトルを算出し、
算出した平均ベクトルを第２の学習済モデルに入力することにより前記成功確率を算出する、
請求項２に記載の情報処理装置。
【請求項６】
前記状態情報は、画像から得られる特徴量、ロボットアームの関節角度、並びに画像中の物体の位置及び姿勢、の少なくともいずれかを示す情報を含む、
請求項１又は２に記載の情報処理装置。
【請求項７】
前記制御計画は、複数の行動クラスを含む行動クラス群から選択された行動クラス、及びロボット関節への入力値、の少なくともいずれかを含む、
請求項１又は２に記載の情報処理装置。
【請求項８】
前記制御計画は、前記環境の状態を示す情報を含む、
請求項１又は２に記載の情報処理装置。
【請求項９】
（ｉ）制御対象に対する制御計画の時系列である計画列、並びに、当該計画列に含まれる各制御計画の実行により得られた、当該制御対象及び環境の少なくともいずれかの状態を示す状態情報の列である状態列と、（ｉｉ）当該計画列に含まれる各制御計画の実行により当該制御対象によるタスクが成功したか否かを示すラベルと、の組を含む訓練データを取得する取得手段と、
前記訓練データを用いた教師あり学習により、制御対象に対する制御計画の時系列である計画列の成功確率を出力する学習済モデルを生成する生成手段と、
を備える情報処理装置。
【請求項１０】
（ｉ）第１の制御対象及び環境の少なくともいずれかの状態を示す第１の状態情報、及び当該第１の制御対象に対する制御計画の時系列である計画列と、（ｉｉ）当該計画列に含まれる各制御計画の実行により得られた第２の状態情報と、を含む訓練データを取得する取得手段と、
第２の制御対象に対する制御計画と、当該制御計画が実行される前の当該第２の制御対象及び環境の少なくともいずれかの状態を示す第３の状態情報とを入力とし、当該第３の状態情報の遷移後の状態を示す第４の状態情報であって当該制御計画の時系列である計画列の成功確率の算出処理に用いられる第４の状態情報を出力とする学習済モデルを、前記訓練データを用いた教師あり学習により生成する生成手段と、
を備える情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は、制御対象に対する制御計画を生成するための技術に関する。
続きを表示（約 2,300 文字）【背景技術】
【０００２】
ＴＡＭＰ（Task and Motion Planning）と最適制御とを用いて、複雑で長期的なタスクをロボットアームで実行する計画を生成する技術が提案されている。このような技術では計画の成功率を高めるために制約条件を人手で設計する必要があるが、必要な制約条件を網羅することは困難であり、また、制約条件の不足により実現不可能な計画を立ててしまう場合もある。そこで、制約条件の設計を行うことなく計画案を生成する技術として、例えば非特許文献１には、ランダムサンプリングしたロボットモーターへの複数の入力値のなかで、初期画像及び現在の画像と共にニューラルネットワークに入力したときに、このニューラルネットワークの出力値（計画の成功確率）が高くなる入力値を採用し、これを繰り返すことで、ロボットの行動を実施することが記載されている。
【先行技術文献】
【非特許文献】
【０００３】
Levine, Sergey, et al., "Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection", The International journal of robotics research 37.4-5 (2018): 421-436
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、非特許文献１に記載の技術では、１時刻分の情報（現在の画像）のみしか考慮しておらず、長期的な影響を考慮できないという問題がある。
【０００５】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、制御対象に対する制御計画の評価として、長期的な影響を考慮した計画列の評価を行うことのできる技術を提供することである。
【課題を解決するための手段】
【０００６】
本発明の一態様に係る情報処理装置は、制御対象及び環境の少なくともいずれかの状態を示す状態情報と、当該制御対象に対する制御計画の時系列である計画列とを取得する取得手段と、前記状態情報と前記計画列とを学習済モデルに入力して得られる出力を用いて、予測される未来の状態を示す状態情報の時系列である状態列を生成する生成手段と、前記状態列を用いて前記取得手段が取得した計画列の成功確率を算出する算出手段と、を備える。
【０００７】
また、本発明の一態様に係る情報処理装置は、（ｉ）第１の制御対象及び環境の少なくともいずれかの状態を示す第１の状態情報、及び当該第１の制御対象に対する制御計画の時系列である計画列と、（ｉｉ）当該計画列に含まれる各制御計画の実行により得られた第２の状態情報と、を含む訓練データを取得する取得手段と、第２の制御対象に対する制御計画と、当該制御計画が実行される前の当該第２の制御対象及び環境の少なくともいずれかの状態を示す第３の状態情報とを入力とし、当該第３の状態情報の遷移後の状態を示す第４の状態情報であって当該制御計画の時系列である計画列の成功確率の算出処理に用いられる第４の状態情報を出力とする学習済モデルを、前記訓練データを用いた教師あり学習により生成する生成手段と、を備える。
【０００８】
また、本発明の一態様に係る情報処理装置は、少なくとも１つのプロセッサが、制御対象及び環境の少なくともいずれかの状態を示す状態情報と、当該制御対象に対する制御計画の時系列である計画列とを取得することと、前記状態情報と前記計画列とを学習済モデルに入力して得られる出力を用いて、予測される未来の状態を示す状態情報の時系列である状態列を生成することと、前記状態列を用いて前記計画列の成功確率を算出することと、を含む。
【０００９】
また、本発明の一態様に係る情報処理方法は、少なくとも１つのプロセッサが、（ｉ）制御対象に対する制御計画の時系列である計画列、並びに、当該計画列に含まれる各制御計画の実行により得られた、当該制御対象及び環境の少なくともいずれかの状態を示す状態情報の列である状態列と、（ｉｉ）当該計画列に含まれる各制御計画の実行により当該制御対象によるタスクが成功したか否かを示すラベルと、の組を含む訓練データを取得することと、前記訓練データを用いた教師あり学習により、制御対象に対する制御計画の時系列である計画列の成功確率を出力する学習済モデルを生成することと、を含む。
【００１０】
また、本発明の一態様に係る情報処理方法は、少なくとも１つのプロセッサが、（ｉ）第１の制御対象及び環境の少なくともいずれかの状態を示す第１の状態情報、及び当該第１の制御対象に対する制御計画の時系列である計画列と、（ｉｉ）当該計画列に含まれる各制御計画の実行により得られた第２の状態情報と、を含む訓練データを取得することと、
第２の制御対象に対する制御計画と、当該制御計画が実行される前の当該第２の制御対象及び環境の少なくともいずれかの状態を示す第３の状態情報とを入力とし、当該第３の状態情報の遷移後の状態を示す第４の状態情報であって当該制御計画の時系列である計画列の成功確率の算出処理に用いられる第４の状態情報を出力とする学習済モデルを、前記訓練データを用いた教師あり学習により生成することと、を含む。
（【００１１】以降は省略されています）

関連特許