TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024035150
公報種別公開特許公報(A)
公開日2024-03-13
出願番号2023137896
出願日2023-08-28
発明の名称エンティティを制御するためのシステムおよび方法
出願人三菱電機株式会社
代理人弁理士法人深見特許事務所
主分類G05B 13/02 20060101AFI20240306BHJP(制御;調整)
要約【課題】エンティティを制御するためのコントローラを提供する。
【解決手段】探索環境120において、コントローラは、階層型マルチモーダル強化学習(RL)ニューラルネットワークを記憶するためのメモリとプロセッサとを備える。階層型マルチモーダルRLニューラルネットワークは、第1のレベルコントローラと2つの第2のレベルコントローラとを含む。第2のレベルコントローラの各々は、第1のモダリティに関連する第1のサブレベルコントローラと、第2のモダリティに関連する第2のサブレベルコントローラとを含む。プロセッサは、入力データ及び階層型マルチモーダルRLニューラルネットワークの状態に基づいて、第1のレベルコントローラを使用して、2つの第2のレベルコントローラのうちの1つを選択する。選択された第2のレベルコントローラは、制御アクションのセットを決定し、制御アクションのセットに基づいてエンティティを制御する。
【選択図】図2
特許請求の範囲【請求項1】
エンティティを制御するためのコントローラであって、
階層型マルチモーダル強化学習(RL)ニューラルネットワークを記憶するためのメモリを備え、前記階層型マルチモーダルRLニューラルネットワークは、第1のレベルコントローラと、少なくとも2つの第2のレベルコントローラとを含み、前記少なくとも2つの第2のレベルコントローラは、少なくとも、第1のモダリティに関連する第1のサブレベルコントローラと、第2のモダリティに関連する第2のサブレベルコントローラとを含み、前記第1のモダリティは、前記第2のモダリティとは異なり、前記コントローラはさらに、
プロセッサを備え、前記プロセッサは、
前記第1のレベルコントローラを使用して、少なくとも入力データおよび前記階層型マルチモーダルRLニューラルネットワークの状態に基づいて、タスクに関連する第1のサブタスクを実行するために、前記少なくとも2つの第2のレベルコントローラのうちの1つを選択するよう構成され、
前記少なくとも2つの第2のレベルコントローラからの前記選択された第2のレベルコントローラに、前記第1のサブタスクを実行するために、制御アクションのセットを決定させるよう構成され、
前記選択された第2のレベルコントローラによって決定された前記制御アクションのセットに基づいて前記エンティティを制御するよう構成される、コントローラ。
続きを表示(約 2,000 文字)【請求項2】
前記プロセッサは、さらに、
前記選択された第2のレベルコントローラを使用して、前記第1のサブタスクの前記実行で、前記階層型マルチモーダルRLニューラルネットワークの前記状態を更新するよう構成され、
前記第1のレベルコントローラを使用して、少なくとも、前記入力データ、前記階層型マルチモーダルRLニューラルネットワークの以前の状態、および前記階層型マルチモーダルRLニューラルネットワークの前記更新された状態に基づいて、前記タスクに関連する第2のサブタスクを実行するために、前記少なくとも2つの第2のレベルコントローラのうちの1つを選択するよう構成され、前記第2のサブタスクは、前記タスクを完了するために前記第1のサブタスクの後に実行される、請求項1に記載のコントローラ。
【請求項3】
前記プロセッサは、
前記少なくとも2つの第2のレベルコントローラの各々の選択に関連付けられるリソース制約を決定するよう構成され、
前記第1のレベルコントローラを使用して、前記リソース制約に基づいて、前記少なくとも2つの第2のレベルコントローラのうちの1つを選択するよう構成される、請求項1に記載のコントローラ。
【請求項4】
前記第1のモダリティに関連する前記第1のサブレベルコントローラおよび前記第2のモダリティに関連する前記第2のサブレベルコントローラによって使用される、前記入力データまたは前記階層型マルチモーダルRLニューラルネットワークの前記状態のうちの少なくとも1つは、異なる、請求項1に記載のコントローラ。
【請求項5】
前記第1のサブレベルコントローラは、映像情報に基づいて前記制御アクションのセットを決定するよう構成され、前記第2のサブレベルコントローラは、音声情報に基づいて前記制御アクションのセットを決定するよう構成される、請求項1に記載のコントローラ。
【請求項6】
前記第1のサブレベルコントローラに関連する前記第1のモダリティは音声または映像ベースのモダリティであり、前記第2のサブレベルコントローラに関連する前記第2のモダリティは自然言語ベースのモダリティである、請求項1に記載のコントローラ。
【請求項7】
前記第1のレベルコントローラは、前記第1のサブレベルコントローラの選択に向けてバイアスされる、請求項6に記載のコントローラ。
【請求項8】
前記第1のサブレベルコントローラは、前記制御アクションのセットを、センサベースの音声情報またはセンサベースの映像情報のうちの少なくとも1つに基づいて決定するよう構成され、
前記第2のサブレベルコントローラは、前記制御アクションのセットを自然言語命令に基づいて決定するよう構成される、請求項6に記載のコントローラ。
【請求項9】
前記選択された第2のレベルコントローラが前記第1のモダリティに関連する前記第1のサブレベルコントローラである場合、前記プロセッサは、さらに、
目標推定値ベースのモダリティを含む前記第1のモダリティに関連する前記第1のサブレベルコントローラを使用して、前記階層型マルチモーダルRLニューラルネットワークの前記状態に関連付けられる状態変数の第1のセットと前記入力データとに少なくとも基づいて前記制御アクションのセットを決定するよう構成され、前記入力データは、前記センサベースの音声情報または前記センサベースの映像情報のうちの少なくとも1つを含み、前記プロセッサは、さらに、
前記第1のサブレベルコントローラを使用して、前記第1のサブタスクの前記実行に基づいて前記状態変数の第1のセットを更新するよう構成される、請求項8に記載のコントローラ。
【請求項10】
前記選択された第2のレベルコントローラが、自然言語ベースのモダリティを含む前記第2のモダリティに関連する前記第2のサブレベルコントローラである場合、前記プロセッサは、さらに、
前記第2のサブレベルコントローラを使用して、前記階層型マルチモーダルRLニューラルネットワークの前記状態に関連付けられる状態変数の第2のセットと前記入力データとに少なくとも基づいて前記制御アクションのセットを決定するよう構成され、前記入力データは前記自然言語命令を含み、前記状態変数の第1のセットは、前記状態変数の第2のセットとは異なり、前記プロセッサは、さらに、
前記第2のサブレベルコントローラを使用して、前記第1のサブタスクの前記実行に基づいて前記状態変数の第2のセットを更新するよう構成される、請求項9に記載のコントローラ。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、概してエンティティ制御に関し、より詳細には、特定のタスクを実行するようにエンティティを訓練および制御することに関する。
続きを表示(約 3,300 文字)【背景技術】
【0002】
人間を支援するロボットエージェントは、ロボット工学および人工知能(AI)の見込みを達成することの中心である。ロボット工学およびAIにおける最近の開発は、事前定義されたタスクを解決するために現実的な仮想世界を自律的にナビゲートすることができるエンティティ(エージェントまたはロボットなど)を設計することにある。例えば、視覚および言語ナビゲーション(VLN)では、エンティティまたはエージェントは、自然言語で提供される命令に従って目標場所にナビゲートするか、または所与の自然言語への回答を求めて視覚世界を探索してもよい。
【0003】
しかしながら、VLNエンティティまたはエージェントは、聴力がなく、すなわち、環境において、いかなる音声イベントも聴取することはできない、または音声的手掛かりを受信することはできない、と仮定される。したがって、現実的な仮想世界において展開および動作するVLNエンティティは、そのような環境を確実にナビゲートすることができない場合がある。この欠点に対処するために、ナビゲーションタスクは、仮想シーンにおいて音声源の位置を特定するために再定式化されてもよい。しかしながら、ナビゲーションタスクの再定式化は、エンティティまたはエージェントが従うべき自然言語命令がない。したがって、エンティティまたはエージェントは、依然として、現実的な仮想世界において確実に動作することができない場合がある。
【0004】
現実的な仮想世界におけるナビゲーションは、視聴覚的であるだけでなく、複雑で確率論的であることが多い。特に、現実的な仮想世界でナビゲートするエンティティまたはエージェントは、ナビゲーションの成功のために、音声入力、視覚入力、および言語入力等の異なる入力モダリティ間の相乗効果を求めなければならない場合がある。例えば、高齢者介護施設では、ロボットエージェントは、倒れる人の音がどこから聞こえるかを見つける必要があり得る。一方で、そのような音は散発的であり、したがって、エンティティまたはエージェントは、目標に到達するために視聴覚的モダリティのセマンティックな知識を使用しなければならない。他方では、そのようなイベントは、適時に対応される必要があり、エンティティまたはエージェントは、それが行うナビゲーションミスの数を最小限にしなければならない場合がある。ミスを最小限に抑えるために、エンティティまたはエージェントは、目標に到達するために、自身のナビゲーションアクションが不確実であるときに、人間の助けを必要としてもよい。
【0005】
ナビゲーションタスクについて複数のモダリティを有するそのような入力の重要な課題は、エンティティまたはエージェントが、いつクエリを問い合わせるべきか、およびいつ視聴覚的手掛かりに従って目標に到達するべきかを決定することができないことである。
【0006】
そのために、絶対正しい導き手に多くの回数問い合わせることは、エージェントの自律性を損なう可能性があり、導き手が人間である場合、あまり好ましくない可能性がある。他方、より少ない回数で導き手に問い合わせることは、エンティティまたはエージェントに、目標に到達することなく無限に環境を探索させるかもしれない。さらに、自然言語でエンティティまたはエージェントに提供される命令は、自然言語のノイズおよび複雑さのために、ナビゲート可能な命令に変換することが困難である場合がある。したがって、エンティティまたはエージェントは、ナビゲーションタスクの完了時間の増加、ナビゲーションタスクの完了の失敗、ナビゲーションタスクの不正確な実行、ナビゲーションタスクを完了するための経路計画の実現可能性の喪失、および特に現実的な仮想世界においてタスクを完了するための入力のモダリティの数の制限による経路品質の低下(余分な操作、コストの増加、および精度の低下など)などの様々な制限に悩まされる。
【発明の概要】
【0007】
いくつかの実施形態の目的は、現実的な視覚世界における音声源の位置特定を可能にする視聴覚原語(AVL)実施ナビゲーション技術を開示することである。いくつかの実施形態の別の目的は、音声源が現実的な視覚世界において位置を特定される視聴覚言語(AVL)実施ナビゲーション方法を開示することである。いくつかの実施形態の別の目的は、エンティティが視聴覚言語手掛かりを使用して音声源にナビゲートすることを開示することである。いくつかの実施形態の別の目的は、エンティティがナビゲーションステップを決定する際にその不確実性を暗黙的にモデル化し、ナビゲーション命令のために導き手からの支援を求めるように、音声源に到達するためのナビゲーションステップを生成するための新たなタイプのパラメータ化を開示することである。いくつかの実施形態の別の目的は、例えば、音声、視覚、または短い自然言語文からモダリティを選択することによって、受信されるべき入力される手掛かりのタイプを決定する、そのようなシステムおよび方法を提供することである。
【0008】
いくつかの実施形態は、エンティティが、ナビゲーション命令についていつクエリを尋ねるか、または導き手から支援を求めるか、およびいつ視聴覚的手掛かりに従って目標または音声源に到達するかを決定する必要があってもよい、という認識に基づく。視聴覚的手掛かりに基づいていつ導き手に問い合わせるかまたはナビゲートするかの決定は、極めて重要であり、なぜならば、あまりにも多くのクエリを尋ねることはエージェントの自律性を損ない得、導き手が人間である場合、あまり好ましくなく、また、問い合わせの回数があまりにも少ないと、エンティティが目標に到達することなくシーンを無限に探索し得るからである。
【0009】
エンティティに提供される命令は自然言語であるが、そのような命令はしばしばノイズが多く、ナビゲート可能な命令に正しく翻訳することが困難である。いつ導き手に問い合わせるかの決定を考慮する必要があり、その結果、自然言語命令を翻訳して目標に到達するまでの時間が短くなり得る。
【0010】
いくつかの実施形態は、いつ問い合わせるべきかを決定するために上位ポリシー(第1のレベルコントローラと呼ばれる)を学習することと、ナビゲートするために複数の下位ポリシー(第2のレベルコントローラと呼ばれる)を学習することとからなる、階層型強化学習フレームワークが、ナビゲーション中のエラーまたはミスを低減し、エンティティの無限の操縦を防止し得る、という理解に基づく。これにより、目標に到達する時間がさらに短縮され得る。しかしながら、いつ導き手に問い合わせるべきかを決定するために不確実性をモデル化することは、不確実性がアクション予測確率に関して定量化されるか、またはエンティティがナビゲートするのにいつ紛失されるかをチェックするためにヒューリスティックスを使用するかのいずれかであり、目標に到達するためにナビゲーションタスクを完了する時間を短縮することができない場合がある。さらに、エンティティがいつミスを起こしているかを識別すること、およびこの情報を組み込んで、いつ問い合わせるかを識別することは、エンティティの将来のアクションの完全な分析を必要とし得る。これはまた、エンティティのミスまたは不必要な操作を防止することに失敗し、それによって、ナビゲーションタスクを完了するための時間を低減することに失敗し得る。したがって、いくつかの実施形態の目的は、環境と対話し、環境を探索し、報酬を収集することによって、現在の観測および履歴情報に基づいていつ問い合わせるべきかを学習して、操縦におけるミスがより少なく、目標へのより速いナビゲーションを達成する、そのような方法を提供することである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三菱電機株式会社
照明器具
3日前
三菱電機株式会社
半導体装置
3日前
三菱電機株式会社
電動駆動装置
4日前
三菱電機株式会社
電動駆動装置
4日前
三菱電機株式会社
空調制御システム
3日前
三菱電機株式会社
ピックアップステージ
3日前
三菱電機株式会社
半導体装置、電力変換装置
3日前
三菱電機株式会社
トランスおよび電力変換装置
4日前
三菱電機株式会社
運転制御装置及び運転制御方法
3日前
三菱電機株式会社
加熱調理器及び加熱調理システム
3日前
三菱電機株式会社
無線通信システム、および、学習装置
3日前
三菱電機株式会社
通信装置、通信システム、および通信方法
4日前
三菱電機株式会社
回転電機のステータおよび回転電機のステータの製造方法
4日前
三菱電機ビルソリューションズ株式会社
洗浄装置および洗浄方法
3日前
三菱電機ビルソリューションズ株式会社
エレベータ用巻上機および油分漏れ検知装置
3日前
三菱電機株式会社
移動体通信システム、基地局および移動端末
5日前
三菱電機株式会社
ファジングデータ生成装置、ファジングデータ生成システム、パケット構成解析装置、及び、ネットワーク状態遷移管理装置
4日前
三菱電機ビルソリューションズ株式会社
移動体制御装置、移動体、移動体制御サーバ、ビルシステム、移動体制御方法および移動体制御プログラム
3日前
株式会社豊田自動織機
無人走行体
2か月前
川崎重工業株式会社
制御装置
2か月前
株式会社クボタ
作業車
1か月前
アズビル株式会社
流量制御装置
19日前
アズビル株式会社
電圧出力回路
1か月前
ミネベアミツミ株式会社
入力装置
10日前
トヨタ自動車株式会社
自動走行搬送車
18日前
エイブリック株式会社
ボルテージレギュレータ
18日前
株式会社クボタ
故障診断装置
17日前
株式会社クボタ
操作機構及び作業車
1か月前
リックス株式会社
状態検出装置
13日前
日本プラスト株式会社
節度感付加装置
1か月前
株式会社デンソー
制御装置
23日前
株式会社デンソー
制御装置
23日前
株式会社デンソー
減圧弁制御装置
1か月前
村田機械株式会社
搬送車システム
3日前
株式会社オリジン
電源装置
1か月前
株式会社GSユアサ
電力変換装置
26日前
続きを見る