特許ウォッチ

公開番号2025080215
公報種別公開特許公報(A)
公開日2025-05-23
出願番号2024102458
出願日2024-06-26
発明の名称3次元オブジェクト認識方法及び装置
出願人三星電子株式会社,Samsung Electronics Co.,Ltd.
代理人個人,個人
主分類G06T 7/00 20170101AFI20250516BHJP(計算;計数)
要約【課題】3次元オブジェクト認識方法及び装置が提供される。
【解決手段】その方法は、3次元空間に関する入力映像、3次元空間に関する入力ポイントクラウド、及び3次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する3次元バウンディングボックスを検出するステップを含む。
【選択図】図1

特許請求の範囲【請求項１】
３次元空間に関する入力映像、３次元空間に関する入力ポイントクラウド、及び３次元空間内のターゲットオブジェクトに関する入力言語を受信するステップと、
エンコーディングモデルを用いて前記入力映像の部分領域の候補映像特徴、前記入力ポイントクラウドのポイントクラウド特徴、及び前記入力言語の言語特徴を生成するステップと、
前記候補映像特徴と前記言語特徴との間の類似度の類似度スコアに基づいて、前記候補映像特徴のうち前記言語特徴に対応するターゲット映像特徴を選択するステップと、
前記ターゲット映像特徴及び前記ポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させ、デコーディング出力を生成するステップと、
前記デコーディング出力に基づいてオブジェクト検出モデルを動作させ、前記ターゲットオブジェクトに対応する３次元バウンディングボックスを検出するステップと、
を含む、３次元オブジェクト認識方法。
続きを表示（約 1,300 文字）【請求項２】
前記候補映像特徴、前記ポイントクラウド特徴、及び前記言語特徴を生成するステップは、
前記入力言語に基づいて言語エンコーディングモデルを動作させ、前記入力言語に対応する言語特徴を生成するステップと、
前記入力映像に基づいて映像エンコーディングモデル及び領域提案モデルを動作させ、前記入力映像の部分領域に対応する候補映像特徴を生成するステップと、
前記入力ポイントクラウドに基づいてポイントクラウドエンコーディングモデルを動作させ、前記入力ポイントクラウドに対応するポイントクラウド特徴を生成するステップと、
を含む、請求項１に記載の３次元オブジェクト認識方法。
【請求項３】
前記入力言語に基づいて前記ターゲットオブジェクトの幾何学的な特性を示す位置フィールド、及び前記ターゲットオブジェクトのクラスを示すクラスフィールドをそれぞれ含む拡張された表現が生成され、
前記拡張された表現に基づいて前記言語特徴が生成される、請求項１に記載の３次元オブジェクト認識方法。
【請求項４】
前記位置フィールドに基づいて他の幾何学的な特性の同じクラスのオブジェクトが区分される、請求項３に記載の３次元オブジェクト認識方法。
【請求項５】
前記位置フィールドは学習可能な特性を有する、請求項３に記載の３次元オブジェクト認識方法。
【請求項６】
前記デコーディング出力を生成するステップは、
前記ターゲット映像特徴を分割して映像トークンを生成するステップと、
前記ポイントクラウド特徴を分割してポイントクラウドトークンを生成するステップと、
前記映像トークンの相対的な位置を示す第１位置情報を生成するステップと、
前記ポイントクラウドトークンの相対的な位置を示す第２位置情報を生成するステップと、
前記映像トークン、前記ポイントクラウドトークン、前記第１位置情報、及び前記第２位置情報に基づいたキーデータ及びバリューデータで前記マルチモーダルデコーディングモデルを動作させるステップと、
を含む、請求項１に記載の３次元オブジェクト認識方法。
【請求項７】
前記デコーディング出力を生成するステップは、前記３次元空間で前記ターゲットオブジェクトが検出される可能性のある検出位置候補を示す検出ガイド情報に基づいたクエリデータで前記マルチモーダルデコーディングモデルを動作させるステップを含む、請求項６に記載の３次元オブジェクト認識方法。
【請求項８】
前記検出位置候補は非均一な位置を示す、請求項７に記載の３次元オブジェクト認識方法。
【請求項９】
前記マルチモーダルデコーディングモデルは、前記ターゲット映像特徴、前記ポイントクラウド特徴、及び前記検出ガイド情報から関連性を抽出して前記デコーディング出力を生成する、請求項７に記載の３次元オブジェクト認識方法。
【請求項１０】
請求項１～請求項９のいずれか一項に記載の３次元オブジェクト認識方法をコンピュータに実行させるコンピュータプログラム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
以下の実施形態は、３次元オブジェクト認識方法及び装置に関する。
続きを表示（約 2,500 文字）【背景技術】
【０００２】
認識プロセスの技術的な自動化は、例えば、特殊な算出構造としてプロセッサで具現されたニューラルネットワークモデルを介して具現され、これは相当なトレーニング後に入力パターンと出力パターンとの間で算出上に直観的なマッピングを提供することができる。このようなマッピングを生成するトレーニングされた能力は、ニューラルネットワークモデルの学習能力という。さらに、特化したトレーニングにより、このように特化してトレーニングされたニューラルネットワークモデルは、例えばトレーニングしていない入力パターンに対して比較的に正確な出力を発生させる一般化能力（又は汎化能力）を有し得る。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
以下の実施形態は、３次元オブジェクト認識方法及び装置を提供することにその目的がある。
【課題を解決するための手段】
【０００４】
一実施形態によれば、３次元オブジェクト認識方法は、３次元空間に関する入力映像、３次元空間に関する入力ポイントクラウド、及び３次元空間内のターゲットオブジェクトに関する入力言語を受信するステップと、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成するステップと、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択するステップと、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させ、デコーディング出力を生成するステップと、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する３次元バウンディングボックスを検出するステップとを含む。
【０００５】
一実施形態に係る電子装置は、１つ以上のプロセッサと、命令語を格納するメモリと、を含み、命令語は、１つ以上のプロセッサによって、３次元空間に関する入力映像、３次元空間に関する入力ポイントクラウド、及び３次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する３次元バウンディングボックスを検出するように設定される。
【０００６】
一実施形態に係る車両は、３次元空間に関する入力映像を生成するカメラと、３次元空間に関する入力ポイントクラウドを生成するライダーセンサと、３次元空間に関する入力映像、３次元空間に関する入力ポイントクラウド、及び３次元空間内のターゲットオブジェクトに関する入力言語を受信し、エンコーディングモデルを用いて入力映像の部分領域の候補映像特徴、入力ポイントクラウドのポイントクラウド特徴、及び入力言語の言語特徴を生成し、候補映像特徴と言語特徴との間の類似度の類似度スコアに基づいて、候補映像特徴のうち言語特徴に対応するターゲット映像特徴を選択し、ターゲット映像特徴及びポイントクラウド特徴に基づいてマルチモーダルデコーディングモデルを動作させてデコーディング出力を生成し、デコーディング出力に基づいてオブジェクト検出モデルを動作させ、ターゲットオブジェクトに対応する３次元バウンディングボックスを検出する、１つ以上のプロセッサと、３次元バウンディングボックスに基づいて車両を制御する制御系統とを含む。
【発明の効果】
【０００７】
実施形態によれば、３次元オブジェクト認識方法及び装置を提供することができる。
【図面の簡単な説明】
【０００８】
一実施形態に係る３次元オブジェクト認識モデルの構成を例示的に示す図である。
一実施形態に係るビジョン－言語モデルの構成を例示的に示す図である。
一実施形態に係る他の幾何学的な特性を有する同じクラスのオブジェクトを例示的に示す。
一実施形態に係るマルチモーダルデコーディングモデルの動作を例示的に示す図である。
一実施形態に係るビジョン－言語モデルのトレーニング過程を例示的に示す図である。
一実施形態に係る３次元オブジェクト認識モデルのトレーニング過程を例示的に示す図である。
一実施形態に係る３次元オブジェクト認識方法を例示的に示すフローチャートである。
一実施形態に係る電子装置の構成を例示的に示すブロック図である。
一実施形態に係る車両の構成を例示的に示すブロック図である。
【発明を実施するための形態】
【０００９】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【００１０】
第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素にも命名することができる。
（【００１１】以降は省略されています）

関連特許