特許ウォッチ

公開番号2025158772
公報種別公開特許公報(A)
公開日2025-10-17
出願番号2024061640
出願日2024-04-05
発明の名称学習装置、推定装置、学習方法、推定方法及びプログラム
出願人本田技研工業株式会社,個人
代理人弁理士法人大塚国際特許事務所
主分類G06T 7/70 20170101AFI20251009BHJP(計算;計数)
要約【課題】参照位置を参照して指定される目標位置を精度よく推定する。
【解決手段】機械学習を行う学習装置は、入力データと正解データとを含む教師データを取得する取得部であって、入力データは、参照物体を含む入力画像と、参照物体を参照して目標位置を相対的に指定する入力テキストと、を含む、取得部と、入力データをモデルに入力することによって、目標位置を特定するための出力データを生成する生成部と、出力データと正解データとを損失関数に入力することによって得られる損失が低下するようにモデルのパラメータを更新する更新部と、を備える。モデルは、入力画像と入力テキストとに基づいて、参照物体を表す複数の特徴量であって、互いに異なる解像度を有する複数の特徴量を生成する第1のサブモデルと、複数の特徴量と入力テキストとに基づいて、出力データを生成する第2のサブモデルと、を含む。第2のサブモデルに、複数の特徴量のそれぞれが入力される。
【選択図】図4
特許請求の範囲【請求項１】
機械学習を行う学習装置であって、
入力データと正解データとを含む教師データを取得する取得手段であって、前記入力データは、参照物体を含む入力画像と、前記参照物体を参照して目標位置を相対的に指定する入力テキストと、を含む、取得手段と、
前記入力データをモデルに入力することによって、前記目標位置を特定するための出力データを生成する生成手段と、
前記出力データと前記正解データとを損失関数に入力することによって得られる損失が低下するように前記モデルのパラメータを更新する更新手段と、を備え、
前記モデルは、
前記入力画像と前記入力テキストとに基づいて、前記参照物体を表す複数の特徴量であって、互いに異なる解像度を有する複数の特徴量を生成する第１のサブモデルと、
前記複数の特徴量と前記入力テキストとに基づいて、前記出力データを生成する第２のサブモデルと、を含み、
前記第２のサブモデルに、前記複数の特徴量のそれぞれが入力される、学習装置。
続きを表示（約 1,600 文字）【請求項２】
前記モデルは、前記入力テキストから、前記参照物体に対する相対的な前記目標位置を表すテキストを抽出する第３のサブモデルをさらに含み、
前記第２のサブモデルは、前記複数の特徴量のそれぞれと、前記第３のサブモデルによって抽出された前記テキストとに基づいて、前記出力データを生成する、請求項１に記載の学習装置。
【請求項３】
前記モデルは、
前記入力テキストから、前記参照物体を表すテキストを抽出する第３のサブモデルと、
前記入力画像と、前記第３のサブモデルによって抽出された前記テキストとに基づいて、前記参照物体を表す特徴量を生成する第４のサブモデルと、をさらに含み、
前記第２のサブモデルは、前記第４のサブモデルによって生成された前記特徴量にさらに基づいて、前記出力データを生成する、請求項１に記載の学習装置。
【請求項４】
前記第１のサブモデルは、前記入力画像と前記入力テキストとに基づいて、前記参照物体の位置を表すデータをさらに生成し、
前記第４のサブモデルは、前記第１のサブモデルによって生成された前記データにさらに基づいて、前記参照物体を表す前記特徴量を生成する、請求項３に記載の学習装置。
【請求項５】
前記第１のサブモデルは、前記入力画像と前記入力テキストとに基づいて、前記参照物体の位置を表すデータをさらに生成し、
前記第２のサブモデルは、前記第１のサブモデルによって生成された前記データにさらに基づいて、前記出力データを生成する、請求項１に記載の学習装置。
【請求項６】
前記モデルは、
前記入力テキストから、前記参照物体を表すテキストを抽出する第３のサブモデルと、
前記入力画像と、前記第３のサブモデルによって抽出された前記テキストとに基づいて、前記参照物体を表す特徴量を生成する第４のサブモデルと、をさらに含み、
前記第１のサブモデルは、前記入力画像と前記入力テキストとに基づいて、前記参照物体の位置を表すデータをさらに生成し、
前記第２のサブモデルは、
前記入力テキストに基づいて前記複数の特徴量のそれぞれを変換することによって複数の中間特徴量を生成し、
前記複数の中間特徴量のそれぞれと、前記第１のサブモデルによって生成された前記データと、前記第４のサブモデルによって生成された前記特徴量とに基づいて、前記出力データを生成する、請求項１に記載の学習装置。
【請求項７】
前記入力画像は、車両のカメラによって撮影された画像を含む、請求項１に記載の学習装置。
【請求項８】
前記入力テキストは、自然言語によって表現される、請求項１に記載の学習装置。
【請求項９】
コンピュータを請求項１乃至８の何れか１項に記載された学習装置の各手段として機能させるためのプログラム。
【請求項１０】
目標位置を推定する推定装置であって、
入力データを取得する取得手段であって、前記入力データは、参照物体を含む入力画像と、前記参照物体を参照して目標位置を相対的に指定する入力テキストと、を含む、取得手段と、
前記入力データをモデルに入力することによって、前記目標位置を特定するための出力データを生成する生成手段と、を備え、
前記モデルは、
前記入力画像と前記入力テキストとに基づいて、前記参照物体を表す複数の特徴量であって、互いに異なる解像度を有する複数の特徴量を生成する第１のサブモデルと、
前記複数の特徴量と前記入力テキストとに基づいて、前記出力データを生成する第２のサブモデルと、を含み、
前記第２のサブモデルに、前記複数の特徴量のそれぞれが入力される、推定装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。
続きを表示（約 2,500 文字）【背景技術】
【０００２】
機械学習によって生成されたモデルを使用して車両の走行制御を行う様々な技術が提案されている。特許文献１には、車両によって取得されたセンサデータを使用して、ニューラルネットワークを学習することが記載されている。また、画像と言語とを入力とするマルチモーダルモデルを使用して、言語で指示された画像内の位置を推定する技術も提案されている。マルチモーダルモデルとして、ＦＩＢＥＲ（Fusion-In-the-Backbone-based transformER）（非特許文献１）やＣＬＩＰ（Contrastive Language-Image Pre-training）（非特許文献２）、ＰＷＡＮ（Pixel-Word Attention Module）（非特許文献３）などが提案されている。
【先行技術文献】
【特許文献】
【０００３】
特表２０２２－５１３８６６号公報
【非特許文献】
【０００４】
Zi-Yi Dou, et al.，”Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone”，［online］，令和４年１１月１８日，arXiv，［令和６年３月１６日検索］，インターネット＜URL：https://arxiv.org/pdf/2206.07643.pdf＞
Alec Radford, et al.，”Learning Transferable Visual Models From Natural Language Supervision”，［online］，令和３年２月２６日，arXiv，［令和６年３月１６日検索］，インターネット＜URL：https://arxiv.org/pdf/2103.00020.pdf＞
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang, et al.，”LAVT: Language-Aware Vision Transformer for Referring Image Segmentation”，［online］，令和４年４月５日，arXiv，［令和６年３月１６日検索］，インターネット＜URL：https://arxiv.org/pdf/2112.02244.pdf＞
【発明の概要】
【発明が解決しようとする課題】
【０００５】
入力画像における目標位置は、入力画像に含まれる参照物体を参照して指定されうる。参照物体は、入力画像において様々な大きさを有しうる。本発明の１つの側面は、参照物体を参照して指定される目標位置を精度よく推定することを目的とする。
【課題を解決するための手段】
【０００６】
一部の実施形態によれば、機械学習を行う学習装置であって、入力データと正解データとを含む教師データを取得する取得手段であって、前記入力データは、参照物体を含む入力画像と、前記参照物体を参照して目標位置を相対的に指定する入力テキストと、を含む、取得手段と、前記入力データをモデルに入力することによって、前記目標位置を特定するための出力データを生成する生成手段と、前記出力データと前記正解データとを損失関数に入力することによって得られる損失が低下するように前記モデルのパラメータを更新する更新手段と、を備え、前記モデルは、前記入力画像と前記入力テキストとに基づいて、前記参照物体を表す複数の特徴量であって、互いに異なる解像度を有する複数の特徴量を生成する第１のサブモデルと、前記複数の特徴量と前記入力テキストとに基づいて、前記出力データを生成する第２のサブモデルと、を含み、前記第２のサブモデルに、前記複数の特徴量のそれぞれが入力される、学習装置が提供される。
【発明の効果】
【０００７】
一部の実施形態によれば、参照位置を参照して指定される目標位置を精度できる。
【図面の簡単な説明】
【０００８】
一部の実施形態に係るコンピュータのハードウェア構成例を説明するブロック図。
一部の実施形態に係る入力データの例を説明する模式図。
一部の実施形態に係る正解データの例を説明する模式図。
一部の実施形態に係るモデルの構成例を説明する模式図。
一部の実施形態に係る特徴抽出部の構成例を説明する模式図。
一部の実施形態に係る目標位置推定部の構成例を説明する模式図。
一部の実施形態に係る損失関数の例を説明する模式図。
一部の実施形態に係る学習方法の例を説明するフロー図。
一部の実施形態に係る推定方法の例を説明するフロー図。
【発明を実施するための形態】
【０００９】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【００１０】
図１を参照して、一部の実施形態に係るコンピュータ１００のハードウェア構成例について説明する。以下に詳細に説明されるように、コンピュータ１００は、機械学習によってモデルを学習するために使用される。そのため、コンピュータ１００は、学習装置と呼ばれてもよい。コンピュータ１００は、例えばサーバコンピュータであってもよいし、パーソナルコンピュータ（例えば、デスクトップ型又はラップトップ型）であってもよい。コンピュータ１００は、クラウド環境上に配置されたコンピュータリソースであってもよい。
（【００１１】以降は省略されています）

関連特許