TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025131265
公報種別公開特許公報(A)
公開日2025-09-09
出願番号2024028896
出願日2024-02-28
発明の名称情報処理装置、情報処理方法、生成方法、学習モデル、プログラム及び記憶媒体
出願人本田技研工業株式会社,個人
代理人弁理士法人大塚国際特許事務所
主分類G06T 7/11 20170101AFI20250902BHJP(計算;計数)
要約【課題】画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能になる。
【解決手段】画像を入力情報として取得する取得手段と、入力情報から特徴量を抽出し、抽出した特徴量に基づいて画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、処理手段と、を含む。ここで、予測手段は、特定の領域を囲む複数の点の座標と、複数の点の各点の次の点を示す情報とを含む特定の領域を示す予測結果を出力し、処理手段は、特定の領域を囲む複数の点の座標と、複数の点の各点の次の点を示す情報とを含む予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて1つ以上の機械学習モデルを学習させる。
【選択図】図4
特許請求の範囲【請求項1】
画像を入力情報として取得する取得手段と、
前記入力情報から特徴量を抽出し、前記抽出した特徴量に基づいて前記画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、
処理手段と、を含み、
前記予測手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記特定の領域を示す予測結果を出力し、
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする情報処理装置。
続きを表示(約 1,200 文字)【請求項2】
前記取得手段は、前記入力情報として、自然言語で表された場所の指定を含む言語情報を更に取得し、
前記予測手段は、前記画像から抽出した画像特徴量と前記言語情報から抽出した言語特徴量とに基づいて、前記場所の指定に対応する前記画像内の目標領域を前記特定の領域として予測する、ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記損失関数は、前記予測結果における前記特定の領域を囲む前記複数の点と、前記正解データにおける前記特定の領域を囲む複数の点とに対する最適輸送コストに基づく、ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記損失関数は、前記特定の領域を囲む複数の点の座標に基づく損失と、前記複数の点の各点の次の点を示すベクトルに対するベクトル間の類似度に基づく損失とを含む、ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報と、前記特定の領域内の中心点の座標とを含む前記予測結果を出力する、ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報と、前記特定の領域内の中心点の座標とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく1つの損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む予測結果の第1の部分と、正解データのうちの当該予測結果の前記第1の部分に対する正解との相違に基づく第1の損失関数と、前記特定の領域内の中心点の座標を含む予測結果の第2の部分と、正解データのうちの当該予測結果の第2の部分に対する正解との相違に基づく第2の損失関数とを用いて、前記1つ以上の機械学習モデルを学習させる、ことを特徴とする請求項5に記載の情報処理装置。
【請求項8】
前記特定の領域内の中心点の座標は、前記画像内の物標の位置から前記特定の領域内の中心点の座標へのベクトルの情報で表される、ことを特徴とする請求項5に記載の情報処理装置。
【請求項9】
前記複数の点の各点の次の点を示す情報は、前記複数の点の各点から次の点へのベクトルで表される、ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記予測手段は、前記入力情報に基づく、前記画像特徴量と前記言語特徴量とを融合した融合特徴量を生成し、前記融合特徴量に基づいて、前記画像内の特定の領域を予測する、ことを特徴とする請求項2に記載の情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、生成方法、学習モデル、プログラム及び記憶媒体に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
近年、画像に含まれる被写体の領域を予測するセグメンテーションや、自然言語で与えられるクエリに対応する画像内の特定の領域を予測するビジュアルグラウンディングなど、画像内の特定の領域を予測する技術が知られている。
【0003】
非特許文献1では、入力画像から得られる画像特徴量と自然言語文から生成したプロンプトとを融合させ、当該融合させた情報にトランスフォーマエンコーダを介在させて画像内の画素毎のクラス分類を行うことにより、自然言語に対応する画像内の領域を予測する。非特許文献2では、自然言語文のクエリに対応する画像内の領域の各画素を予測する代わりに、クエリに対応する画像内の領域を取り囲む点群(領域の外周の点群)を予測する技術を提案している。
【先行技術文献】
【非特許文献】
【0004】
Bin Yan, 外6名, 「Universal Instance Perception as Object Discovery and Retrieval」,arXiv:2303.06674v2 [cs.CV] 2023年8月17日
Chaoyang Zhu, 外9名, 「SeqTR: A Simple yet Universal Network for Visual Grounding」,arXiv:2203.16265v2 [cs.CV] 2022年7月24日
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1で提案される技術では、画像内の画素毎のクラス分類を行うため、高い精度が得られる反面、計算コストが高くなり処理時間がかかる課題がある。他方、非特許文献2で提案される技術では、領域を取り囲む点群のみを予測するため、画素毎のクラス分類を行う場合と比べて計算コストや処理時間を低減することができるが、予測される領域の精度が課題となる。
【0006】
本発明は、上記課題に鑑みてなされ、その目的は、画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能な技術を実現することである。
【課題を解決するための手段】
【0007】
本発明によれば、
画像を入力情報として取得する取得手段と、
前記入力情報から特徴量を抽出し、前記抽出した特徴量に基づいて前記画像内の特定の領域を予測する、1つ以上の機械学習モデルで構成される予測手段と、
処理手段と、を含み、
前記予測手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記特定の領域を示す予測結果を出力し、
前記処理手段は、前記特定の領域を囲む複数の点の座標と、前記複数の点の各点の次の点を示す情報とを含む前記予測結果と、当該予測結果に対する正解データとの相違に基づく損失関数を用いて前記1つ以上の機械学習モデルを学習させる、ことを特徴とする情報処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、画像内の特定の領域を取り囲む点群により特定の領域を予測する場合に予測精度を向上させることが可能になる。
【図面の簡単な説明】
【0009】
実施形態に係る移動体の構成例を示す図(1)
実施形態に係る移動体の構成例を示す図(2)
実施形態に係る移動体の制御系の構成例を示すブロック図
実施形態に係る制御ユニット130の機能構成例を示す図
実施形態に係る領域予測処理に用いるモデルについて説明する図
実施形態に係る予測結果の他の例を説明する図
実施形態に係る領域予測処理に用いる機械学習モデルを学習させる一連の動作を示すフローチャート
実施形態に係る領域予測処理に用いる機械学習モデルを学習させる他の一連の動作を示すフローチャート
実施形態に係る領域予測処理の推論段階の一連の動作を示すフローチャート
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

本田技研工業株式会社
車両
16日前
本田技研工業株式会社
収納部
1か月前
本田技研工業株式会社
回転機械
15日前
本田技研工業株式会社
ロボット
14日前
本田技研工業株式会社
搬送装置
1か月前
本田技研工業株式会社
積層装置
1か月前
本田技研工業株式会社
鞍乗型車両
1か月前
本田技研工業株式会社
触媒インク
16日前
本田技研工業株式会社
触媒インク
16日前
本田技研工業株式会社
薄板搬送装置
29日前
本田技研工業株式会社
鞍乗り型車両
15日前
本田技研工業株式会社
作業システム
15日前
本田技研工業株式会社
電力変換装置
27日前
本田技研工業株式会社
電力変換装置
27日前
本田技研工業株式会社
鞍乗り型車両
1か月前
本田技研工業株式会社
電流検出装置
28日前
本田技研工業株式会社
ガス回収装置
1か月前
本田技研工業株式会社
管理システム
23日前
本田技研工業株式会社
鞍乗り型車両
20日前
本田技研工業株式会社
物体検出装置
26日前
本田技研工業株式会社
物体検出装置
28日前
本田技研工業株式会社
車両制御装置
22日前
本田技研工業株式会社
位置推定装置
22日前
本田技研工業株式会社
導体接合方法
22日前
本田技研工業株式会社
外界認識装置
1か月前
本田技研工業株式会社
電力変換装置
23日前
本田技研工業株式会社
鞍乗り型車両
15日前
本田技研工業株式会社
電流検出装置
28日前
本田技研工業株式会社
位置決め装置
1か月前
本田技研工業株式会社
鞍乗り型車両
1か月前
本田技研工業株式会社
鞍乗り型車両
6日前
本田技研工業株式会社
鞍乗り型車両
8日前
本田技研工業株式会社
クラッチ装置
7日前
本田技研工業株式会社
動力伝達装置
13日前
本田技研工業株式会社
非接触受電装置
14日前
本田技研工業株式会社
水電解システム
12日前
続きを見る