TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025177247
公報種別公開特許公報(A)
公開日2025-12-05
出願番号2024083891
出願日2024-05-23
発明の名称画像認識支援装置、画像認識支援方法、及び、画像認識支援プログラム
出願人株式会社日立製作所
代理人ポレール弁理士法人
主分類G06T 7/60 20170101AFI20251128BHJP(計算;計数)
要約【課題】 精度の高いマルチラベル推論を行うことができる技術を提供する。
【解決手段】 マルチラベル推論モデルを用い、入力画像について、第一のラベル候補群と前記第一のラベル候補群の各信頼度を出力するマルチラベル推論部と、マルチラベル編集モデルを用い、前記第一のラベル候補群と前記第一のラベル候補群の各信頼度に基づいて、ラベルを追加あるいは削除して第二のラベル候補群を出力するマルチラベル編集部と、マルチラベル整形モデルを用い、入力される検知対象を示すラベル関連情報を用いて、前記第二のラベル候補群を変換して前記入力画像に付与する第三のラベル候補を出力するマルチラベル整形部と、を有する画像認識支援装置。
【選択図】図1
特許請求の範囲【請求項1】
制御ユニットと記憶ユニットを備えた画像認識支援装置であって、
前記記憶ユニットは、
入力画像についてマルチラベル推論を適用して、第一のラベル候補群と前記第一のラベル候補群の各信頼度を出力する際に利用するマルチラベル推論モデルと、
前記第一のラベル候補群と前記第一のラベル候補群の各信頼度に基づいて、ラベルを追加あるいは削除して第二のラベル候補群を出力する際に利用するマルチラベル編集モデルと、
入力される検知対象を示すラベル関連情報を用いて、前記第二のラベル候補群を変換して前記入力画像に付与する第三のラベル候補を出力する際に利用するマルチラベル整形モデルと、を有し、
前記制御ユニットは、
前記マルチラベル推論モデルを用い、入力画像について、第一のラベル候補群と前記第一のラベル候補群の各信頼度を出力するマルチラベル推論部と、
前記マルチラベル編集モデルを用い、前記第一のラベル候補群と前記第一のラベル候補群の各信頼度に基づいて、ラベルを追加あるいは削除して第二のラベル候補群を出力するマルチラベル編集部と、
前記マルチラベル整形モデルを用い、入力される検知対象を示すラベル関連情報を用いて、前記第二のラベル候補群を変換して前記入力画像に付与する第三のラベル候補を出力するマルチラベル整形部と、
を有することを特徴とする画像認識支援装置。
続きを表示(約 1,400 文字)【請求項2】
請求項1記載の画像認識支援装置において、
事前設定した基準を満たす検知対象属性が前記マルチラベル整形部から出力されなかった場合、前記マルチラベル推論部は、第一ラベル候補を特定する際に利用する信頼度の閾値を下げてマルチラベル推論することを特徴とする画像認識支援装置。
【請求項3】
請求項1記載の画像認識支援装置において、
マルチラベル推論において過去出力された情報と現在出力された情報が一定閾値以上類似するか、または検知対象属性が以前の検知で既に出力されている場合に、マルチラベル編集およびマルチラベル整形を省略することを特徴とする画像認識支援装置。
【請求項4】
請求項1記載の画像認識支援装置において、
マルチラベル推論およびマルチラベル編集において検知対象の座標情報とそれを処理する言語モデルを併せて用いる事によって、検知対象間の情報を提示することを特徴とする画像認識支援装置。
【請求項5】
請求項1記載の画像認識支援装置において、
マルチラベル推論およびマルチラベル編集およびマルチラベル整形の各過程において出力されたマルチラベル情報に対して、対話応答可能な言語モデルを併せて用いることにより、質疑応答を可能とすることを特徴とする画像認識支援装置。
【請求項6】
請求項1記載の画像認識支援装置において、
マルチラベル推論およびマルチラベル編集およびマルチラベル整形の各過程において出力されたマルチラベル情報と検知結果の画像に関して、類似画像や撮影時刻前後の画像を提示する、類似画像検索機能を備えることを特徴とする画像認識支援装置。
【請求項7】
請求項1記載の画像認識支援装置において、
前記制御ユニットは、マルチラベル推論およびマルチラベル編集およびマルチラベル整形の各過程において出力されたマルチラベル情報とその処理過程を表示装置に表示する表示部を更に備えることを特徴とする画像認識支援装置。
【請求項8】
入力画像についてマルチラベル推論を適用して、第一のラベル候補群と前記第一のラベル候補群の各信頼度を出力するマルチラベル推論ステップと、
前記第一のラベル候補群と前記第一のラベル候補群の各信頼度に基づいて、ラベルを追加あるいは削除して第二のラベル候補群を出力するマルチラベル編集ステップと、
入力される検知対象を示すラベル関連情報を用いて、前記第二のラベル候補群を変換して前記入力画像に付与する第三のラベル候補を出力するマルチラベル整形ステップと、
を行うことを特徴とする画像認識支援方法。
【請求項9】
入力画像についてマルチラベル推論を適用して、第一のラベル候補群と前記第一のラベル候補群の各信頼度を出力するマルチラベル推論と、
前記第一のラベル候補群と前記第一のラベル候補群の各信頼度に基づいて、ラベルを追加あるいは削除して第二のラベル候補群を出力するマルチラベル編集と、
入力される検知対象を示すラベル関連情報を用いて、前記第二のラベル候補群を変換して前記入力画像に付与する第三のラベル候補を出力するマルチラベル整形と、
をコンピュータに実行させることを特徴とする画像認識支援プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、画像内の各被写体が備える属性の認識を支援する、画像認識支援装置、画像認識支援方法、及び、画像認識支援プログラムに関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
撮影された画像内の状況を迅速に把握するための技術の一種として、画像内の各被写体の属性(以下では「ラベル」とも称する)を自動的に特定する技術がある。この技術を利用すれば、例えば、災害現場を空撮した広域画像中の各被写体の被災に関する属性を自動認識することで、広域の災害状況を迅速に把握したりすることが可能となる。
【0003】
この際に利用される属性認識技術として、被写体が備える属性を複数推定して出力する、マルチラベル認識モデルがある。例えば、特許文献1の要約には「マルチラベル分類を実行する方法は、特徴抽出器によって入力データを含む入力ベクトルから特徴ベクトルを抽出することと、ラベル予測器によって、特徴ベクトルに基づいて関連度スコアを有する関連ラベルを含む関連ベクトルを求めることと、先行のラベル選択において選択されていた事前選択ラベルをマスキングすることによってバイナリマスキングベクトルを更新することと、関連ラベルから事前選択ラベルを除外するように関連ラベルベクトルが更新されるように、更新されたバイナリマスキングベクトルを関連ベクトルに適用することと、更新された関連ラベルベクトルの関連度スコアに基づいて更新された関連ラベルベクトルから関連ラベルを選択することとを含む。」と記載されており、図1には、特徴抽出器の前段に複数のバイナリ分類器を設けた構成が開示されている。このように、特許文献1では、複数のバイナリ分類器を用いることで複数の属性を効率的に特定する技術について述べられている。
【0004】
しかし、特許文献1の技術は、事前学習した属性(バイナリ分類器を用意済みのラベル)を認識するものでしかなく、未学習の属性を認識できない。一方、近年では、文字情報付画像データを大量に学習して大規模に抽出した語彙を属性候補とすることで、多様な属性認識を可能にした、Recognize Anything Model (https://arxiv.org/abs/2306.03514)というマルチラベル認識モデルも普及しつつある。
【0005】
また、非特許文献1,2のように、画像内の被写体の属性等のテキスト情報を、GPT(登録商標)-3等の言語モデルに指示文と共に入力することで、画像内の状況を表す説明文を自動作成する技術も知られている。
【先行技術文献】
【特許文献】
【0006】
特表2019-527440号公報
【非特許文献】
【0007】
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language, Arxiv, 2022.
Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning, NeurIPS, 2022.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、マルチラベル認識モデルは、各被写体に関する、所定閾値以上の信頼度の属性を全て出力するモデルであるため、大規模な語彙データベースを備えたマルチラベル認識モデルを利用すると、状況把握に有用な属性以外の雑多な属性の出力も増えてしまい、画像内状況の正確な把握が却って困難になる可能性もある。
【0009】
また、非特許文献1,2の技術も、状況把握に有用な属性以外の雑多な属性を無視して説明文を作成することができないため、雑多な属性が多く入力されると、画像内状況の適切に説明する文章を作成できない可能性があった。
【0010】
そこで、本発明では、大規模な語彙データベースを備えたマルチラベル認識モデルを利用する場合であっても、画像内の状況把握に有用な属性を精度良く出力することができる、画像認識支援装置、画像認識支援方法、及び、画像認識支援プログラムを提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

株式会社日立製作所
演算装置
10日前
株式会社日立製作所
冷却構造
4日前
株式会社日立製作所
回転電機
10日前
株式会社日立製作所
軌条車両
4日前
株式会社日立製作所
鉄道車両
1か月前
株式会社日立製作所
電力変換装置
5日前
株式会社日立製作所
電力変換装置
4日前
株式会社日立製作所
放射線モニタ
1か月前
株式会社日立製作所
電力変換システム
18日前
株式会社日立製作所
システム検証方法
1か月前
株式会社日立製作所
ガス分離システム
1か月前
株式会社日立製作所
環境負荷算出装置
3日前
株式会社日立製作所
鉄道車両用空調装置
1か月前
株式会社日立製作所
調停案提示システム
1か月前
株式会社日立製作所
部品管理装置及び方法
1か月前
株式会社日立製作所
分散電源管理システム
5日前
株式会社日立製作所
情報提示装置及び方法
3日前
株式会社日立製作所
診断装置及び診断方法
3日前
株式会社日立製作所
施設管理装置および方法
18日前
株式会社日立製作所
生産ライン設計システム
26日前
株式会社日立製作所
店舗管理装置および方法
1か月前
株式会社日立製作所
乗降床及び乗客コンベア
1か月前
株式会社日立製作所
データ変換装置および方法
1か月前
株式会社日立製作所
飲食店提案装置および方法
1か月前
株式会社日立製作所
乗りかご及びエレベーター
1か月前
株式会社日立製作所
乗りかご及びエレベーター
1か月前
株式会社日立製作所
署名照合システム及び方法
1か月前
株式会社日立製作所
実行ハードウエア決定方法
3日前
株式会社日立製作所
検索システム及び検索方法
1か月前
株式会社日立製作所
宇宙機、地上局及びアンテナ
18日前
株式会社日立製作所
IT運用管理装置および方法
11日前
株式会社日立製作所
ソフトエラー率評価システム
19日前
株式会社日立製作所
ソースコードを生成する方法
26日前
株式会社日立製作所
膜分離設備設計支援システム
18日前
株式会社日立製作所
モータ、及びロータ固定構造
10日前
株式会社日立製作所
生体認証装置、生体認証方法
1か月前
続きを見る