TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025012529
公報種別公開特許公報(A)
公開日2025-01-24
出願番号2023115418
出願日2023-07-13
発明の名称画像認識装置及び画像認識方法
出願人住友電気工業株式会社,学校法人中部大学
代理人個人,個人,個人,個人,個人
主分類G06V 10/98 20220101AFI20250117BHJP(計算;計数)
要約【課題】アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させること。
【解決手段】教師無し学習済みのニューラルネットワークに画像を入力する入力部と、前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力する出力部と、を備える画像認識装置。
【選択図】図1


特許請求の範囲【請求項1】
教師無し学習済みのニューラルネットワークに画像を入力する入力部と、
前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、
前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力する出力部と、を備える画像認識装置。
続きを表示(約 1,100 文字)【請求項2】
前記ニューラルネットワークは、特徴量抽出部と、アテンション部と、合成部と、認知部と、を有し、
前記特徴量抽出部は、複数の畳み込み層を含むと共に前記画像の情報を前記複数の畳み込み層を伝搬させることで前記画像の特徴量を示す特徴量マップを生成し、
前記アテンション部は、前記特徴量マップに基づいて前記アテンションマップを生成し、
前記合成部は、前記特徴量マップと修正された前記アテンションマップとを合成することにより合成マップを生成し、
前記認知部は、前記合成マップに基づいて前記認識結果を生成する、請求項1記載の画像認識装置。
【請求項3】
前記マップ修正部は、前記特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定し、前記アテンションマップにおける前記修正対象特徴量に対応する特徴量を、修正候補として出力し、前記ユーザの修正操作又は前記所定のプログラムによる修正指示を受け付ける、請求項2記載の画像認識装置。
【請求項4】
前記画像の複数の認識対象は、互いに同一色又は類似色である、請求項1~3のいずれか一項記載の画像認識装置。
【請求項5】
画像認識装置が実行する画像認識方法であって、
教師無し学習済みのニューラルネットワークに画像を入力するステップと、
前記ニューラルネットワークによって、入力された前記画像の注視領域を表現するアテンションマップが生成された場合において、前記アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うステップと、
前記ニューラルネットワークによって、修正後の前記アテンションマップ及び前記画像に基づき前記画像の認識結果が生成された場合において、生成された前記認識結果を出力するステップと、を含む画像認識方法。
【請求項6】
前記修正を行うステップは、
画像の特徴量を示す特徴量マップに示される各特徴量をグループ化して、含まれる特徴量が所定値よりも少ないグループを特定すると共に該グループの特徴量を修正対象特徴量として特定することと、
前記特徴量マップに基づき生成される前記アテンションマップにおける前記修正対象特徴量に対応する特徴量を修正候補として出力することと、
前記修正候補の出力に応じた、前記ユーザの修正操作又は前記所定のプログラムによる修正指示を受け付けることと、を含む、請求項5記載の画像認識方法。

発明の詳細な説明【技術分野】
【0001】
本開示は、画像認識装置及び画像認識方法に関する。
続きを表示(約 1,500 文字)【背景技術】
【0002】
特許文献1には、アテンション部と認識部とを備えるネットワークモデルが開示されている。特許文献1のアテンション部は、入力画像上で注目される注目度の分布を示すアテンションマップを出力する。認識部は、アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、入力画像に対する認識結果を出力する。アテンションマップが考慮されて入力画像の認識結果が出力されることにより、認識結果の精度を向上させることができる。
【先行技術文献】
【特許文献】
【0003】
国際公開第2021/220990号
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、アテンションマップにおける注視領域が適切に設定されていない場合には、認識結果の精度が悪化するおそれがある。例えば教師無し学習によりネットワークモデルが生成されている場合においては、学習データに正解が与えられていないため、アテンションマップを適切に修正することが容易でない。
【0005】
本開示は、アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
一実施形態に係る画像認識装置は、教師無し学習済みのニューラルネットワークに画像を入力する入力部と、ニューラルネットワークによって、入力された画像の注視領域を表現するアテンションマップが生成された場合において、アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、ニューラルネットワークによって、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力する出力部と、を備える。
【発明の効果】
【0007】
本開示によれば、アテンションマップを適切に修正することにより、入力画像に対する認識結果の精度を向上させることができる。
【図面の簡単な説明】
【0008】
図1は、本実施形態に係る画像認識装置の構成図である。
図2は、ニューラルネットワークの構成を示す図である。
図3は、アテンション部の構成を示す図である。
図4は、処理部が実行する処理のフローチャートである。
図5は、モデル訓練処理のフローチャートである。
図6は、アテンションマップ修正前の特徴量空間を示す図である。
図7は、アテンションマップ修正後の特徴量空間を示す図である。
図8は、ハーネスの画像認識を説明する図である。
【発明を実施するための形態】
【0009】
[本開示の実施形態の説明]
最初に、本開示の実施形態の内容を列記して説明する。
【0010】
[1]一実施形態に係る画像認識装置は、教師無し学習済みのニューラルネットワークに画像を入力する入力部と、ニューラルネットワークによって、入力された画像の注視領域を表現するアテンションマップが生成された場合において、アテンションマップに対して、ユーザの修正操作又は所定のプログラムに応じた修正を行うマップ修正部と、ニューラルネットワークによって、修正後のアテンションマップ及び画像に基づき画像の認識結果が生成された場合において、生成された認識結果を出力する出力部と、を備える。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
1か月前
個人
情報提示方法
3日前
個人
RFタグ読取装置
20日前
個人
プログラム
2日前
個人
自動精算システム
1か月前
個人
自動精算システム
11日前
個人
売買システム
17日前
個人
救急搬送システム
1か月前
個人
管理サーバ
1か月前
個人
発想支援方法及びシステム
6日前
個人
市場受発注システム
9日前
キヤノン株式会社
印刷装置
1か月前
日本精機株式会社
車両用表示装置
19日前
個人
分類処理プログラム及び方法
6日前
日本精機株式会社
車両用表示装置
19日前
個人
VRによる人体各部位の立体化
1か月前
富士通株式会社
金融システム
3日前
個人
生成AIとの常時接続システム
1か月前
井関農機株式会社
ロボット作業車両
11日前
株式会社COLORS
表示装置
1か月前
株式会社SEKT
文字認識装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
個人
未来型家系図構築システム
1か月前
個人
コンテンツ開示順位判定システム
1か月前
トヨタ自動車株式会社
推定装置
1か月前
トヨタ自動車株式会社
表認識装置
1か月前
キヤノン電子株式会社
業務管理システム
1か月前
ローム株式会社
ソース機器
1か月前
個人
情報処理装置およびプログラム
1か月前
個人
販売支援システム
11日前
日本精機株式会社
コミュニケーション端末
1か月前
トヨタ自動車株式会社
作業評価装置
18日前
ブラザー工業株式会社
無線通信装置
9日前
トヨタ自動車株式会社
作業管理装置
9日前
村田機械株式会社
人員配置システム
6日前
トヨタ自動車株式会社
作業評価装置
1か月前
続きを見る