TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024102011
公報種別公開特許公報(A)
公開日2024-07-30
出願番号2024004724
出願日2024-01-16
発明の名称画像処理装置、画像処理方法及びコンピュータプログラム
出願人富士通株式会社
代理人個人,個人
主分類G06T 7/00 20170101AFI20240723BHJP(計算;計数)
要約【課題】本発明は、画像処理装置、画像処理方法及びコンピュータプログラムを提供する。
【解決手段】画像処理装置は、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、かつ2D検出ネットワークである第一検出ネットワーク;前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び、前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築する構築ユニットを含み、前記画像処理装置は前記損失関数を用いて前記第一検出ネットワークを訓練する。
【選択図】図2
特許請求の範囲【請求項1】
画像を処理する装置であって、
それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、かつ2D検出ネットワークである第一検出ネットワーク;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築する構築ユニットを含み、
前記装置は前記損失関数を用いて前記第一検出ネットワークを訓練する、装置。
続きを表示(約 1,400 文字)【請求項2】
請求項1に記載の装置であって、
前記第一情報及び前記第二情報は前記複数のキーポイントのヒートマップ又は座標である、装置。
【請求項3】
請求項1に記載の装置であって、
前記構築ユニットは、前記第一検出ネットワークの損失関数に、前記第一情報と前記第二情報との間の差を表す損失関数を追加したものを、前記第一検出ネットワークの総損失関数とする、装置。
【請求項4】
請求項3に記載の装置であって、
前記第一情報取得ユニットは、第二検出ネットワークにより、前記画像内の前記対象の複数のキーポイントについて前記第二情報を取得し、前記第二検出ネットワークは3D検出ネットワークであり、
前記第一情報取得ユニットは、前記複数のキーポイントに対する前記第二検出ネットワークの3D予測結果を2D平面に投影することで、2D予測結果を前記第二情報として取得する、装置。
【請求項5】
請求項4に記載の装置であって、
前記第一検出ネットワークが予測した前記複数のキーポイントのうちの各キーポイントのヒートマップを前記第二検出ネットワークに提供する第二情報取得ユニットをさらに含み、
前記第二検出ネットワークは、前記ヒートマップ及び前記画像を入力として用いることで前記第二情報を取得する、装置。
【請求項6】
請求項4に記載の装置であって、
前記3D予測結果におけるカメラパラメータを校正することで、前記2D予測結果が真の値にアラインするようにさせる校正ユニットをさらに含む、装置。
【請求項7】
請求項6に記載の装置であって、
前記校正ユニットは、平行移動変換、回転変換及び尺度変換により、前記2D予測結果が前記真の値にアラインするようにさせ、
前記第一情報取得ユニットは、アライン後の2D予測結果を前記第二情報として使用する、装置。
【請求項8】
請求項7に記載の装置であって、
前記対象は前記画像内の手であり、
前記平行移動変換は、前記2D予測結果の平行移動を行うことで、前記2D予測結果中の手首に対応するキーポイントが真の値のうち手首に対応するキーポイントと重なり合うようにさせることを含み、
前記回転変換は、前記2D予測結果中の手首のキーポイントから中指の根元のキーポイントまでの手の方向を回転することで、前記2D予測結果における前記手の方向が真の値のうち前記手の方向にアラインするようにさせることを含み、
前記尺度変換は、前記2D予測結果の尺度を、真の値と同じサイズに変換することを含む、装置。
【請求項9】
コンピュータが実行する、画像を処理する方法であって、
第一検出ネットワークにより、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、前記第一検出ネットワークは2D検出ネットワークであり;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得し;
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築し;及び
前記損失関数を用いて前記第一検出ネットワークを訓練することを含む、方法。
【請求項10】
コンピュータに、請求項9に記載の方法を実行させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、画像処理の技術分野に関し、特に、手(ハンド)の動作を分析するための画像処理装置、画像処理方法及びコンピュータプログラムに関する。
続きを表示(約 2,100 文字)【背景技術】
【0002】
社会の発展に伴い、工場では規範化(標準化)管理が重要視されている。プロセス全体の規範化から個人の操作ステップの規範化に至るまで、一連の標準が存在する。標準的なプロセスに従って管理すると、不良品の発生を減らすとともに、事故の発生を減少させることもできる。操作フローが規範に一致しているかを判断する根拠として、最も重要なのは手の動作を分析することである。手の動作を分析するには、手の姿勢及び各指(フィンガー)の状態を把握し、このような情報をもとに、手の動作が標準を満たしているかを分析する必要がある。これらは基本的に手のキーポイントの検出に依存している。
【0003】
手のキーポイントの検出は通常、2次元(2D)キーポイント検出と3次元(3D)キーポイント検出に分けられる。3Dキーポイント検出、特に、MANO(hand Model with Articulated and Non-rigid defOrmations)に基づく3D検出方法は近年、広く開発されている。例えば、MANOに基づく検出技術は1つの標準的な手をベースに学習を行うことで、様々な手の姿勢を予測し得る。よって、3Dキーポイント検出ネットワーク、例えば、MANOに基づく検出ネットワークには手の構造情報が含まれている。しかし、3Dキーポイント検出ネットワークは一般に計算が複雑で非常に時間がかかり、大量のハードウェアデバイスによるサポートが必要であるため、一部の分野でのみ使用されている。
【0004】
2Dキーポイント検出ネットワークは比較的簡単であり、長年の開発を経て精度が大幅に向上しているため、広く利用されている。しかし、その固有の訓練ストラテジーにも特定の問題が存在する。図1は2Dキーポイント検出の標準的なプロセスを示している。図1に示すように、2Dキーポイント検出ネットワークは通常、先に各キーポイントのヒートマップを出力し、次にヒートマップから最大の索引(インデックス)をキーポイントの座標として見つける。各キーポイントの座標の計算は互いに独立しており、それらの間の構造関係を学習しないので、学習プロセス全体には手全体の構造情報が欠ける。そのため、検出結果に偏差(偏り)があると、非常に不合理な手の構造が生じる恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述の問題に鑑み、本発明の目的は、2Dキーポイント検出ネットワークに手の3D構造関係を導入することで2Dキーポイント検出の精度を向上させるための画像処理装置、画像処理方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一側面によれば、画像処理装置が提供され、それは、
それぞれ、画像内の対象(object)の複数のキーポイントのうちの各キーポイントに関する第一情報を取得する第一検出ネットワークであって、第一検出ネットワークは2D検出ネットワークである、第一検出ネットワーク;
対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び
第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築する構築ユニットを含み、
そのうち、画像処理装置は損失関数を使用して第一検出ネットワークを訓練する。
【0007】
本発明のもう1つの側面によれば、画像処理方法が提供され、それは、
第一検出ネットワークにより、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、そのうち、第一検出ネットワークは2D検出ネットワークであり;
対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得し;
第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築し;及び
損失関数を使用して第一検出ネットワークを訓練することを含む。
【0008】
本発明のもう1つの側面によれば、マシン(コンピュータ)可読記憶媒体が提供され、その中にはマシン(コンピュータ)可読命令コードを含むプログラムプロダクトが含まれており、そのうち、前記命令コードはコンピュータにより読み取って実行されるときに、前記コンピュータに、本発明による画像処理方法を実現させる。
【0009】
本発明の他の側面によれば、コンピュータプログラムが提供され、前記コンピュータプログラムは前記コンピュータに、本発明による画像処理方法を実行させるためのものである。
【発明の効果】
【0010】
本発明による画像処理装置、画像処理方法及びコンピュータプログラムを使用することで、2D検出ネットワークの訓練にキーポイントの間の3D構造関係を導入して2D検出ネットワークの検出精度を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
アバター制御
4日前
富士通株式会社
評価装置及び評価方法
18日前
富士通株式会社
半導体装置及び実装方法
11日前
富士通株式会社
受信器および適応等化処理方法
1日前
富士通株式会社
ヘテロ積層デバイスの製造方法
13日前
富士通株式会社
自動探索的データ解析(EDA)
6日前
富士通株式会社
深層信念ネットワークのトレーニング
1日前
富士通株式会社
施策決定方法及び施策決定プログラム
7日前
富士通株式会社
分散学習プログラム、方法、及び装置
13日前
富士通株式会社
オブジェクトの計数装置、方法及び電子機器
18日前
富士通株式会社
乗降者カウントプログラムおよび情報処理装置
1日前
富士通株式会社
施策評価支援方法及び施策評価支援プログラム
5日前
富士通株式会社
情報処理装置、情報処理方法およびプログラム
15日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1日前
富士通株式会社
生成プログラム、生成方法、および情報処理装置
18日前
富士通株式会社
修正プログラム、修正方法、および情報処理装置
18日前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
15日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1日前
富士通株式会社
窒化物半導体装置及び窒化物半導体装置の製造方法
18日前
富士通株式会社
検索処理プログラム、検索処理方法及び検索処理装置
12日前
富士通株式会社
通信制御プログラム、通信制御方法および通信制御装置
12日前
富士通株式会社
強化学習プログラム、情報処理装置および強化学習方法
11日前
富士通株式会社
文字認識プログラム、文字認識方法および文字認識装置
11日前
富士通株式会社
マイクロプロセッサ及びマイクロプロセッサの処理方法
7日前
富士通株式会社
対象物判定プログラム、情報処理装置及び対象物判定方法
14日前
富士通株式会社
地域クーポン管理方法および地域クーポン管理プログラム
5日前
富士通株式会社
データ処理プログラム,データ処理方法および情報処理装置
11日前
富士通株式会社
量子化学計算プログラム、量子化学計算方法、および情報処理装置
14日前
富士通株式会社
記憶領域制御プログラム、記憶領域制御装置、及び記憶領域制御方法
11日前
富士通株式会社
ソフトウェア管理プログラム、情報処理装置、及び、ソフトウェア管理方法
15日前
富士通株式会社
モデル訓練方法、セマンティックセグメンテーション方法及びモデル訓練方法
14日前
富士通株式会社
バッチデータ生成プログラム、バッチデータ生成装置、及びバッチデータ生成方法
5日前
富士通株式会社
リーフセルのトランジスタ配置プログラム、リーフセルのトランジスタ配置方法、および情報処理装置
1日前
富士通株式会社
ストリーミング品質推定プログラム、ストリーミング品質推定方法およびストリーミング品質推定装置
14日前
個人
情報処理システム
5日前
個人
防災情報システム
18日前
続きを見る