TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024071354
公報種別公開特許公報(A)
公開日2024-05-24
出願番号2023188998
出願日2023-11-06
発明の名称イメージを処理する電子装置及びその動作方法
出願人三星電子株式会社,Samsung Electronics Co.,Ltd.
代理人個人,個人,個人
主分類G06T 7/00 20170101AFI20240517BHJP(計算;計数)
要約【課題】イメージを処理する電子装置及びその動作方法が開示される。
【解決手段】電子装置の動作方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作、及び前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作を含む。1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる。
【選択図】図6
特許請求の範囲【請求項1】
プロセッサによって行われる方法であって、
顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、
前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、
前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作と、
を含み、
前記1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケードされる、方法。
続きを表示(約 4,300 文字)【請求項2】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第1変形可能なアテンションモデルを含み、
前記超解像度イメージが取得され、
前記超解像度イメージを取得する動作は、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第1変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、
前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作と、
を含む、請求項1に記載の方法。
【請求項3】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第2変形可能なアテンションモデルを含み、
前記キーポイント座標は取得され、
前記顔イメージのキーポイント座標を取得する動作は、
前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、
前記初期エンコーダの前記第2変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、
前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、
を含む、請求項1に記載の方法。
【請求項4】
前記1つ以上のエンコーダのそれぞれは、第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含み、
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、
前記超解像度イメージを生成する動作が行われる場合、前記1つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、
前記1つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
前記1つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、
前記キーポイント座標を生成する動作が行われる場合、前記1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作と、
を含み、
前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、
前記現在エンコーダが1つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、
前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である、請求項1に記載の方法。
【請求項5】
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、
最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、
前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作と、
を含む、請求項4に記載の方法。
【請求項6】
前記1つ以上のエンコーダそれぞれの第1ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、
前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、
位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケードされた交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含む、請求項4に記載の方法。
【請求項7】
前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて現在エンコーダのアップデートされたイメージ特徴行列を取得する動作は、
前記現在エンコーダの融合されたイメージ特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記対応する特徴マップ内の各特徴に対応する前記特徴マップ内の特徴の正規化位置を示す、動作と、
前記マルチレベル特徴マップの各特徴マップで予め設定された規則に応じて各特徴の前記正規化位置の近所でK個の正規化位置を決定する動作と、
現在エンコーダの融合されたイメージ特徴行列でマルチレベル特徴マップの各特徴マップのK個の正規化位置に対応するL×K個の特徴に対して加重合算を行い、現在エンコーダの融合されたイメージ特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされたイメージ特徴行列のうちの特徴として取得する動作であって、前記Lは、マルチレベル特徴マップの特徴マップ個数である、動作と、
を含む、請求項4に記載の方法。
【請求項8】
前記1つ以上のエンコーダそれぞれの第2ネットワークは、セルフアテンションモデルをさらに含み、
前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記現在エンコーダに対応する顔先験特徴行列に基づいて、セルフアテンションモデルを用いて現在エンコーダに対応するセルフアテンションの顔先験特徴行列を取得する動作と、
前記現在エンコーダに対応するセルフアテンションの顔先験特徴行列及び現在エンコーダの融合されたイメージ特徴行列に基づいて、第1変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、
を含む、請求項4に記載の方法。
【請求項9】
前記セルフアテンションモデルは、カスケードされたセルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを含み、
前記現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリ行列、キー行列及び値行列として前記セルフアテンションモデルに入力し、セルフアテンションレイヤ、レイヤ正規化レイヤ、及びフィードフォワードネットワークレイヤを介して現在エンコーダのセルフアテンションの顔先験特徴行列を取得する動作を含み、
前記第2変形可能なアテンションモデルを用いて現在エンコーダのアップデートされた顔先験特徴行列を取得する動作は、
前記最後のレベル特徴マップで現在エンコーダのセルフアテンションの顔先験特徴行列のうち、各特徴の正規化位置を決定する動作であって、前記正規化位置は、前記最後のレベル特徴マップで各特徴に対応する最後のレベル特徴マップにおける特徴の正規化位置を示す、動作と、
予め設定された規則に応じて最終レベル特徴マップで前記正規化位置の近所のK個の正規化位置を決定する動作と、
前記現在エンコーダのアップデートされたイメージ特徴行列で前記K個の正規化位置に対応するK個の特徴を決定し、前記K個の特徴に対する加重値を合算してセルフアテンションの顔先験特徴行列のうち、前記各特徴に対応する特徴を現在エンコーダのアップデートされた顔先験特徴行列の特徴として取得する動作と、
を含む、請求項8に記載の方法。
【請求項10】
請求項1~請求項9のいずれか1項に記載の方法を実行するコンピュータプログラムを格納するコンピュータで読み出し可能な記録媒体。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
以下の開示は、イメージを処理する電子装置及びその動作方法に関する。
続きを表示(約 3,400 文字)【背景技術】
【0002】
最近、深層神経網技術の発達でFSR(face super-resolution)技術が大きく発展している。FSRは、主にCNN(convolutional neural network)、GAN(generative adversarial network)、アンサンブル学習(ensemble learning)又は強化学習(reinforcement learning)に基づいて実行されてもよい。FSRの性能を向上させるために複雑なネットワーク構造設計が要求されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ネットワークの構造が複雑になることは、メモリの大きさ、演算量、及びパラメータの増加につながってネットワークのトレーニング時間と演算コストを増加させる。また、顔先験情報(face prior information)を活用してFSR性能が向上し取得するが、顔先験情報を活用するFSR方法には、追加的な顔先験情報のラベリングが要求されている。
【0004】
本文書に開示される様々な実施形態によれば、マルチレベルイメージ特徴を活用することができ、距離に関わりのない関係を学習できる変形可能なアテンションを用いて追加的な顔先験情報なしにFSRネットワークの複雑度を減らしながらも、FSR性能を効率よく向上させ得るFSRモデルを提供することができる。
【課題を解決するための手段】
【0005】
一実施形態に係るプロセッサによって行われる方法は、顔イメージのマルチレベル特徴マップに基づいて前記顔イメージの初期イメージ特徴行列を生成する動作と、前記マルチレベル特徴マップの最後のレベル特徴マップに基づいて前記顔イメージの初期顔先験特徴行列を生成する動作と、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて、1つ以上のエンコーダを用いて前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を生成する動作と、を含み、前記1つ以上のエンコーダが複数のエンコーダである場合、前記複数のエンコーダはカスケード(接続)される。
【0006】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第1変形可能なアテンションモデルを含み、前記超解像度イメージが取得され、前記超解像度イメージを取得する動作は、前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第1変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列に基づいて前記顔イメージのアップデートされたイメージ特徴行列を取得する動作と、前記アップデートされたイメージ特徴行列及び前記顔イメージに基づいて前記顔イメージの超解像度イメージを取得する動作とを含むことができる。
【0007】
前記1つ以上のエンコーダそれぞれは、交差アテンションモデル及び第2変形可能なアテンションモデルを含み、前記キーポイント座標は取得され、前記顔イメージのキーポイント座標を取得する動作は、前記1つ以上のエンコーダのうち初期エンコーダの前記交差アテンションモデルを用いて、前記初期イメージ特徴行列及び前記初期顔先験特徴行列に基づいて融合されたイメージ特徴行列を取得する動作と、前記初期エンコーダの前記第2変形可能なアテンションモデルを用いて、前記融合されたイメージ特徴行列及び前記初期顔先験特徴行列に基づいて前記顔イメージのアップデートされた顔先験特徴を取得する動作と、前記アップデートされた顔先験特徴及び前記顔イメージの初期キーポイント座標に基づいて、前記顔イメージのキーポイント座標を予測する動作であって、前記顔イメージの初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得される、動作と、を含むことができる。
【0008】
前記1つ以上のエンコーダのそれぞれは、第1ネットワーク、第2ネットワーク、及び第3ネットワークを含み、第1ネットワークは交差アテンションモデルを含み、第2ネットワークは第1変形可能なアテンションモデルを含み、第3ネットワークは第2変形可能なアテンションモデルを含み、前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、前記超解像度イメージを生成する動作が行われる場合、前記1つ以上のエンコーダそれぞれに対して、現在エンコーダに対応するイメージ特徴行列及び顔先験特徴行列に基づいて、第1ネットワークを用いて現在エンコーダの融合されたイメージ特徴行列を取得する動作と、前記1つ以上のエンコーダが複数のエンコーダを含んだり、複数のエンコーダと追加エンコーダを含む場合、前記複数のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列及び現在エンコーダに対応する顔先験特徴行列に基づいて、第2ネットワークを用いて前記現在エンコーダのアップデートされた顔先験特徴行列を取得する動作と、前記1つ以上のエンコーダそれぞれに対して、前記現在エンコーダの融合されたイメージ特徴行列に基づいて、第3ネットワークを用いて前記現在エンコーダのアップデートされたイメージ特徴行列を取得する動作と、前記キーポイント座標を生成する動作が行われる場合、前記1つ以上のエンコーダの最後のエンコーダのアップデートされたイメージ特徴行列及び前記顔イメージに基づいて、前記顔イメージの超解像度イメージを取得する動作及び/又は最後のエンコーダのアップデートされた顔先験特徴行列及び前記顔イメージの初期キーポイント座標に基づいて前記顔イメージのキーポイント座標を予測する動作とを含み、前記顔イメージの前記初期キーポイント座標は、前記初期顔先験特徴行列に基づいて取得され、前記現在エンコーダが1つ以上のエンコーダのうち初期エンコーダである場合、前記現在エンコーダに対応するイメージ特徴行列は前記初期イメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は前記初期顔先験特徴行列であり、前記現在エンコーダが初期エンコーダでない場合、前記現在エンコーダに対応するイメージ特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされたイメージ特徴行列であり、前記現在エンコーダに対応する顔先験特徴行列は、前記現在エンコーダの以前エンコーダのアップデートされた顔先験特徴行列である。
【0009】
前記顔イメージの超解像度イメージ及び/又は前記顔イメージのキーポイント座標を取得する動作は、最後のエンコーダに対応するアップデートされたイメージ特徴行列に基づいて、アップサンプリング増幅ネットワークを用いて第1オフセットを求め、第1オフセットと前記顔イメージに基づいて前記超解像度イメージを取得する動作と、前記最後のエンコーダに対応するアップデートされた顔先験特徴行列に基づいて、キーポイント予測ネットワークを用いて第2オフセットを求め、第2オフセットと前記顔イメージの初期キーポイント座標に基づいて予測された前記顔イメージのキーポイント座標を取得する動作とを含むことができる。
【0010】
前記1つ以上のエンコーダそれぞれの第1ネットワークは、レイヤ正規化モデル及びフィードフォワードネットワークモデルをさらに含み、前記現在エンコーダの融合されたイメージ特徴行列を取得する動作は、位置情報が内蔵されている現在エンコーダに対応するイメージ特徴行列、位置情報が内蔵されている現在エンコーダに対応する顔先験特徴行列、及び現在エンコーダに対応する顔先験特徴行列をそれぞれクエリベクトル、キーベクトル、及び値ベクトルとして交差アテンションモデルに入力し、カスケード(接続)された交差アテンションモデル、レイヤ正規化モデル、及びフィードフォワードネットワークモデルを介して現在エンコーダの融合されたイメージ特徴行列を取得する動作を含むことができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三星電子株式会社
測定装置及び検査装置
今日
三星電子株式会社
光学装置及び光学測定方法
1日前
個人
暗号化記憶媒体
26日前
個人
求人支援システム
15日前
キヤノン電子株式会社
周辺機器
1か月前
個人
求人マッチングサーバ
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
株式会社ワコム
電子ペン
29日前
シャープ株式会社
情報出力装置
13日前
株式会社ワコム
電子ペン
1日前
株式会社ワコム
電子ペン
27日前
アスエネ株式会社
水管理の方法
1か月前
CKD株式会社
遠隔支援システム
1か月前
東洋電装株式会社
操作装置
1日前
株式会社寺岡精工
システム
29日前
東洋電装株式会社
操作装置
1日前
大日本印刷株式会社
作業台
1か月前
東洋電装株式会社
操作装置
1日前
トヨタ紡織株式会社
検査装置
22日前
株式会社カロニマ
情報発信システム
5日前
日本信号株式会社
料金精算システム
11日前
株式会社小野測器
移動量計測システム
1か月前
株式会社アジラ
異常行動検出システム
22日前
BH株式会社
商品販売システム
1か月前
シーアンドアールエム株式会社
広告装置
8日前
個人
特許審査支援ボットおよびボットシステム
12日前
個人
スマートフォンにおける使用料金削減方法
12日前
株式会社mov
情報処理システム
21日前
個人
AI営業システム
25日前
トヨタ自動車株式会社
文字認識装置
22日前
株式会社セガ
情報処理装置及びプログラム
28日前
株式会社and.d
商品の推奨方法
今日
株式会社セガ
情報処理装置及びプログラム
28日前
続きを見る