TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025027435
公報種別公開特許公報(A)
公開日2025-02-27
出願番号2024128862
出願日2024-08-05
発明の名称画像符号化
出願人富士通株式会社
代理人弁理士法人ITOH
主分類G06V 10/82 20220101AFI20250219BHJP(計算;計数)
要約【課題】 より有用な表現を画像から抽出するためのコンピュータ実装された方法を提供する。
【解決手段】 トレーニングプロセスを実行することを有するコンピュータ実装された方法において、トレーニングプロセスは、第1及び第2の画像エンコーダネットワークを用いて、一対の第1の入力画像及び第2の入力画像に基づいて、それぞれ、第1セットの埋め込み及び第2セットの埋め込みを生成し、第1セットの埋め込み及び第2セットの埋め込みに基づいて、それぞれ、第1の最近傍グラフ(NNG)及び第2のNNGを生成し、少なくとも1つのグラフニューラルネットワーク(GNN)を用いて、第1のNNG及び第2のNNGから、それぞれ、第1の表現及び第2の表現を抽出し、第1の表現と第2の表現との間の差分に基づいて、第1の画像エンコーダネットワークの少なくとも1つのネットワーク重みを調整する、ことを有する。
【選択図】 図3

特許請求の範囲【請求項1】
トレーニングプロセスを実行することを有するコンピュータ実装された方法であって、前記トレーニングプロセスは、
第1及び第2の画像エンコーダネットワークを用いて、一対の第1の入力画像及び第2の入力画像に基づいて、それぞれ、第1セットの埋め込み及び第2セットの埋め込みを生成し、
前記第1セットの埋め込み及び前記第2セットの埋め込みに基づいて、それぞれ、第1の最近傍グラフ(NNG)及び第2のNNGを生成し、
少なくとも1つのグラフニューラルネットワーク(GNN)を用いて、前記第1のNNG及び前記第2のNNGから、それぞれ、第1の表現及び第2の表現を抽出し、
前記第1の表現と前記第2の表現との間の差分に基づいて、前記第1の画像エンコーダネットワークの少なくとも1つのネットワーク重みを調整する、
ことを有する、コンピュータ実装された方法。
続きを表示(約 2,100 文字)【請求項2】
前記第1セットの埋め込みを生成することは、前記第1の入力画像を複数の第1のパッチトークンに分割し、そして、前記第1の画像エンコーダネットワークを用いて、他の第1のパッチトークンをアテンション機構で分析することによって前記第1のパッチトークンを更新することで、第1の更新されたパッチトークンを有する前記第1セットの埋め込みを生成する、ことを有し、
前記第2セットの埋め込みを生成することは、前記第2の入力画像を複数の第2のパッチトークンに分割し、そして、前記第2の画像エンコーダネットワークを用いて、他の第2のパッチトークンをアテンション機構で分析することによって前記第2のパッチトークンを更新することで、第2の更新されたパッチトークンを有する前記第2セットの埋め込みを生成する、ことを有する、
請求項1に記載のコンピュータ実装された方法。
【請求項3】
前記トレーニングプロセスは、前記第1の表現と前記第2の表現との間の前記差分を計算することを有する、請求項1又は2に記載のコンピュータ実装された方法。
【請求項4】
前記第1の表現と前記第2の表現との間の前記差分を計算することは、
前記第1の表現に対してプーリング処理を実行して第1のプーリングされた特徴を生成し、前記第2の表現に対してプーリング処理を実行して第2のプーリングされた特徴を生成し、
前記第1のプーリングされた特徴と前記第2のプーリングされた特徴との間の差分を計算する、
ことを有する、請求項3に記載のコンピュータ実装された方法。
【請求項5】
前記第1の入力画像及び前記第2の入力画像は、参照画像の第1の拡張及び第2の拡張を有し、あるいは前記参照画像及びその拡張を有し、前記第1の画像エンコーダネットワークの前記少なくとも1つのネットワーク重みを調整することは、前記第1の表現と前記第2の表現との間の前記差分を減少させるように、あるいはゼロにする又はゼロに近づけるように、前記第1の画像エンコーダネットワークの前記少なくとも1つのネットワーク重みを調整することを有する、請求項1又は2に記載のコンピュータ実装された方法。
【請求項6】
イテレーションごとに異なる対の入力画像として、複数のイテレーションで、前記トレーニングプロセスを実行する、ことを有する請求項1又は2に記載のコンピュータ実装された方法。
【請求項7】
前記トレーニングプロセスを実行した後に、画像処理タスクにおいて前記第1の画像エンコーダネットワークを使用する、ことを更に有する請求項1又は2に記載のコンピュータ実装された方法。
【請求項8】
前記画像処理タスクは、
視覚的質問回答(VQA)、
オブジェクト検出、
画像分類、
画像セグメンテーション、及び
画像検索、
のうちの少なくとも1つを有する、請求項7に記載のコンピュータ実装された方法。
【請求項9】
コンピュータ上で実行されるときに、該コンピュータに、トレーニングプロセスを実行することを有する方法を実行させるコンピュータプログラムであって、前記トレーニングプロセスは、
第1及び第2の画像エンコーダネットワークを用いて、一対の第1の入力画像及び第2の入力画像に基づいて、それぞれ、第1セットの埋め込み及び第2セットの埋め込みを生成し、
前記第1セットの埋め込み及び前記第2セットの埋め込みに基づいて、それぞれ、第1の最近傍グラフ(NNG)及び第2のNNGを生成し、
少なくとも1つのグラフニューラルネットワーク(GNN)を用いて、前記第1のNNG及び前記第2のNNGから、それぞれ、第1の表現及び第2の表現を抽出し、
前記第1の表現と前記第2の表現との間の差分に基づいて、前記第1の画像エンコーダネットワークの少なくとも1つのネットワーク重みを調整する、
ことを有する、コンピュータプログラム。
【請求項10】
メモリと、該メモリに接続されたプロセッサと、を有する情報処理装置であって、前記プロセッサは、トレーニングプロセスを実行するように構成され、前記トレーニングプロセスは、
第1及び第2の画像エンコーダネットワークを用いて、一対の第1の入力画像及び第2の入力画像に基づいて、それぞれ、第1セットの埋め込み及び第2セットの埋め込みを生成し、
前記第1セットの埋め込み及び前記第2セットの埋め込みに基づいて、それぞれ、第1の最近傍グラフ(NNG)及び第2のNNGを生成し、
少なくとも1つのグラフニューラルネットワーク(GNN)を用いて、前記第1のNNG及び前記第2のNNGから、それぞれ、第1の表現及び第2の表現を抽出し、
前記第1の表現と前記第2の表現との間の差分に基づいて、前記第1の画像エンコーダネットワークの少なくとも1つのネットワーク重みを調整する、
ことを有する、情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、画像エンコーダネットワークをトレーニングして使用することに関し、特に、コンピュータ実装された方法、コンピュータプログラム、及び情報プログラミング装置に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
ラベル付けされていないデータ(例えば、画像)は、インターネット及び他のソースから取得するのが比較的容易である。しかし、注釈付きデータを取得すること、又はラベル付けされていないデータに注釈を付けることは、時間がかかり、費用がかかる。ラベル付けされていないデータ(画像)から表現を学習することは、(時間及び金銭における)注釈コストを低減させる助けとなる。自己教師あり学習技法を用いて画像からそのような表現を学習するために、ニューラルネットワークが使用され得る。表現の品質/正確さは、表現を学習するニューラルネットワークを使用する又は学習された表現を使用するMLモデルの有用性及び正確さに影響を及ぼすことになる。
【0003】
より有用な表現を画像から抽出することができることが望まれる。
【発明の概要】
【0004】
第1の態様の一実施形態によれば、トレーニングプロセスを実行することを有するコンピュータ実装された方法がここに開示され、トレーニングプロセスは、
第1及び第2の(又は生徒及び教師)画像エンコーダネットワークを用いて、(一対の)第1及び第2の入力画像に基づいて、それぞれ、第1セット及び第2セットの埋め込みを生成し、第1セット及び第2セットの埋め込みに基づいて、それぞれ、第1及び第2の最近傍グラフ(NNG)を生成し、少なくとも1つのグラフニューラルネットワーク(GNN)を用いて、第1及び及び第2のNNGから、それぞれ、第1及び第2の表現を抽出し、第1の表現と第2の表現との間の差分に基づいて、第1の画像エンコーダネットワークの少なくとも1つのネットワーク重みを調整する、ことを有する(第1及び第2の入力画像は、参照画像の第1及び第2の拡張、あるいは参照画像及びその拡張を有する)。
【0005】
任意の態様/実施形態に関する特徴が、任意の他の態様/実施形態に適用されてもよい。
【図面の簡単な説明】
【0006】
以下、例として添付の図面を参照する。
比較となる方法を示す図である。
比較となる方法を示す図である。
トレーニングプロセスを示す図である。
方法を示す図である。
トレーニングプロセスを示す図である。
トレーニングプロセスを示す図である。
トレーニングプロセスを示す図である。
方法を示す図である。
実施形態を理解するのに有用な図である。
結果の表である。
装置を示す図である。
【発明を実施するための形態】
【0007】
図1は、第1の比較となる方法(比較方法1)を示す図である。比較方法1は、特定のタイプの画像エンコーダネットワークである自己教師ありビジョントランスフォーマをトレーニングするための方法である。入力画像が拡張されて、2つの拡張画像が生成される。拡張画像はパッチに分割され、生徒ビジョントランスフォーマ及び教師ビジョントランスフォーマにそれぞれ送られる。これらビジョントランスフォーマは各々、関連する画像の埋め込みを生成する。埋め込み間で損失が計算され、該損失に基づいて生徒ビジョントランスフォーマが更新される。特に、後述する対照損失(contrastive loss)が採用される。運動量エンコーダ(EMA)が生徒と教師バックボーンとの間で使用され、教師を更新する。比較方法1に伴う問題は、画像の構造、及び画像のパッチ間の関係を明示的に捕捉するようにビジョントランスフォーマをトレーニングしないことである。第1の比較方法は、DINOと呼ばれることがある(Caron他,2021年,“Emerging Properties in Self-Supervised Vision Transformers”)。
【0008】
図2は、第2の比較となる方法(比較方法2)を示している。インタラクティブ空間にグラフが構築され、該グラフ上で関係推論が学習される。推論が完了した後、更新された情報が元の座標空間に投影され返す。これは、畳み込みニューラルネットワーク(CNN)の初期段階での関係推論を可能にする。比較方法2の狙いは、関心領域からの特徴を潜在インタラクション空間に投影することによって大域的関係推論を行うことである。比較方法2に伴う問題は、主に畳み込みニューラルネットワークに焦点を当てており、最近のトランスフォーマアーキテクチャでは機能しないことである。さらに、大域的関係推論モジュールをトレーニングするためにラベル付けされたデータを必要とする。
【0009】
図3は、一実装に従ったトレーニングプロセスを示す図である。画像が、2つの異なる手法で拡張され、元の画像の拡張である第1及び第2の入力画像を生成する。これらの拡張は、画像の色変更、画像の輝度調整、画像をトリミングすること、画像をぼかすこと、画像をひっくり返すこと、及び画像の回転のうちのいずれかを有し得る。
【0010】
入力画像の対(ペア)はラベルを有していない。第1及び第2の入力画像は、パッチトークン(パッチと称することがある)に分割され、それぞれ、複数の第1のパッチトークン及び複数の第2のパッチトークンを生成する。換言すれば、トレーニングプロセスは、入力画像を、重なり合わない連続したパッチトークンのグリッドに分割することを有する。第1及び第2のクラストークンも生成される。第1のクラストークンは、他の第1のパッチトークンに関する情報を含む。このトークンの役割は、様々な粒度でシーケンス全体から情報を集約することであり、その出力にて投影ヘッドが付着され得る。対応する考察が第2のクラストークンに当てはまる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
予測
13日前
富士通株式会社
グラフ表現
今日
富士通株式会社
画像符号化
今日
富士通株式会社
プロセッサ
20日前
富士通株式会社
シーン検出
13日前
富士通株式会社
光伝送装置
1か月前
富士通株式会社
金融システム
1か月前
富士通株式会社
異常な挙動の検出
21日前
富士通株式会社
通信装置及び通信方法
1か月前
富士通株式会社
演算器及び情報処理装置
1か月前
富士通株式会社
冷却部品、及び冷却装置
7日前
富士通株式会社
基地局装置及び通信方法
1か月前
富士通株式会社
キュービット・マッピング
1か月前
富士通株式会社
伝送装置及び伝送システム
1か月前
富士通株式会社
プログラム,装置及び方法
1か月前
富士通株式会社
基地局装置及び通信システム
1か月前
富士通株式会社
制御装置及び制御プログラム
1か月前
富士通株式会社
キュービット・ルーティング
1か月前
富士通株式会社
電圧検知回路及び情報処理装置
1か月前
富士通株式会社
ネットワーク装置及び判定方法
1か月前
富士通株式会社
電源ユニット及びその制御方法
1か月前
富士通株式会社
機械学習方法および情報処理装置
21日前
富士通株式会社
画像視角変化類型検出装置と方法
21日前
富士通株式会社
異常検知装置および異常検知方法
20日前
富士通株式会社
疾患予測根拠表示方法及びプログラム
1か月前
富士通株式会社
連携装置、連携方法、連携プログラム
1か月前
富士通株式会社
情報処理装置及びデータ転送制御方法
1か月前
富士通株式会社
ネットワーク装置及びモデル学習方法
20日前
富士通株式会社
ネットワーク装置及びモデル学習方法
今日
富士通株式会社
能動学習プログラム、方法、及び装置
6日前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
富士通株式会社
病変検出方法および病変検出プログラム
1か月前
富士通株式会社
光伝送装置および送信光パワー制御方法
14日前
富士通株式会社
歪み補正係数算出方法およびプログラム
28日前
富士通株式会社
作業割当方法および作業割当プログラム
1か月前
富士通株式会社
サーバ監視システムおよびサーバ監視方法
6日前
続きを見る