TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025159710
公報種別
公開特許公報(A)
公開日
2025-10-21
出願番号
2025058352
出願日
2025-03-31
発明の名称
画像処理モデル
出願人
富士通株式会社
,
ビー.ジー.ネゲブ テクノロジーズ アンド アプリケーションズ リミテッド, アット ベン‐グリオン ユニバーシティー
代理人
弁理士法人ITOH
主分類
G06N
3/0475 20230101AFI20251014BHJP(計算;計数)
要約
【課題】 画像処理モデルをトレーニングする方法を提供する。
【解決手段】 画像の元のトレーニングセット内の画像の画像説明を生成し、少なくとも1つのLLMを用い元のトレーニングセット内で十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定し、該決定に基づき第2LLMを用い少なくとも1つのテキストプロンプトを生成するための第3LLMに対する少なくとも1つの命令を生成し、第3LLMを用い少なくとも1つの命令に基づきテキスト-画像モデルのための少なくとも1つのテキストプロンプトを生成し、テキスト-画像モデルを用い少なくとも1つのテキストプロンプトに基づき少なくとも1つの合成画像を生成し、画像処理MLモデルのトレーニングに使用する画像の強化トレーニングセットを生成し、画像の強化トレーニングセットは、画像の元のトレーニングセットと少なくとも1つの合成画像を含む。
【選択図】 図3
特許請求の範囲
【請求項1】
コンピュータ実施方法であって、
画像-テキストモデルを使用して、画像の元のトレーニングセット内の画像の画像説明を生成するステップと、
少なくとも1つの大規模言語モデル(LLM)を使用して、前記画像説明に基づいて、前記元のトレーニングセット内で表現されていないか又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップと、
第2LLMを使用して、前記少なくとも1つのドメイン及び/又はクラスの決定に基づいて、少なくとも1つのテキストプロンプトを生成するための第3LLMに対する少なくとも1つの命令を生成するステップと、
前記第3LLMを使用して、前記少なくとも1つの命令に基づいて、テキスト-画像モデルのための前記少なくとも1つのテキストプロンプトを生成するステップと、
前記テキスト-画像モデルを使用して、前記少なくとも1つのテキストプロンプトに基づいて、少なくとも1つの合成画像を生成するステップと、
画像処理機械学習(ML)モデルのトレーニングに使用するための画像の強化トレーニングセットを生成するステップであって、画像の前記強化トレーニングセットは、画像の前記元のトレーニングセット及び前記少なくとも1つの合成画像を含む、ステップと、
を含むコンピュータ実施方法。
続きを表示(約 3,400 文字)
【請求項2】
前記元のトレーニングセット内で表現されていないか又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップは、
前記画像説明の中で一般的用語を決定するステップと、
第1LLMを使用し、前記一般的用語に基づいて、前記元のトレーニングセット内で表現されるドメイン及び各ドメインを表現する前記元のトレーニングセット内の画像の数を推論するステップと、
を含み、
前記表現されていない又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップは、
ドメインを表現する前記元のトレーニングセット内の画像の数又は割合がドメイン閾値を下回っている場合に、前記元のトレーニングセット内で表現される該ドメインが十分に表現されていないと決定するステップ、及び/又は、
第4LLMを使用して、前記元のトレーニングセット内のいずれの画像によっても表現されていない少なくとも1つのドメインが存在するかどうかを決定し、前記元のトレーニングセット内のいずれの画像によっても表現されていない少なくとも1つのドメインが存在すると決定された場合に、該少なくとも1つのドメインを少なくとも1つの表現されていないドメインとして決定するステップと、
を更に含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記元のトレーニングセット内で表現されていないか又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップは、
前記画像に関連付けられたメタデータ及び/又はラベルに基づいて、各クラスに関連付けられた前記元のトレーニングセット内の画像の数を決定するステップを含み、
前記表現されていない又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップは、
クラスを表現する前記元のトレーニングセット内の画像の数又は割合がクラス閾値を下回っている場合に、前記元のトレーニングセット内で表現される該クラスが十分に表現されていないと決定するステップ、及び/又は、
第6LLMを使用して、前記元のトレーニングセット内のいずれの画像によっても表現されていない少なくとも1つのクラスが存在するかどうかを決定し、前記元のトレーニングセット内のいずれの画像によっても表現されていない少なくとも1つのクラスが存在すると決定された場合に、該少なくとも1つのクラスを少なくとも1つの表現されていないクラスとして決定するステップと、
を更に含む、請求項1又は2に記載のコンピュータ実施方法。
【請求項4】
前記少なくとも1つの命令を生成するステップは、
十分に表現されていない又は表現されていないクラスが決定されたときに、前記十分に表現されていない又は表現されていないクラスを命名する命令を生成するステップと、
十分に表現されていない又は表現されていないドメインが決定されたときに、前記十分に表現されていない又は表現されていないドメインを命名する命令を生成するステップと、
を含む、請求項1又は2に記載のコンピュータ実施方法。
【請求項5】
前記少なくとも1つの合成画像を生成するステップは、複数の合成画像を含む合成セットを生成するステップを含み、
前記コンピュータ実施方法は、
クリーニングプロセスを実行するステップを更に含み、前記クリーニングプロセスは、外れ値であると決定された任意の合成画像を除去することによって前記合成セットをクリーニングして、合成画像のクリーニング済み合成セットを生成するステップを含み、
前記強化トレーニングセットは、画像の前記元のトレーニングセットと合成画像の前記クリーニング済み合成セットを含む、請求項1又は請求項2に記載のコンピュータ実施方法。
【請求項6】
前記合成セットをクリーニングして、前記クリーニング済み合成セットを生成するステップは、
前記元のトレーニングセット内の前記画像の第1埋め込みを生成するステップと、
前記元のトレーニングセット内で表現されるクラスに関連付けられた前記合成セット内の前記合成画像の第2埋め込みを生成するステップと、
前記元のトレーニングセット内の画像の各クラスの平均埋め込みを計算するステップと、
前記元のトレーニングセット内の画像の各クラスについて、前記クラスの平均埋め込みから前記クラスの画像の前記第1埋め込みの距離の平均距離を計算するステップと、
各第2埋め込みについて、前記第2埋め込みと、対応するクラスの平均埋め込みとの間の距離を、前記対応するクラスの平均距離に基づくクラス外れ値閾値と比較し、前記距離が前記クラス外れ値閾値よりも大きい場合に、前記第2埋め込みに対応する合成画像を前記合成セットから除去するステップと、
を含む、請求項5に記載のコンピュータ実施方法。
【請求項7】
所与のクラスの前記クラス外れ値閾値は、前記クラスの平均距離に多様性係数を乗じたものを含む、請求項6に記載のコンピュータ実施方法。
【請求項8】
チェックプロセスを実行するステップ、を更に含み、
前記チェックプロセスは、前記クリーニング済み合成セットをチェックして、追加合成画像が必要かどうかを決定するステップと、追加合成画像が必要であると決定された場合に、クリーニング補償プロセスを実行するステップと、を含み、
前記クリーニング補償プロセスは、
前記第2LLMを使用して、少なくとも1つのテキストプロンプトを生成するための前記第3LLMに対する少なくとも1つの追加命令を生成するステップと、
前記第3LLMを使用して、前記少なくとも1つの追加命令に基づいて、前記テキスト-画像モデルのための前記少なくとも1つのテキストプロンプトを生成するステップと、
前記テキスト-画像モデルを使用して、前記少なくとも1つのテキストプロンプトに基づいて、少なくとも1つの追加合成画像を生成するステップと、
を含む、請求項5に記載のコンピュータ実施方法。
【請求項9】
トレーニングフィードバックプロセスを実行するステップ、を更に含み、
前記トレーニングフィードバックプロセスは、トレーニング済み画像処理MLモデルの性能を評価して、更なる追加合成画像が必要かどうかを決定するステップと、更なる追加合成画像が必要であると決定された場合に、弱クラス補償プロセスを実行するステップと、を含み、
前記弱クラス補償プロセスは、
前記第2LLMを使用して、少なくとも1つのテキストプロンプトを生成するための前記第3LLMに対する少なくとも1つの追加命令を生成するステップと、
前記第3LLMを使用して、前記少なくとも1つの追加命令に基づいて、前記テキスト-画像モデルのための前記少なくとも1つのテキストプロンプトを生成するステップと、
前記テキスト-画像モデルを使用して、前記少なくとも1つのテキストプロンプトに基づいて、少なくとも1つの更なる追加合成画像を生成するステップと、
を含む、請求項1又は2に記載のコンピュータ実施方法。
【請求項10】
前記トレーニングフィードバックプロセスは、
画像の前記強化トレーニングセットを使用して前記画像処理MLモデルをトレーニングし、前記トレーニング済み画像処理MLモデルを生成するステップと、
テスト画像を使用して前記トレーニング済み画像処理MLモデルの性能を評価し、前記トレーニング済み画像処理MLモデルの性能が前記テスト画像のいずれかのクラスに関して性能閾値を下回っている場合、更なる追加合成画像が必要であると決定し、該クラスを少なくとも1つの弱クラスとして決定するステップと、
を含む、請求項9に記載のコンピュータ実施方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、画像処理モデル及びそのトレーニングに関し、特に、コンピュータ実施方法、コンピュータプログラム及び情報プログラミング機器に関する。
続きを表示(約 2,500 文字)
【背景技術】
【0002】
画像検索は、画像のデータベースから画像を検索及び探索するプロセスである。画像検索タスクのクエリは、テキスト又は画像の形式にすることができる。クエリが画像である場合、プロセスには、クエリ画像に類似する画像の探索が含まれる。
【0003】
深層メトリック学習(Deep Metric Learning (DML))は、一部の画像検索システムのコンポーネントであり、モデルが、トリプレット、コントラスト、角度損失などの損失関数によって最適化された埋め込み空間を通じて画像の類似性を測定するようにトレーニングされている。これらの損失関数は収束定理によって制御され、モデルがクラス内分散を最小化し、クラス間分散を最大化するように学習することを保証する。ただし、DMLモデルは、限られたデータセットでトレーニング又は微調整を行うと過学習する傾向があるため、汎化は依然として重要な課題となっている。汎化の制限により、DMLモデルの精度が低下し、敵対的な攻撃を受けやすくなる可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の観点から、画像処理モデルをトレーニングするための改善された方法が求められている。
【課題を解決するための手段】
【0005】
第1態様の実施形態によれば、本明細書にはコンピュータ実施方法が開示され、前記方法は、
画像-テキストモデルを使用して、画像の元のトレーニングセット内の画像の画像説明を生成するステップと、
少なくとも1つの大規模言語モデル(LLM)を使用して、前記画像説明に基づいて、前記元のトレーニングセット内で表現されていないか又は十分に表現されていない少なくとも1つのドメイン及び/又はクラスを決定するステップと、
第2LLMを使用して、前記少なくとも1つのドメイン及び/又はクラスの決定に基づいて、少なくとも1つのテキストプロンプトを生成するための第3LLMに対する少なくとも1つの命令を生成するステップと、
前記第3LLMを使用して、前記少なくとも1つの命令に基づいて、テキスト-画像モデルのための前記少なくとも1つのテキストプロンプトを生成するステップと、
前記テキスト-画像モデルを使用して、前記少なくとも1つのテキストプロンプトに基づいて、少なくとも1つの合成画像を生成するステップと、
画像処理機械学習(ML)モデルのトレーニングに使用するための画像の強化トレーニングセットを生成するステップであって、画像の前記強化トレーニングセットは、画像の前記元のトレーニングセット及び前記少なくとも1つの合成画像を含む、ステップと、
を含む。
【0006】
任意の態様/実施形態に関連する特徴は、他の任意の態様/実施形態に適用することができる。
【図面の簡単な説明】
【0007】
例として、以下の添付の図面を参照する。
画像処理を理解するのに役立つ図である。
画像処理を理解するのに役立つ図である。
システムを示す図である。
システムのモジュールを示す図である。
システムのモジュールを示す図である。
モジュールの動作を示す図である。
モジュールの動作を示す図である。
方法を示す図である。
方法を示す図である。
テーブルを示す図である。
テーブルを示す図である。
テーブルを示す図である。
テーブルを示す図である。
テーブルを示す図である。
グラフを示す図である。
グラフを示す図である。
グラフを示す図である。
グラフを示す図である。
テーブルを示す図である。
テーブルを示す図である。
グラフを示す図である。
テーブルを示す図である。
機器を示す図である。
【発明を実施するための形態】
【0008】
図1は、本開示を理解するのに有用な標準的な画像検索フレームワークの概要を示す図である。画像検索フレームワークでは、ステップS12において、データベースに格納された画像に基づいてメタデータが計算される(画像インデックス化)。ステップS12の出力は、データベース内の画像に基づく署名を含む。ステップS14において、クエリ/要求を構成する入力画像に基づいてメタデータが計算される。ステップS14の出力は、入力画像の署名を含む。ステップS16において、比較器は、入力画像の署名と、格納されている画像の複数の署名とを比較し、データベースに格納されている画像の中から類似画像を検索する。ここで、「メタデータ計算」とは、DNNを用いた埋め込みの抽出を表し、その後、比較器は、データベース画像の埋め込みとクエリ画像の埋め込みとの類似度を計算する。これに対して、以下の説明では、「メタデータ」は、データに関する補助情報を表す。DNN及び比較器関数は、深層メトリック学習技術によって学習される。(この場合は、深層メトリック学習を使用して)類似画像を検索するプロセスは、画像検索を構成する。
【0009】
画像検索は、クエリを使用して大規模なデータベースからデジタル画像を検索及び探索するプロセスと考えることができる。クエリは、画像又はテキストであることができる。図1の例示的な概要では、クエリは画像である。画像検索では、画像探索のために深層メトリック学習を使用できる。
【0010】
深層メトリック学習(Deep Metric Learning (DML))は、類似した入力(画像)ペア間の連続的な潜在的埋め込み空間における距離を短くするための関数を学習することを含む。離散的なラベルを割り当てる分類システムとは異なり、DMLモデルでは、連続的埋め込み空間内の位置を各画像に割り当てる。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
半導体装置
12日前
富士通株式会社
画像処理モデル
今日
富士通株式会社
メッシュ微細化
13日前
富士通株式会社
半導体デバイス
12日前
富士通株式会社
演算器及び演算方法
13日前
富士通株式会社
ポイントクラウド分類
7日前
富士通株式会社
電子機器筐体及び電子機器
11日前
富士通株式会社
アレイアンテナモジュール
14日前
富士通株式会社
光送信器及び光トランシーバ
11日前
富士通株式会社
通信制御装置及び移動中継装置
19日前
富士通株式会社
基板及びこれを備えた電子装置
14日前
富士通株式会社
テキスト案内される画像エディタ
7日前
富士通株式会社
メモリ管理装置及びメモリ管理方法
6日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
18日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
5日前
富士通株式会社
キャッシュ装置およびキャッシュ装置の制御方法
12日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
12日前
富士通株式会社
制御プログラム、制御方法、および情報処理装置
20日前
富士通株式会社
出張情報受付方法および出張情報受付プログラム
11日前
富士通株式会社
探索プログラム、探索方法、および情報処理装置
11日前
富士通株式会社
並列コンピューティング・カテゴリー分けプロセス
7日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
5日前
富士通株式会社
チェックプログラム、チェック方法及び情報処理装置
11日前
富士通株式会社
凝縮グラフ分布(CGD)に基づいたグラフ連続学習
7日前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
12日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
11日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
11日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
18日前
富士通株式会社
施策特定プログラム、施策特定方法および情報処理装置
18日前
富士通株式会社
表示制御プログラム、表示制御方法および情報処理装置
14日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
11日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
11日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
5日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
13日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
18日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
13日前
続きを見る
他の特許を見る