公開番号2025161808 公報種別公開特許公報(A) 公開日2025-10-24 出願番号2025102591,2024092214 出願日2025-06-18,2021-04-12 発明の名称複数のポジティブ例を用いた教師あり対照学習 出願人グーグル エルエルシー,Google LLC 代理人個人,個人,個人 主分類G06T 7/00 20170101AFI20251017BHJP(計算;計数) 要約【課題】複数のポジティブおよびネガティブのトレーニング例にわたって、教師あり対照学習を同時に実行することを可能にする、改善されたトレーニング方法を提供する。 【解決手段】本開示の例示的な態様は、自己教師あり設定において強力な表現を学習するのに非常に効果的であることが示されているバッチ対照損失の改善された教師ありバージョンを対象とする。したがって、提案された技法は、対照学習を完全教師あり設定に適応させ、また、複数のポジティブ例にわたって学習が同時に行われることを可能にする。 【選択図】図1A 特許請求の範囲【請求項1】 視覚表現の教師あり対照学習を実行するためのコンピューティングシステムであって、 1つまたは複数のプロセッサと、 1つまたは複数の非一時的コンピュータ可読媒体であり、 入力画像の埋込み表現を生成するために前記入力画像を処理するように構成されたベースエンコーダニューラルネットワークと、 前記入力画像の投影表現を生成するために前記入力画像の前記埋込み表現を処理するように構成された投影ヘッドニューラルネットワークと、 前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに複数の動作を実行させる命令であり、前記複数の動作が、 複数のクラスのうちの第1のクラスに関連付けられたアンカー画像、前記第1のクラスに関連付けられた複数のポジティブ画像、および前記複数のクラスのうちの1つまたは複数の他のクラスに関連付けられた1つまたは複数のネガティブ画像を取得する動作であって、前記1つまたは複数の他のクラスが前記第1のクラスとは異なる、動作と、 前記ベースエンコーダニューラルネットワークにより、アンカー画像のアンカー埋込み表現を取得するために前記アンカー画像を処理し、複数のポジティブ埋込み表現をそれぞれ取得するために前記複数のポジティブ画像を処理し、1つまたは複数のネガティブ埋込み表現をそれぞれ取得するために前記1つまたは複数のネガティブ画像を処理する動作と、 前記投影ヘッドニューラルネットワークにより、前記アンカー画像のアンカー投影表現を取得するために前記アンカー埋込み表現を処理し、複数のポジティブ投影表現をそれぞれ取得するために前記複数のポジティブ埋込み表現を処理し、1つまたは複数のネガティブ投影表現をそれぞれ取得するために前記1つまたは複数のネガティブ埋込み表現を処理する動作と、 前記アンカー投影表現と、前記複数のポジティブ投影表現の各々と、前記1つまたは複数のネガティブ投影表現の各々との間の類似性メトリックを評価する損失関数を評価する動作と、 前記損失関数に少なくとも部分的に基づいて、少なくとも前記ベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正する動作と を含む、命令と をまとめて記憶する、1つまたは複数の非一時的コンピュータ可読媒体と を含む、コンピューティングシステム。 続きを表示(約 1,300 文字)【請求項2】 前記アンカー画像、および前記1つまたは複数のポジティブ画像のうちの少なくとも1が、前記複数のクラスのうちの同じ第1のクラスに属する異なる対象を示す、請求項1に記載のコンピューティングシステム。 【請求項3】 前記複数のポジティブ画像が、前記第1のクラスに関連付けられたトレーニングバッチ内に含まれるすべての画像を含み、前記1つまたは複数のネガティブアンカー画像が、前記第1のクラス以外の前記複数のクラスのいずれにも関連付けられていない前記トレーニングバッチ内に含まれるすべての画像を含む、請求項1または2に記載のコンピューティングシステム。 【請求項4】 前記複数の動作が、前記アンカー画像、前記複数のポジティブ画像、および前記1つまたは複数のネガティブ画像の各々を前記ベースエンコーダニューラルネットワークで処理する前に、前記アンカー画像、前記複数のポジティブ画像、および前記1つまたは複数のネガティブ画像の各々をそれぞれ拡張することをさらに含む、請求項1から3のいずれか一項に記載のコンピューティングシステム。 【請求項5】 前記投影ヘッドニューラルネットワークが、前記入力画像の前記投影表現を正規化する正規化層を含む、請求項1から4のいずれか一項に記載のコンピューティングシステム。 【請求項6】 前記類似性メトリックが内積を含む、請求項1から5のいずれか一項に記載のコンピューティングシステム。 【請求項7】 前記損失関数が、正規化項と、前記トレーニングバッチ内のすべての画像にわたる対照損失項の和との積を含み、前記正規化項が、前記アンカー画像の前記第1のクラスに含まれる画像の数について正規化する、請求項1から6のいずれか一項に記載のコンピューティングシステム。 【請求項8】 前記正規化項が、 マイナス1を、前記アンカー画像の前記第1のクラスに含まれる前記画像の数の2倍から1を引いたもので割ったもの を含む、請求項7に記載のコンピューティングシステム。 【請求項9】 前記和による評価中の前記画像が前記第1のクラスに含まれるとき、前記アンカー画像と評価中の前記画像との間の前記類似性メトリックの指数を、前記第1のクラスに含まれないすべての画像についての、前記アンカー画像とそのような画像との間の類似性の指数の和で割ったものの対数 を含む、請求項7または8に記載のコンピューティングシステム。 【請求項10】 前記複数の動作が、前記損失関数に少なくとも部分的に基づいて、少なくとも前記ベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正した後に、 前記ベースエンコーダニューラルネットワークに分類ヘッドを追加する動作と、 教師ありトレーニングデータのセットに基づいて前記分類ヘッドを微調整する動作と をさらに含む、請求項1から9のいずれか一項に記載のコンピューティングシステム。 (【請求項11】以降は省略されています) 発明の詳細な説明【技術分野】 【0001】 関連出願 本出願は、2020年4月21日に出願された米国仮特許出願第63/013,153号の優先権および利益を主張する。米国仮特許出願第63/013,153号は、その全体が参照により本明細書に組み込まれる。 続きを表示(約 2,700 文字)【0002】 本開示は、一般に、視覚表現の対照学習のためのシステムおよび方法に関する。より詳細には、本開示は、複数のポジティブ例にわたって教師あり対照学習を実行するためのシステムおよび方法に関する。 【背景技術】 【0003】 クロスエントロピー損失は、教師あり学習のために最も広く使用されている損失関数である可能性が高い。これは、経験的ラベル分布(ワンホットベクトルの離散型分布)およびロジットの経験的分布の2つの離散型分布の間のKLダイバージェンスとして自然に定義される。 【0004】 いくつかの研究では、ノイズの多いラベルに対するロバスト性の欠如、および一般化性能の低下につながる不十分なマージンの可能性など、この損失の欠点を探求してきた。しかしながら、実際には、最先端の結果を達成するためにクロスエントロピーを継続的に使用することによって証明されるように、提案されたほとんどの代替案は、ImageNetなどの大規模なデータセットではより良好に機能していないようである。 【0005】 通常のクロスエントロピーに対する多くの提案された改良は、実際には、損失の定義の緩和、具体的には、参照分布が軸に沿っていることを伴う。これらの修正を用いてトレーニングされたモデルは、一般化、ロバスト性、および較正の改良を示す。しかしながら、提案された改良は、クロスエントロピー損失アプローチの欠点を完全に排除できるわけではない。 【先行技術文献】 【非特許文献】 【0006】 Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation strategies from data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 113-123, 2019. Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical data augmentation with no separate search. arXiv preprint arXiv:1909.13719, 2019 A variant of the strategy of Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020 to sequentially apply random color distortion and Gaussian blurring, where an additional sparse image warp is probabilistically added to the end of the sequence. 【発明の概要】 【課題を解決するための手段】 【0007】 本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学ぶことができ、または実施形態の実践を通して知ることができる。 【0008】 本開示の1つの例示的な態様は、視覚表現の教師あり対照学習を実行するためのコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数の非一時的コンピュータ可読媒体であり、入力画像の埋込み表現を生成するために入力画像を処理するように構成されたベースエンコーダニューラルネットワークと、入力画像の投影表現を生成するために入力画像の埋込み表現を処理するように構成された投影ヘッドニューラルネットワークと、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実行させる命令とをまとめて記憶する、1つまたは複数の非一時的コンピュータ可読媒体とを含む。動作は、複数のクラスのうちの第1のクラスに関連付けられたアンカー画像、第1のクラスに関連付けられた複数のポジティブ画像、および複数のクラスのうちの1つまたは複数の他のクラスに関連付けられた1つまたは複数のネガティブ画像を取得することであり、1つまたは複数の他のクラスが第1のクラスとは異なる、取得することを含む。動作は、ベースエンコーダニューラルネットワークにより、アンカー画像のアンカー埋込み表現を取得するために、アンカー画像と、複数のポジティブ埋込み表現をそれぞれ取得するために、複数のポジティブ画像と、1つまたは複数のネガティブ埋込み表現をそれぞれ取得するために、1つまたは複数のネガティブ画像とを処理することを含む。動作は、投影ヘッドニューラルネットワークにより、アンカー画像のアンカー投影表現を取得するために、アンカー埋込み表現と、複数のポジティブ投影表現をそれぞれ取得するために、複数のポジティブ埋込み表現と、1つまたは複数のネガティブ投影表現をそれぞれ取得するために、1つまたは複数のネガティブ埋込み表現とを処理することを含む。動作は、アンカー投影表現と、複数のポジティブ投影表現の各々と、1つまたは複数のネガティブ投影表現の各々との間の類似性メトリックを評価する損失関数を評価することを含む。動作は、損失関数に少なくとも部分的に基づいて、少なくともベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正することを含む。 【0009】 本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。 【0010】 本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。添付の図面は、本明細書に組み込まれるとともにその一部を成し、本開示の例示的実施形態を示し、記述とともに、関連原理を説明するのに役立つ。 (【0011】以降は省略されています) この特許をJ-PlatPat(特許庁公式サイト)で参照する