TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025169283
公報種別
公開特許公報(A)
公開日
2025-11-12
出願番号
2025128582,2024130808
出願日
2025-07-31,2021-10-04
発明の名称
自己注意ベースのニューラルネットワークを使用した画像処理
出願人
グーグル エルエルシー
,
Google LLC
代理人
個人
,
個人
,
個人
主分類
G06V
10/82 20220101AFI20251105BHJP(計算;計数)
要約
【課題】自己注意ベースのニューラルネットワークを使用して画像を処理するための、コンピュータプログラムを含む、方法、システムおよび装置を提供する。
【解決手段】方法は、複数のピクセルを含む1つまたは複数の画像を取得するステップと、各画像について各画像パッチが画像のピクセルの異なるサブセットを含む複数の画像パッチを決定するステップと、各画像について、複数の入力位置の各々にそれぞれの入力要素を含む入力シーケンスを生成するために、複数の入力要素がそれぞれの異なる画像パッチに対応する複数の画像パッチを処理するステップと、1つまたは複数の画像を特徴づけるネットワーク出力を生成するために、1つまたは複数の自己注意ニューラルネットワーク層を含むニューラルネットワークを使用して入力シーケンスを処理するステップと、を含む。
【選択図】図5
特許請求の範囲
【請求項1】
複数のピクセルを含む1つまたは複数の画像を取得するステップと、
前記1つまたは複数の画像の各画像について、前記画像の複数の画像パッチを決定するステップであって、各画像パッチが前記画像の前記複数のピクセルの異なるサブセットを含む、ステップと、
前記1つまたは複数の画像の各画像について、複数の入力位置の各々にそれぞれの入力要素を含む入力シーケンスを生成するために、対応する前記複数の画像パッチを処理するステップであって、複数の前記入力要素がそれぞれの異なる画像パッチに対応する、ステップと、
前記1つまたは複数の画像を特徴づけるネットワーク出力を生成するために、ニューラルネットワークを使用して前記入力シーケンスを処理するステップであって、前記ニューラルネットワークが1つまたは複数の自己注意ニューラルネットワーク層を含む、ステップと
を含む方法。
続きを表示(約 1,100 文字)
【請求項2】
入力シーケンスを生成するために、画像に対応する前記複数の画像パッチを処理するステップが、各画像パッチについて、
前記画像パッチの前記複数のピクセルを含むそれぞれの1次元初期入力要素を生成するステップと、
前記それぞれの1次元初期入力要素を使用して、それぞれの入力要素を生成するステップと
を含む、請求項1に記載の方法。
【請求項3】
各画像パッチが、次元数L×W×Cを有し、
Cが前記画像のチャネル数を表し、
各初期入力要素が、次元数1×(L・W・C)を有する、請求項2に記載の方法。
【請求項4】
前記それぞれの1次元初期入力要素を使用してそれぞれの入力要素を生成するステップが、第2のニューラルネットワークを使用して前記それぞれの1次元初期入力要素を処理するステップを含む、請求項2または3に記載の方法。
【請求項5】
前記第2のニューラルネットワークが、1つまたは複数の全結合ニューラルネットワーク層を含む、請求項4に記載の方法。
【請求項6】
入力シーケンスを生成するために、画像に対応する前記複数の画像パッチを処理するステップが、
それぞれの中間入力要素を生成するために前記複数の画像パッチを処理するステップと、
それぞれの入力要素を生成するために、各中間入力要素について、前記画像中の対応する前記画像パッチの位置を表す位置埋込みと、前記中間入力要素を組み合わせるステップと
を含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
各位置埋込みが整数である、請求項6に記載の方法。
【請求項8】
各位置埋込みが機械学習済みである、請求項6に記載の方法。
【請求項9】
前記入力シーケンス中の特定の入力要素が機械学習済みテンソルである、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記画像を特徴づけるネットワーク出力を生成するために前記ニューラルネットワークを使用して入力シーケンスを処理するステップが、
前記入力シーケンス中の各入力要素についてそれぞれの出力要素を生成するために、前記ニューラルネットワークを使用して前記入力シーケンスを処理するステップと、
前記ネットワーク出力を生成するために、第3のニューラルネットワークを使用して前記出力要素のうちの1つまたは複数を処理するステップと
を含む、請求項1から9のいずれか一項に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本明細書は、ニューラルネットワークを使用して画像を処理することに関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
ニューラルネットワークは、受け取った入力に対する出力を予測するために、非線形ユニットの1つまたは複数の層を利用する機械学習モデルである。いくつかのニューラルネットワークは、出力層に加え、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワークの中の次の層、すなわち、次の隠れ層または出力層への入力として使われる。ネットワークの各層は、パラメータのそれぞれのセットの現在の値に従って、受信された入力から出力を生成する。
【発明の概要】
【課題を解決するための手段】
【0003】
本明細書は、1つまたは複数の画像を処理して、1つまたは複数の画像を特徴づけるネットワーク出力を生成するために、訓練を通して構成された自己注意(self-attention)ベースのニューラルネットワークを実行する、1つまたは複数の場所の1つまたは複数のコンピュータ上にコンピュータプログラムとして実装されるシステムについて説明する。
【0004】
この自己注意ベースのニューラルネットワークは、入力シーケンスの要素にわたって自己注意機構を適用することによって、画像を表す入力シーケンスを処理し、出力シーケンスを生成するように構成され得る。入力シーケンスの要素の少なくとも一部が、入力画像のそれぞれのパッチに対応し得る。すなわち、このシステムは、画像をパッチにセグメント化し、各パッチのピクセルを処理して、入力シーケンスのそれぞれの要素を生成することができる。これらの要素に自己注意機構を適用することによって、自己注意ベースのニューラルネットワークは、画像全体に注目し、局所と大域の両方の情報を活用して出力シーケンスを生成することができる。
【0005】
本明細書で説明する主題は、以下の利点のうちの1つまたは複数を実現するように特定の実施形態で実施され得る。
【0006】
いくつかの既存のシステムは、自然言語処理(NLP)使用事例に自己注意ベースのニューラルネットワークを使用して、テキストシーケンスを処理して、テキストシーケンスについての予測を生成する。NLP領域における自己注意ベースのニューラルネットワークの利点は拡張性であり、一般に、自己注意ベースのニューラルネットワークの性能は、ニューラルネットワークのサイズが増大するにつれて向上する。しかしながら、画像に自己注意ベースのニューラルネットワークを適用する既存のシステムでは、同じことがいえず、一般に、自己注意ベースのニューラルネットワークは、より大きいアーキテクチャに拡大することができておらず、したがって、他のコンピュータビジョンシステム、たとえば、畳み込みニューラルネットワークほどうまく動作しない。たとえば、いくつかのそのような既存のシステムは、入力画像全体にわたって自己注意を適用せず、代わりに入力画像の局所近傍に適用する。したがって、画像の第1の局所近傍は、画像の第2の局所近傍に注目することができない。
【0007】
本明細書で説明する技法を使用すると、システムが、自己注意ベースのニューラルネットワークを使用して画像を直接処理し、ニューラルネットワークのサイズが大きくなっても高性能を享受することができる。詳細には、本明細書で説明する技法は、大規模訓練を可能にするために、自己注意ベースのニューラルネットワークを使用して可能である並列化を活用し、画像処理タスクの精度向上をもたらす。特定の例として、本明細書で説明するシステムは、1400万~3億の画像を含むデータセットで訓練される場合がある。さらに、本明細書で説明する例示的な実装形態は、フルサイズ画像に大域の自己注意を適用する。すなわち、自己注意ベースのニューラルネットワークは、入力画像全体にわたって自己注意を適用し、したがって、画像のどの領域も、画像の他の領域に注目することができる。
【0008】
本明細書で説明するように、画像を処理するように構成された自己注意ベースのニューラルネットワークは、最先端の畳み込みニューラルネットワークと同じ性能を達成するために、必要とし得る計算がはるかに少ない。すなわち、固定計算予算について、自己注意ベースのニューラルネットワークは、畳み込みニューラルネットワークよりも良く機能する。これは、自己注意機構は畳み込みよりも少ない計算で画像の異なる領域に注目することができるので、自己注意を適用すると、画像全体にわたってカーネルを畳み込むよりも一般に計算効率がよいためである。特定の例として、本明細書で説明する自己注意ベースのニューラルネットワークは、必要とする計算が2分の1、5分の1、10分の1、100分の1、または1000分の1でありながら、大規模な畳み込みニューラルネットワークに匹敵する、またはそれより優れた性能を達成することができる。
【0009】
本明細書の主題の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0010】
例示的なニューラルネットワークシステムの図である。
例示的な自己注意ベースのニューラルネットワークの図である。
画像パッチにセグメント化された例示的な画像を示す図である。
例示的な訓練システムの図である。
自己注意ベースのニューラルネットワークを使用して1つまたは複数の画像についての予測を生成するための例示的なプロセスの流れ図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
グーグル エルエルシー
ウェアラブルコンピューティングデバイスの電力インターフェイスにおける錆の発生を最小限に抑える方法
7日前
グーグル エルエルシー
自己注意ベースのニューラルネットワークを使用した画像処理
22日前
グーグル エルエルシー
ニューラルネットワーク計算を加速するためのハードウェア回路
16日前
グーグル エルエルシー
特定用途向け機械学習アクセラレータの生成およびグローバルなチューニング
1日前
グーグル エルエルシー
チャネル状態フィードバックにニューラルネットワークを使用した無線ネットワーク
1日前
個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
RFタグシート
1か月前
個人
5掛けポイント
27日前
個人
職業自動販売機
20日前
個人
QRコードの彩色
1か月前
個人
ペルソナ認証方式
1か月前
個人
地球保全システム
2か月前
個人
情報処理装置
1か月前
個人
自動調理装置
1か月前
個人
残土処理システム
1か月前
個人
農作物用途分配システム
1か月前
個人
サービス情報提供システム
22日前
個人
タッチパネル操作指代替具
1か月前
個人
知的財産出願支援システム
1か月前
NISSHA株式会社
入力装置
今日
個人
インターネットの利用構造
1か月前
個人
スケジュール調整プログラム
1か月前
個人
携帯端末障害問合せシステム
1か月前
個人
学習用データ生成装置
1日前
株式会社キーエンス
受発注システム
2か月前
個人
食品レシピ生成システム
2か月前
個人
エリアガイドナビAIシステム
1か月前
株式会社キーエンス
受発注システム
2か月前
株式会社キーエンス
受発注システム
2か月前
キラル株式会社
顧客体験提供システム
2日前
キヤノン株式会社
情報処理装置
28日前
キヤノン株式会社
表示システム
2か月前
キヤノン株式会社
画像認識装置
14日前
キヤノン株式会社
情報処理装置
14日前
株式会社ワコム
電子ペン
29日前
続きを見る
他の特許を見る