TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025170316
公報種別
公開特許公報(A)
公開日
2025-11-18
出願番号
2025136305,2024114737
出願日
2025-08-19,2019-12-19
発明の名称
ニューラルネットワーク計算を加速するためのハードウェア回路
出願人
グーグル エルエルシー
,
Google LLC
代理人
弁理士法人深見特許事務所
主分類
G06N
3/063 20230101AFI20251111BHJP(計算;計数)
要約
【課題】ニューラルネットワークを実現するハードウェア回路のための、コンピュータ可読媒体を含む方法、システム及び装置を提供する。
【解決手段】コンピューティングシステム100において、ハードウェア回路101は、複数のスーパータイル102を含む。各スーパータイルは、ニューラルネットワーク層への入力及びニューラルネットワーク層の重みを記憶するための統合メモリ106を含む。各スーパータイルは、複数の計算タイル108nを含む。各計算タイルは、計算を実行してニューラルネットワーク層のための出力を生成するために用いられる計算スレッドを実行する。各スーパータイルは、統合メモリ及び各計算タイルに結合される調停論理を含む。調停論理は、統合メモリに記憶された入力及び重みを計算タイルに渡し、層の入力及び重みを用いて計算タイルで実行される計算に基づいて層のために生成された出力を統合メモリに渡す。
【選択図】図1
特許請求の範囲
【請求項1】
複数のニューラルネットワーク層を備えるニューラルネットワークを実現し、計算を実行してニューラルネットワーク層のための出力を生成するよう構成されるハードウェアアクセラレータのための回路であって、
複数のスーパータイルを備え、前記複数のスーパータイルの各スーパータイルは、
前記ニューラルネットワーク層への入力と、前記ニューラルネットワーク層に対する複数の重みとを記憶するよう構成される統合メモリと、
複数の計算タイルとを含み、各計算タイルは、前記計算を実行するために用いられる計算スレッドを実行して前記出力を生成するよう構成され、前記複数のスーパータイルの各スーパータイルはさらに、
前記統合メモリおよび前記複数の計算タイルの各計算タイルに結合される調停論理ユニットを含み、前記調停論理ユニットは、
前記統合メモリに記憶された入力の1つ以上を前記計算タイルの各々に渡し、
前記統合メモリに記憶された重みのそれぞれのセットを前記計算タイルの各々に渡し、
前記入力のうちの1つ以上および前記重みのそれぞれのセットを用いて前記計算タイルの各々において実行される計算に基づいて前記ニューラルネットワーク層のために生成された出力を前記統合メモリに渡すよう構成される、回路。
続きを表示(約 1,800 文字)
【請求項2】
各スーパータイルのためのそれぞれのコントローラを備え、前記それぞれのコントローラは、1つ以上の制御信号を生成するよう構成され、前記1つ以上の制御信号は、
前記ニューラルネットワーク層への前記入力の各々を前記統合メモリの対応する位置に記憶するために使用され、前記対応する位置の各々はそれぞれのアドレスによって識別され、前記1つ以上の制御信号はさらに、
前記ニューラルネットワーク層についての前記複数の重みの各重みを前記統合メモリの対応する位置に記憶するために使用され、前記対応する位置の各々はそれぞれのアドレスによって識別され、前記1つ以上の制御信号はさらに、
前記調停論理に、1つ以上の入力を特定の計算タイルの計算セルに渡させ、重みのそれぞれのセットを前記特定の計算タイルに渡させる、請求項1に記載の回路。
【請求項3】
前記コントローラは、
前記特定の計算タイルに対する前記重みのそれぞれのセットを、前記特定の計算タイルにローカルな、前記特定の計算タイルのそれぞれのレジスタファイルに記憶するよう構成される、請求項2に記載の回路。
【請求項4】
前記コントローラは、
スーパータイルの対応する計算タイルに渡される入力のそれぞれのバッチを記憶するために前記統合メモリ内においてアドレスの区分を決定するよう構成され、アドレスの各区分は、前記スーパータイルのそれぞれの計算タイルに割り当てられる、請求項3に記載の回路。
【請求項5】
アドレスの区分内のそれぞれのアドレスは、入力特徴のサンプルを形成する入力のバッチ内の入力に対応し、
前記入力特徴のサンプルは、入力特徴の複数のセットを含み、
前記入力特徴の複数のセットは、画像、または音声データのストリームに対応する、請求項4に記載の回路。
【請求項6】
前記調停論理ユニットは、
アドレスの第1の区分について、前記アドレスの区分内のアドレスによって識別されるメモリ位置から入力の第1のバッチを取得し、
前記入力の第1のバッチを第1の計算タイルのセルに渡すよう構成され、前記第1の計算タイルは、前記統合メモリ内のアドレスの決定された区分に基づいて、前記入力の第1のバッチ内の各入力を受け取るよう割り当てられる、請求項4または5に記載の回路。
【請求項7】
各それぞれのスーパータイルについて、
前記複数の計算タイルの各計算タイルは、前記計算タイルにおいて2つ以上の計算スレッドを並列に実行するよう構成され、
各計算タイルは、計算スレッドを実行して、前記ニューラルネットワーク層への1つ以上の入力と前記ニューラルネットワーク層に対する重みとの間の乗算を実行して、前記ニューラルネットワーク層に対する部分出力を生成する、先行する請求項のいずれか1項に記載の回路。
【請求項8】
各それぞれのスーパータイルについて、
前記複数の計算タイルの各計算タイルは、前記計算タイルにおいて2つ以上の計算スレッドを並列に実行することに応答して、前記計算の一部を実行して前記ニューラルネットワーク層のための前記出力を生成し、
前記計算の前記一部を実行することに応答して、前記ニューラルネットワーク層のための前記出力を生成するために用いられる1つ以上の部分出力を生成するよう構成される、請求項7に記載の回路。
【請求項9】
前記回路は、
スーパータイル内の前記複数の計算タイルの各それぞれの計算タイルについて、
前記計算タイルにおいて2つ以上の計算スレッドを並列に実行し、
前記複数のスーパータイルの各それぞれのスーパータイルについて、
各計算タイルに割り当てられる2つ以上の計算スレッドを並列に実行して前記ニューラルネットワーク層のための前記出力を生成するよう構成される、請求項1または8に記載の回路。
【請求項10】
前記計算スレッドを用いて実行される演算の第1の部分は、第1の多次元テンソルの1つ以上の次元をトラバースするためのテンソル演算の第1のセットに対応し、
前記第1の多次元テンソルは、前記統合メモリに記憶された前記入力に対応するデータ要素を含む入力テンソルである、請求項1または6に記載の回路。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
背景
本明細書は、概して、ニューラルネットワーク計算を実行するために用いられるハードウェアアクセラレータのための回路に関する。
続きを表示(約 3,000 文字)
【背景技術】
【0002】
ニューラルネットワークは、ノードからなる1つ以上の層を用いて、受信された入力に対する出力、例えば、分類を生成する、機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つ以上の隠れ層を含む。各隠れ層の出力は、ネットワーク内の1つ以上の他の層、たとえば、ネットワークの他の隠れ層または出力層への入力として用いられる。ネットワークの層のうちのいくつかは、パラメータのそれぞれのセットの現在値に従って、受け取った入力から出力を生成する。いくつかのニューラルネットワークは、畳み込みニューラルネットワーク(CNN)(たとえば、画像処理に用いられる)または再帰型ニューラルネットワーク(RNN)(例えば、音声および言語処理に用いられる)である。
【0003】
CNNおよびRNNは、畳み込みまたは再帰型ニューラルネットワーク層のそれぞれのセットを含むニューラルネットワークである。ニューラルネットワーク層は、関連付けられたカーネルのセットを有することができ、この関連付けられたカーネルのセットは、パラメータまたは重みに対応してもよく、これらのパラメータまたは重みを用いて、層を通して入力を処理して、ニューラルネットワーク推論を計算するために、層の対応する出力を生成する。カーネルは、重みのテンソル、すなわち、多次元配列として表すことができる。例として、層のシーケンス中のあるニューラルネットワーク層は、層のシーケンス中の別のニューラルネットワーク層によって生成された画像画素データまたは活性化値の入力など、入力のセットを処理することができる。入力のセットまたは活性化値のセットも、テンソルとして表すことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
概要
本文書は、人工ニューラルネットワークの層の計算など、例示的なニューラルネットワークモデルの計算を加速するよう構成されるハードウェアアクセラレータにおいて用いられ得る改善されたハードウェア回路を説明する。回路アーキテクチャは複数のスーパータイルを含み、各スーパータイルは、スーパータイルの統合メモリから取得されたデータに基づいて複数の計算スレッドを実行するよう構成される。統合メモリは、計算スレッドの各々の計算がスーパータイルにおいて同時に実行され得るように、計算スレッドの各々の間で効率的に共有され得るメモリ構成を提供する。
【0005】
いくつかの実現例では、説明したハードウェア回路および処理技術は、例示的な機械学習作業負荷の推論(またはトレーニング)計算を実行するために用いられる複数の専用プロセッサ(たとえば、ハードウェアアクセラレータ)のための回路を含む、小規模または大規模分散システムなどの例示的なコンピューティングシステムにおいて用いられ得る。本明細書で説明する回路アーキテクチャは、複数の専用プロセッサが様々なタイプの機械学習モデルのためのタスクを実行するための計算を実行する速度および効率を高めるために、複数の専用プロセッサの各々に統合され得る。
【課題を解決するための手段】
【0006】
本明細書で説明する主題の一態様は、複数のニューラルネットワーク層を含むニューラルネットワークを実現し、計算を実行してニューラルネットワーク層のための出力を生成するよう構成されるハードウェアアクセラレータのための回路において実施され得る。本回路は、複数のスーパータイルを備え、複数のスーパータイルの各スーパータイルは、ニューラルネットワーク層への入力と、ニューラルネットワーク層に対する複数の重みとを記憶するよう構成される統合メモリと、複数の計算タイルとを含み、各計算タイルは、計算を実行するために用いられる計算スレッドを実行して出力を生成するよう構成され、複数のスーパータイルの各スーパータイルはさらに、統合メモリおよび複数の計算タイルの各々に結合される調停論理ユニットを含む。調停論理ユニットは、統合メモリに記憶された入力の1つ以上を計算タイルの各々に渡し、統合メモリに記憶された重みのそれぞれのセットを計算タイルの各々に渡し、入力のうちの1つ以上および重みのそれぞれのセットを用いて計算タイルの各々において実行される計算に基づいてニューラルネットワーク層のために生成された出力を統合メモリに渡すよう構成される。
【0007】
これらおよび他の実現例は、各々、以下の特徴のうちの1つ以上を任意選択で含むことができる。例えば、幾つかの実現例において、本回路は、各スーパータイルのためのそれぞれのコントローラを備え、それぞれのコントローラは、1つ以上の制御信号を生成するよう構成され、1つ以上の制御信号は、ニューラルネットワーク層への入力の各々を統合メモリの対応する位置に記憶するために使用され、対応する位置の各々はそれぞれのアドレスによって識別され、1つ以上の制御信号はさらに、ニューラルネットワーク層についての複数の重みの各重みを統合メモリの対応する位置に記憶するために使用され、対応する位置の各々はそれぞれのアドレスによって識別され、1つ以上の制御信号はさらに、調停論理に、1つ以上の入力を特定の計算タイルの計算セルに渡させ、重みのそれぞれのセットを特定の計算タイルに渡させる。
【0008】
いくつかの実現例では、コントローラは、特定の計算タイルに対する重みのそれぞれのセットを、特定の計算タイルにローカルな、特定の計算タイルのそれぞれのレジスタファイルに記憶するよう構成される。いくつかの実現例では、コントローラは、スーパータイルの対応する計算タイルに渡される入力のそれぞれのバッチを記憶するために統合メモリ内においてアドレスの区分を決定するよう構成され、アドレスの各区分は、スーパータイルのそれぞれの計算タイルに割り当てられる。
【0009】
いくつかの実現例では、アドレスの区分内のそれぞれのアドレスは、入力特徴のサンプルを形成する入力のバッチ内の入力に対応し、入力特徴のサンプルは、入力特徴の複数のセットを含み、入力特徴の複数のセットは、画像、または音声データのストリームに対応する。いくつかの実現例では、調停論理ユニットは、アドレスの第1の区分について、アドレスの区分内のアドレスによって識別されるメモリ位置から入力の第1のバッチを取得し、入力の第1のバッチを第1の計算タイルのセルに渡すよう構成され、第1の計算タイルは、統合メモリ内のアドレスの決定された区分に基づいて、入力の第1のバッチ内の各入力を受け取るよう割り当てられる。
【0010】
いくつかの実現例では、各それぞれのスーパータイルについて、 複数の計算タイルの
各計算タイルは、計算タイルにおいて2つ以上の計算スレッドを並列に実行するよう構成され、各計算タイルは、計算スレッドを実行して、ニューラルネットワーク層への1つ以上の入力とニューラルネットワーク層に対する重みとの間の乗算を実行して、ニューラルネットワーク層に対する部分出力を生成する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
グーグル エルエルシー
ハードウェア生成鍵の暗号化
22日前
グーグル エルエルシー
イベントベースの記録
22日前
グーグル エルエルシー
折畳み携帯型表示デバイス
29日前
グーグル エルエルシー
ウェアラブルコンピューティングデバイスの電力インターフェイスにおける錆の発生を最小限に抑える方法
7日前
グーグル エルエルシー
自己注意ベースのニューラルネットワークを使用した画像処理
22日前
グーグル エルエルシー
ニューラルネットワーク計算を加速するためのハードウェア回路
16日前
グーグル エルエルシー
特定用途向け機械学習アクセラレータの生成およびグローバルなチューニング
1日前
グーグル エルエルシー
チャネル状態フィードバックにニューラルネットワークを使用した無線ネットワーク
1日前
個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
5掛けポイント
27日前
個人
職業自動販売機
20日前
個人
RFタグシート
1か月前
個人
QRコードの彩色
1か月前
個人
地球保全システム
2か月前
個人
ペルソナ認証方式
1か月前
個人
自動調理装置
1か月前
個人
情報処理装置
1か月前
個人
表変換編集支援システム
2か月前
個人
農作物用途分配システム
1か月前
個人
残土処理システム
1か月前
個人
知的財産出願支援システム
1か月前
NISSHA株式会社
入力装置
今日
個人
インターネットの利用構造
1か月前
個人
サービス情報提供システム
22日前
個人
タッチパネル操作指代替具
1か月前
個人
学習用データ生成装置
1日前
個人
スケジュール調整プログラム
1か月前
個人
パスワード管理支援システム
2か月前
個人
携帯端末障害問合せシステム
1か月前
個人
AIキャラクター制御システム
2か月前
株式会社キーエンス
受発注システム
2か月前
個人
海外支援型農作物活用システム
2か月前
株式会社キーエンス
受発注システム
2か月前
個人
食品レシピ生成システム
2か月前
個人
エリアガイドナビAIシステム
1か月前
続きを見る
他の特許を見る