TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025034245
公報種別公開特許公報(A)
公開日2025-03-13
出願番号2023140519
出願日2023-08-30
発明の名称演算処理装置
出願人国立研究開発法人産業技術総合研究所
代理人
主分類G06F 17/16 20060101AFI20250306BHJP(計算;計数)
要約【課題】注意機構をベースとするネットワークモデルの計算を高速化する。
【解決手段】複数の演算ユニットセット16を備え、その各々は、直列のネットワーク14で接続されたM個(Mは2以上の整数)の演算ユニット11を含み、その各々は、第1の行列aおよび第2の行列bのうち列ベクトルの一つの組[am,bm]をm番目の演算ユニットのSRAMに記憶し、各々の演算ユニットからN次元の列ベクトルbmの配列データをネットワークを介して第1の方向に送り出し、順次後段に隣接する演算ユニットに伝播して、第2の行列の各々の列ベクトルb0~bM-1と演算ユニット内部に蓄えたamとのドット積、すなわちM次元列ベクトルxmをm番目の演算ユニットの乗算器と加算器によって積算するデータパスにより算出し、M次元列ベクトルxmをm番目の演算ユニットのSRAMに記憶する、演算処理装置が提供される。
【選択図】図1
特許請求の範囲【請求項1】
複数の演算ユニットセットを備える演算処理装置であって、
前記複数の演算ユニットセットの各々は、直列のネットワークで接続されたM個(Mは2以上の整数)の演算ユニットを含み、
前記M個の演算ユニットの各々は、少なくとも一つのSRAMまたはレジスタファイル、乗算器および加算器と、該SRAMまたはレジスタファイルを選択してデータを該乗算器に出力するポートとを有し、該SRAMまたはレジスタファイルは該データを各々配列として記憶する領域を有し、第2の方向に隣接する前記演算ユニットから前記ネットワークを介してデータを入力する入力ポートと、第1の方向に隣接する前記演算ユニットへ送信するために前記ネットワークにデータを出力する出力ポートとをさらに有し、該入力ポートから入力されたデータと該SRAMまたはレジスタファイルに記憶したデータとを該乗算器に入力して、その乗算結果を該加算器によって積算するデータパスと、該積算結果を配列データとして該SRAMまたはレジスタファイルに入力するデータパスとをさらに有し、
前記複数の演算ユニットセットの各々は、第1の行列a=[a
0,

1,

2,…,

M-1
]および第2の行列b=[b
0,

1,

2,…,

M-1
]のうち列ベクトルの一つの組[a
m,


]をm番目の演算ユニットの前記SRAMまたはレジスタファイルに記憶し、各々の演算ユニットからN次元の列ベクトルb

の配列データを前記ネットワークを介して前記第1の方向に送り出し、順次後段に隣接する演算ユニットに伝播して、前記第2の行列の各々の列ベクトルb
0,

1,

2,…,

M-1
と演算ユニット内部に蓄えたa

とのドット積、すなわちM×M次元の第3の行列の配列の部分をなすM次元列ベクトルx

=[a

・b
0,


・b
1,


・b
2,…,


・b
M-1


をm番目の演算ユニットの前記乗算器と前記加算器によって積算するデータパスにより算出し、該M次元列ベクトルx

をm番目の演算ユニットの前記SRAMまたはレジスタファイルに記憶する、前記演算処理装置。
続きを表示(約 1,900 文字)【請求項2】
前記ネットワークは、前記M個の演算ユニットのうち隣接する演算ユニットを前記第1の方向に直列に接続する第1のデイジーチェインと、前記M個の演算ユニットのうち隣り合う演算ユニットを前記第2の方向に直列に接続する第2のデイジーチェインとを有し、該第1のデイジーチェインの終端と該第2のデイジーチェインの終端とが結合されて伝播するデータを折り返す機能を有する、請求項1記載の演算処理装置。
【請求項3】
チャネル数ないしシーケンス数の異なる問題に対応できるように、前記ネットワークをチャネル数またはシーケンス数に合わせて分割し、前記第1のデイジーチェインと前記第2のデイジーチェインとを結合する回路要素を有する、請求項2に記載の演算処理装置。
【請求項4】
前記m番目の演算ユニットの前記SRAMまたはレジスタファイルに記憶した前記第3の行列に属する列ベクトルx

とあらかじめ記憶したM×N次元の第4の行列c=[c
0,

1,

2,…,

M-1
]とから行列の積y=[y
0,

1,

2,…,

M-1
]=cxによって生成される第5の行列のデータのうち、この部分をなし、前記m番目の演算ユニットに蓄える列ベクトルy

すなわち
TIFF
2025034245000008.tif
16
170
を計算する際に、
各演算ユニットに記憶したN次元列ベクトルc

の要素をc
m0
, c
m1
, c
m2
, …,c
m(N-1)
の順に前記ネットワーク上に送出し、前記N次元の列ベクトルy

を計算し、各々のm番目の演算ユニットの前記SRAMまたはレジスタファイルに記憶する、請求項1に記載の演算処理装置。
【請求項5】
M×L次元行列を構成する列ベクトルd

=[d
m0,

m1,

m2,…,

m(L-1)


に対してリニア層の計算をMチャネル分行う際に、N×L次元の係数行列UまたはN次元のバイアスベクトルVを外部から前記ネットワークに順次入力して伝播させ、あらかじめ各m番目の演算ユニットに記憶した前記列ベクトルd

との間で、
TIFF
2025034245000009.tif
28
170
を計算し、m番目のN次元列ベクトルz

を各々の演算ユニットの前記SRAMまたはレジスタファイルに記憶する、但しuおよびvは各々係数行列U、バイアスベクトルVの要素を表す、請求項1または4に記載の演算処理装置。
【請求項6】
アテンションのマルチヘッド化を行う際に、ヘッド数H分の前記ネットワークおよび前記M個の演算ユニットの組を有し、ヘッド分割する直前のリニア層の係数行列の行数をヘッド数Hで分割し、分割された区分行列を各々h番目のヘッド用通信路に順次入力し、共有された被演算ベクトルデータd

との間で、
TIFF
2025034245000010.tif
23
170
を計算することによってマルチヘッド化を行う、請求項1または4に記載の演算処理装置。
【請求項7】
当該演算処理装置は、前記アテンションのマルチヘッド化を行う際に、マルチヘッド化されたベクトルを結合するために、結合直後のリニア層の係数行列の列数をヘッド数Hで分割し、分割された区分行列を各々h番目のヘッド用通信路に順次入力し、ヘッド毎に分割された部分和を合算し所定の演算ユニット内部に記憶する機能を有する、請求項6に記載の演算処理装置。
【請求項8】
前記ネットワークに演算コードをデータとともに順次直列に伝播する、請求項1に記載の演算処理装置。
【請求項9】
ハードウェアを追加することなくマルチヘッド化された列ベクトルデータの処理を行うために、配列の授受と積和演算の累算をヘッド順に区切って順次行うことで、マルチヘッド処理を模擬する、請求項1または4に記載の演算処理装置。

発明の詳細な説明【技術分野】
【0001】
本開示は演算システムに係り、特に機械学習処理を効率的に行う演算処理装置に関する。
続きを表示(約 2,700 文字)【背景技術】
【0002】
画像処理演算装置(GPU:Graphical Processing Unit)による汎用計算(GPGPU:General Purpose computing on GPU)によって、機械学習の速度は飛躍的に向上している。
【0003】
一方で、機械学習のネットワークモデルは、単純な畳み込み演算だけでなく、注意機構と呼ばれるベクトルの内積演算を用いるものに関しても、自動翻訳や画像処理など有用な応用が多数知られるようになってきている(例えば、特許文献1、非特許文献1、2参照。)。
【先行技術文献】
【特許文献】
【0004】
特開2022-019422号公報
【非特許文献】
【0005】
A. Vaswani et al., “Attention is all you need”, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, Dec. 4-9, 2017. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
A. Dudovskiy et al., “An image is worth 16x16 words: transformers for image recognition at scale”, The 9th International Conference on Learning Representations (ICLR 2021), Virtual Only, May 3-7, 2021. https://iclr.cc/virtual/2021/poster/3013
【発明の概要】
【発明が解決しようとする課題】
【0006】
画像処理演算装置は、一般的に多くの種類の行列演算を実行できるように汎用性が高くできており、その装置上で走らせるソフトウェアライブラリによって具体的な処理を行う構造となっている。この場合、汎用性のために、余分な消費電力を消費すること、ソフトウェア処理が入るために、速度が低下することが知られている。一方で、完全な専用回路を作ることは、他の計算を実行することができないという短所を生ずる。
【0007】
本開示の目的は、注意機構(以下、「アテンション」とも称する。)をベースとするネットワークモデルの計算を高速化できる演算処理装置を提供することである。
【課題を解決するための手段】
【0008】
本開示の一態様によれば、複数の演算ユニットセットを備える演算処理装置であって、上記複数の演算ユニットセットの各々は、直列のネットワークで接続されたM個(Mは2以上の整数)の演算ユニットを含み、上記M個の演算ユニットの各々は、-少なくとも一つのSRAMまたはレジスタファイル、乗算器および加算器と、そのSRAMまたはレジスタファイルを選択してデータを該乗算器に出力するポートとを有し、そのSRAMまたはレジスタファイルはそのデータを各々配列として記憶する領域を有し、第2の方向に隣接する上記演算ユニットから上記ネットワークを介してデータを入力する入力ポートと、第1の方向に隣接する上記演算ユニットへ送信するために上記ネットワークにデータを出力する出力ポートとをさらに有し、上記入力ポートから入力されたデータと上記SRAMまたはレジスタファイルに記憶したデータとを上記乗算器に入力して、その乗算結果を上記加算器によって積算するデータパスと、その積算結果を配列データとして上記SRAMまたはレジスタファイルに入力するデータパスとをさらに有し、
上記複数の演算ユニットセットの各々は、第1の行列a=[a
0,

1,

2,…,

M-1
]および第2の行列b=[b
0,

1,

2,…,

M-1
]のうち列ベクトルの一つの組[a
m,


]をm番目の演算ユニットの上記SRAMまたはレジスタファイルに記憶し、各々の演算ユニットからN次元の列ベクトルb

の配列データを上記ネットワークを介して上記第1の方向に送り出し、順次後段に隣接する演算ユニットに伝播して、上記第2の行列の各々の列ベクトルb
0,

1,

2,…,

M-1
と演算ユニット内部に蓄えたa

とのドット積、すなわちM×M次元の第3の行列の配列の部分をなすM次元列ベクトルx

=[a

・b
0,


・b
1,


・b
2,…,


・b
M-1


をm番目の演算ユニットの上記乗算器と上記加算器によって積算するデータパスにより算出し、上記M次元列ベクトルx

をm番目の演算ユニットの上記SRAMまたはレジスタファイルに記憶する、上記演算処理装置が提供される。
【0009】
上記態様において、演算処理装置は、上記ネットワークは、上記M個の演算ユニットのうち隣接する演算ユニットを上記第1の方向に直列に接続する第1のデイジーチェインと、上記M個の演算ユニットのうち隣り合う演算ユニットを上記第2の方向に直列に接続する第2のデイジーチェインとを有し、該第1のデイジーチェインの終端と該第2のデイジーチェインの終端とが結合されて伝播するデータを折り返す機能を有してもよい。
【0010】
上記態様において、演算処理装置は、チャネル数ないしシーケンス数の異なる問題に対応できるように、上記ネットワークをチャネル数またはシーケンス数に合わせて分割し、上記第1のデイジーチェインと上記第2のデイジーチェインとを結合する回路要素を有してもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
プログラム
8日前
個人
情報提示方法
1か月前
個人
プログラム
1か月前
株式会社理研
演算装置
15日前
個人
プログラム
1か月前
個人
アカウントマップ
1か月前
個人
日本語入力支援システム
15日前
個人
確率場データ同化演算手法
今日
個人
市場受発注システム
1か月前
個人
発想支援方法及びシステム
1か月前
個人
AI旅行最適化プラグイン
14日前
シャープ株式会社
電子機器
1日前
個人
学習装置及び推論装置
1か月前
個人
分類処理プログラム及び方法
1か月前
個人
納骨堂システム
7日前
個人
技術実行管理システム
2日前
個人
案件管理装置および端末装置
29日前
富士通株式会社
金融システム
1か月前
株式会社発明屋
電池指向の構造設計
1か月前
トヨタ自動車株式会社
管理装置
1か月前
キヤノン株式会社
情報処理装置
15日前
個人
ネイルスキルテストシステム
1日前
株式会社イズミ
総合代行システム
25日前
株式会社プレニーズ
仲介システム
1か月前
個人
ダブルオークションシステム
25日前
トヨタ自動車株式会社
電気自動車
21日前
富士通株式会社
プロセッサ
1か月前
トヨタ自動車株式会社
情報通知方法
1か月前
ブラザー工業株式会社
無線通信装置
1か月前
富士通株式会社
予測
28日前
村田機械株式会社
人員配置システム
1か月前
株式会社SUBARU
車両用操作装置
21日前
合同会社IPマネジメント
料金収受システム
28日前
トヨタ自動車株式会社
生成装置
1か月前
NISSHA株式会社
入力装置
1か月前
ローム株式会社
半導体集積回路
11日前
続きを見る