TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025073115
公報種別公開特許公報(A)
公開日2025-05-12
出願番号2024187872
出願日2024-10-25
発明の名称マトリックス乗算器、および、それを含むマトリックス乗算装置の動作方法
出願人三星電子株式会社,Samsung Electronics Co.,Ltd.,ネイバー コーポレーション,NAVER Corporation
代理人弁理士法人ITOH
主分類G06N 3/063 20230101AFI20250501BHJP(計算;計数)
要約【課題】より速い速度およびより少ない演算量でマトリックス乗算を行うマトリックス乗算器及びマトリックス乗算装置を提供する。
【解決手段】マトリックス乗算器は、入力ベクトル及び複数の量子化スケール係数に基づいて、スケーリングされた入力ベクトルを生成する入力ベクトルスケーラと、スケーリングされた入力ベクトルに基づいて、固定小数点スケーリングされた入力ベクトルを生成する第1資料型変換器と、固定小数点スケーリングされた入力ベクトルと、複数の量子化符号値に基づいて、第1、第2固定小数点出力エレメントを生成するプロセッシングエレメントを含むプロセッシングエレメントアレイと、第1、第2固定小数点出力エレメントの資料型をそれぞれ変換して、第1、第2出力エレメントを生成し、第1、第2出力エレメントを含む出力ベクトルを出力する第2資料型変換器と、を含む。
【選択図】図7
特許請求の範囲【請求項1】
マトリックス乗算器であって、
第1入力ベクトル、複数の共通スケール係数、および、第1~第R倍率スケール係数に基づいて、第1量子化スケーリングされた入力ベクトルを生成する、入力ベクトルスケーラ(但し、Rは2以上の整数)と、
前記第1量子化スケーリングされた入力ベクトルに基づいて、第1固定小数点量子化スケーリングされた入力ベクトルを生成する、第1資料型変換器と、
前記第1固定小数点量子化スケーリングされた入力ベクトル、および、第1複数の量子化符号ビットに基づいて、第1固定小数点出力エレメントを生成する、第1プロセッシングエレメント、および、前記第1固定小数点量子化スケーリングされた入力ベクトルおよび第2複数の量子化符号ビットに基づいて、第2固定小数点出力エレメントを生成する、第2プロセッシングエレメントを含む、プロセッシングエレメントアレイと、
前記第1固定小数点出力エレメントおよび第2固定小数点出力エレメントの資料型をそれぞれ変換して、第1出力エレメントおよび第2出力エレメントを生成し、前記第1出力エレメントおよび第2出力エレメントを含む第1出力ベクトルを出力する、第2資料型変換器と、
を含む、マトリックス乗算器。
続きを表示(約 3,000 文字)【請求項2】
前記第1入力ベクトルは、第1入力エレメントおよび第2入力エレメントを含み、
前記第1量子化スケーリングされた入力ベクトルは、
前記第1入力エレメント、前記複数の共通スケール係数のうちの一つである第1共通スケール係数、および、前記第1~第R倍率スケール係数に基づいて生成される第1複数の量子化スケーリングされた入力エレメントと、
前記第2入力エレメント、前記複数の共通スケール係数のうちの一つである第2共通スケール係数、および、前記第1~第R倍率スケール係数に基づいて生成される第2複数の量子化スケーリングされた入力エレメントと、
を含む、請求項1に記載のマトリックス乗算器。
【請求項3】
前記入力ベクトルスケーラは、
前記第1入力エレメントおよび前記第1~第R倍率スケール係数に基づいて、第1~第R倍率でスケーリングされた入力エレメントを生成し、前記第2入力エレメントおよび前記第1~第R倍率スケール係数に基づいて、第(R+1)~第(2R)倍率でスケーリングされた入力エレメントを生成する、倍率スケーリング回路と、
前記第1~第R倍率スケーリングされた入力エレメントそれぞれの前記第1共通スケール係数に対する積に基づいて、前記第1複数の量子化スケーリングされた入力エレメントを生成し、前記第(R+1)~第(2R)倍率でスケーリングされた入力エレメントそれぞれの前記第2共通スケール係数に対する積に基づいて、前記第2複数の量子化スケーリングされた入力エレメントを生成する、共通スケーリング回路と、
を含む、請求項2に記載のマトリックス乗算器。
【請求項4】
前記入力ベクトルスケーラは、
前記第1入力エレメントおよび前記第1共通スケール係数の積に基づいて、第1共通スケーリングされた入力エレメントを生成し、前記第2入力エレメントおよび前記第2共通スケール係数の積に基づいて、第2共通スケーリングされた入力エレメントを生成する、共通スケーリング回路と、
前記第1~第R倍率スケール係数それぞれの前記第1共通スケーリングされた入力エレメントに対する積に基づいて、前記第1複数の量子化スケーリングされた入力エレメントを生成し、前記第1~第R倍率スケール係数それぞれの前記第2共通スケーリングされた入力エレメントに対する積に基づいて、前記第2複数の量子化スケーリングされた入力エレメントを生成する、倍率スケーリング回路と、
を含む、請求項2に記載のマトリックス乗算器。
【請求項5】
前記入力ベクトルスケーラは、
前記第1~第R倍率スケール係数それぞれの前記第1共通スケール係数に対する積に基づいて、第1~第R量子化スケール係数を生成し、前記第1~第R倍率スケール係数それぞれの前記第2共通スケール係数に対する積に基づいて、第(R+1)~第(2R)量子化スケール係数を生成する、倍率スケーリング回路と、
前記第1入力エレメントおよび前記第1~第R量子化スケール係数に基づいて、前記第1複数の量子化スケーリングされた入力エレメントを生成し、前記第2入力エレメントおよび第(R+1)~第(2R)量子化スケール係数に基づいて、前記第2複数の量子化スケーリングされた入力エレメントを生成する、第1量子化スケーリング回路と、
を含む、請求項2に記載のマトリックス乗算器。
【請求項6】
前記入力ベクトルスケーラは、
第2入力ベクトル、前記複数の共通スケール係数、および、前記第1~第R倍率スケール係数に基づいて、第2量子化スケーリングされた入力ベクトルを生成するように、さらに構成され、
前記第1資料型変換器は、
前記第2量子化スケーリングされた入力ベクトルに基づいて、第2固定小数点量子化スケーリングされた入力ベクトルを生成するように、さらに構成され、
前記プロセッシングエレメントアレイは、
前記第2固定小数点量子化スケーリングされた入力ベクトルおよび前記第1複数の量子化符号ビットに基づいて、第3固定小数点出力エレメントを生成する第3プロセッシングエレメント、および、前記第2固定小数点量子化スケーリングされた入力ベクトルおよび前記第2複数の量子化符号ビットに基づいて、第4固定小数点出力エレメントを生成する第4プロセッシングエレメントを、さらに含み、
前記第2資料型変換器は、
前記第3固定小数点出力エレメントおよび第4固定小数点出力エレメントの資料型をそれぞれ変換して、第3出力エレメントおよび第4出力エレメントを生成し、前記第3出力エレメントおよび第4出力エレメントを含む第2出力ベクトルを出力するように、さらに構成されている、
請求項5に記載のマトリックス乗算器。
【請求項7】
前記第2入力ベクトルは、第3入力エレメントおよび第4入力エレメントを含み、
前記入力ベクトルスケーラは、
前記第3入力エレメントおよび前記第1~第R量子化スケール係数に基づいて、前記第2量子化スケーリングされた入力ベクトルに含まれる、第3複数の量子化スケーリングされた入力エレメントを生成し、前記第4入力エレメントおよび前記第(R+1)~第(2R)量子化スケール係数に基づいて、前記第2量子化スケーリングされた入力ベクトルに含まれる、第4複数の量子化スケーリングされた入力エレメントを生成する、第2量子化スケーリング回路を、
さらに含む、請求項6に記載のマトリックス乗算器。
【請求項8】
前記第1プロセッシングエレメントは、前記プロセッシングエレメントアレイの第1プロセッシングエレメントロウ、および、第1プロセッシングエレメントカラムに配置され、
前記第2プロセッシングエレメントは、前記プロセッシングエレメントアレイの前記第1プロセッシングエレメントロウ、および、第2プロセッシングエレメントカラムに配置され、
前記第3プロセッシングエレメントは、前記プロセッシングエレメントアレイの第2プロセッシングエレメントロウ、および、前記第1プロセッシングエレメントカラムに配置され、
前記第4プロセッシングエレメントは、前記プロセッシングエレメントアレイの前記第2プロセッシングエレメントロウ、および、前記第2プロセッシングエレメントカラムに配置される、
請求項6に記載のマトリックス乗算器。
【請求項9】
前記第1共通スケール係数は、浮動小数点資料型を有し、
前記倍率スケーリング回路は、
前記第1~第R倍率スケール係数に基づいて、前記第1共通スケール係数の指数部(exponent part)の値を変更して、前記第1~第R量子化スケール係数を生成する、ように構成されている、
請求項5に記載のマトリックス乗算器。
【請求項10】
前記第1~第R倍率スケール係数は、公比が2である等比数列を形成する、
請求項1に記載のマトリックス乗算器。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、半導体装置に関する。より詳しくは、本開示は、マトリックスの乗算を行うマトリックス乗算器、および、それを含むマトリックス乗算装置に関するものである。
続きを表示(約 4,900 文字)【背景技術】
【0002】
最近、人工知能技術が発展するにつれて、人工知能モデルの演算量が急激に増加している。これにより、人工知能モデルの駆動時間を短縮させるための多様な技術が研究されている。
【0003】
一般的に、人工知能モデルの動作時間の大部分はマトリックス乗算(matrix multiplication)に使用されている。例えば、人工知能モデルは、入力マトリックスおよびウェイトマトリックスの乗算を行って出力マトリックスを演算する動作に大部分の駆動時間を使用する。これにより、BCQ(Binary Coding Quantization)などのような、入力マトリックスおよびウェイトマトリックスの乗算を、より少ない演算量で行うための多様なアルゴリズムが研究されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、前述の技術的課題を解決するためのものである。より詳しくは、本開示の目的は、より速い速度、および、より少ない演算量でマトリックス乗算を行うように構成された、マトリックス乗算器、および、それを含むマトリックス乗算装置を提供することにある。
【課題を解決するための手段】
【0005】
本開示の実施形態によるマトリックス乗算器は、第1入力ベクトル、複数の共通スケール係数、および、第1~第R倍率スケール係数に基づいて、第1量子化スケーリングされた入力ベクトルを生成する入力ベクトルスケーラ;前記第1量子化スケーリングされた入力ベクトルに基づいて、第1固定小数点量子化スケーリングされた入力ベクトルを生成する、第1資料型変換器;前記第1固定小数点量子化スケーリングされた入力ベクトルおよび第1複数の量子化符号ビットに基づいて、第1固定小数点出力エレメントを生成する、第1プロセッシングエレメント、および、前記第1固定小数点量子化スケーリングされた入力ベクトルおよび第2複数の量子化符号ビットに基づいて、第2固定小数点出力エレメントを生成する第2プロセッシングエレメントを含む、プロセッシングエレメントアレイ;および、前記第1固定小数点出力エレメントおよび第2固定小数点出力エレメントの資料型をそれぞれ変換して、第1出力エレメントおよび第2出力エレメントを生成し、前記第1出力エレメントおよび第2出力エレメントを含む第1出力ベクトルを出力する、第2資料型変換器、を含むことができる。
【0006】
本開示の実施形態によるマトリックス乗算装置の動作方法は、外部装置から第1~第Nウェイトを受信する段階;前記第1~第Nウェイトを均等バイナリコーディング量子化(uniform binary coding quantization)して、第1~第N共通スケール係数、第1~第R倍率スケール係数、および、第1~第(N×R)量子化符号ビットを生成する段階;前記外部装置から第1~第N入力エレメントを受信する段階;前記第1~第N共通スケール係数および第1~第R倍率スケール係数に基づいて、前記第1~第N入力エレメントを量子化スケーリングして、第1~第(N×R)量子化スケーリングされた入力エレメントを生成する段階;および、前記第1~第(N×R)量子化符号ビットおよび前記第1~第(N×R)量子化スケーリングされた入力エレメントに基づいて生成された第1出力エレメントを出力する段階、を含むことができる。
【0007】
本開示の実施形態によるマトリックス乗算器は、第1入力ベクトル、および、第1~第R倍率スケール係数に基づいて第1倍率スケーリングされた入力ベクトルを生成する、入力ベクトルスケーラ;前記第1倍率スケーリングされた入力ベクトルに基づいて、第1固定小数点倍率スケーリングされた入力ベクトルを生成する、第1資料型変換器;前記第1固定小数点倍率スケーリングされた入力ベクトルおよび第1複数の量子化符号ビットに基づいて、第1固定小数点部分積を生成する第1プロセッシングエレメントを含む、プロセッシングエレメントアレイ;前記第1固定小数点部分積の資料型を変換して第1部分積を生成する、第2資料型変換器;および、前記第1部分積および第1共通スケール係数の積に基づいて第1出力エレメントを生成し、前記第1出力エレメントを含む第1出力ベクトルを出力する、共通スケーラを含むことができる。
【発明の効果】
【0008】
本開示の実施形態によれば、マトリックス乗算器の演算量を減少させることができる。
【図面の簡単な説明】
【0009】
本開示の実施形態による、マトリックス乗算装置を示すブロック図である。
図1の入力マトリックスおよびウェイトマトリックスを直接掛けるように実現された、マトリックス乗算装置の動作を示す図である。
図1の均等BCQ回路の動作を示す図である。
図1の均等BCQ回路の動作を示す図である。
ウェイトマトリックスのカラム別にバイナリコーディング量子化動作を行う、図1の均等BCQ回路の動作を示す図である。
図5の実施形態による、マトリックス乗算器の動作を示す図である。
図4の実施形態による、図1のマトリックス乗算器の構成を示すブロック図である。
図7の入力ベクトルスケーラの構成を示すブロック図である。
図8の倍率スケーリング回路の動作を、より詳細に示す図である。
図8の倍率スケーリング回路が倍率スケーリング動作を行う方式を、より詳細に示す図である。
図7の第1資料型変換器の構成を示す図である。
図11の指数抽出回路の動作を示す図である。
図11の資料型変換回路の動作を示す図である。
図7のプロセッシングエレメントアレイの構成を、より詳細に示すブロック図である。
図7のマトリックス乗算器の一部動作を、より詳細に示すブロック図である。
図15の第1プロセッシングエレメントロウの動作を、より詳細に示すブロック図である。
一実施形態によって実現された、図16のプロセッシングエレメントのうちの一つの構成を示す図である。
図7の第2資料型変換器の動作を示す図である。
図1のマトリックス乗算装置の動作を示すフローチャートである。
図19のS150段階を、より詳細に示すフローチャートである。
図1のマトリックス乗算装置の動作を示すフローチャートである。
図21のS250段階を、より詳細に示すフローチャートである。
一開示の実施形態による図1のBCQ回路の動作を示す図である。
図23の実施形態によって近似されたウェイトマトリックスを示す図である。
図24の量子化符号ビットマトリックスを示す図である。
本開示の実施形態によって実現された、図1のマトリックス乗算器の構成を示すブロック図である。
一実施形態による、図26の入力ベクトルスケーラの構成を示すブロック図である。
図27の共通スケーリング回路の動作を、より詳細に示す図である。
一実施形態による、図26の入力ベクトルスケーラの構成を示すブロック図である。
図29の共通スケーリング回路の動作を、より詳細に示す図である。
図29の倍率スケーリング回路の動作を、より詳細に示す図である。
一実施形態による、図26の入力ベクトルスケーラの構成を示すブロック図である。
図32の倍率スケーリング回路の動作を、より詳細に示す図である。
図32の量子化スケーリング回路の動作を、より詳細に示す図である。
図26の第1資料型変換器の構成を示すブロック図である。
図26のプロセッシングエレメントアレイの構成を、より詳細に示すブロック図である。
図36のプロセッシングエレメントの動作を、より詳細に示すブロック図である。
一実施形態によって実現された、図36のプロセッシングエレメントのうちの一つの構成を示す図である。
図26の第2資料型変換器の動作を示す図である。
図1のマトリックス乗算装置の動作を示すフローチャートである。
図40のS350段階を、より詳細に示すフローチャートである。
図1のマトリックス乗算装置の動作を示すフローチャートである。
一実施形態によって実現された図42のS440段階を、より詳細に示すフローチャートである。
一実施形態によって実現された図42のS440段階を、より詳細に示すフローチャートである。
一実施形態によって実現された図42のS440段階を、より詳細に示すフローチャートである。
図42のS450段階を、より詳細に示すフローチャートである。
一実施形態による、図1のBCQ回路の動作を示す図である。
一実施形態によって実現された図1のマトリックス乗算器の構成を示すブロック図である。
一実施形態による、図48の入力ベクトルスケーラの構成を示すブロック図である。
図49の倍率スケーリング回路の動作を、より詳細に示す図である。
図49の共通スケーリング回路の動作を、より詳細に示す図である。
一実施形態による、図48の入力ベクトルスケーラの構成を示すブロック図である。
図52の共通スケーリング回路の動作を、より詳細に示す図である。
一実施形態による、図52の倍率スケーリング回路の動作を、より詳細に示す図である。
一実施形態による、図48の入力ベクトルスケーラの構成を示すブロック図である。
図55の倍率スケーリング回路の動作を、より詳細に示す図である。
図55の量子化スケーリング回路の動作を、より詳細に示す図である。
図48のプロセッシングエレメントアレイの動作を、より詳細に示す図である。
シストリックアレイ(systolic array)方式で実現された、図26のプロセッシングエレメントアレイを示すブロック図である。
図59のプロセッシングエレメントの構成を、より詳細に示す図である。
一実施形態による、図1のマトリックス乗算装置の動作を示す図である。
図61のフル-入力マトリックスを示す図である。
図61のフル-ウェイトマトリックスを示す図である。
図61のフル-出力マトリックスを示す図である。
一実施形態によって実現された、ニューラルプロセッシングシステムを示すブロック図である。
図65のニューラルプロセッシングシステムが駆動する人工知能モデル、を示すブロック図である。
【発明を実施するための形態】
【0010】
以下では、本開示の技術分野で通常の知識を有する者が本開示を容易に実施することができる程度に、本開示の実施形態が、明確且つ詳細に記載される。詳細な構成および構造のような細部的な事項は、単純に本開示の実施形態の全般的な理解を助けるために提供される。したがって、本開示の技術的思想および範囲からの離脱なく、本文に記載された実施形態の変形は、当業者が行うことができる。さらに、よく知られた機能および構造に関する説明は、明確性および簡潔性のために省略される。以下の図面または詳細な説明での構成は、図面に示されるか、または、詳細な説明に記載された構成要素以外に他のものと連結できる。本文で使用された用語は、本開示の機能を考慮して定義された用語であり、特定機能に限定されない。用語の定義は、詳細な説明に記載された事項を基盤にして決定される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三星電子株式会社
半導体装置
5日前
三星電子株式会社
イメージセンサー
1日前
三星電子株式会社
接地領域を含むイメージセンサー
5日前
三星電子株式会社
イメージセンサ及びイメージ処理装置
5日前
三星電子株式会社
映像獲得装置、及びそれを含む電子装置
5日前
三星電子株式会社
ピクセル、及びそれを含むイメージセンサ
12日前
三星電子株式会社
イメージセンサ及びそれを含む電子システム
2日前
三星電子株式会社
化合物および有機エレクトロルミネッセンス素子
12日前
三星電子株式会社
イメージセンサ及びそれを含むイメージセンシング装置
6日前
三星電子株式会社
電子部品内蔵モジュールおよび電子部品内蔵モジュールの製造方法
14日前
三星電子株式会社
マトリックス乗算器およびそれを含むマトリックス乗算装置の動作方法
2日前
三星電子株式会社
マトリックス乗算器、および、それを含むマトリックス乗算装置の動作方法
2日前
三星電子株式会社
チップ接着フィルム及びそれを含む半導体パッケージ、並びに半導体パッケージの製造方法
5日前
個人
非正規コート
1か月前
個人
在宅介護システム
12日前
個人
RFタグ読取装置
12日前
個人
人物再現システム
27日前
個人
AI飲食最適化プラグイン
20日前
有限会社ノア
データ読取装置
28日前
個人
電話管理システム及び管理方法
21日前
株式会社ザメディア
出席管理システム
1か月前
個人
広告提供システムおよびその方法
1か月前
個人
日誌作成支援システム
27日前
株式会社CROSLAN
支援装置
12日前
株式会社タクテック
商品取出集品システム
1か月前
トヨタ自動車株式会社
作業判定方法
1か月前
ひびきの電子株式会社
認証システム
14日前
ミサワホーム株式会社
情報処理装置
1か月前
個人
ポイント還元付き配送システム
28日前
トヨタ自動車株式会社
工程計画装置
1か月前
長屋印刷株式会社
画像形成システム
12日前
オムロン株式会社
回転装置及びマウス
16日前
株式会社ユピテル
電子機器及びプログラム等
2日前
オベック実業株式会社
接続構造
27日前
ゼネラル株式会社
RFIDタグ付き物品
1か月前
トヨタ自動車株式会社
情報処理システム
1か月前
続きを見る