TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025114508
公報種別
公開特許公報(A)
公開日
2025-08-05
出願番号
2025008121
出願日
2025-01-21
発明の名称
人工知能演算を遂行するように構成されたアクセラレータ、アクセラレータの動作方法およびアクセラレータを含む人工知能システム
出願人
三星電子株式会社
,
Samsung Electronics Co.,Ltd.
,
ネイバー コーポレーション
,
NAVER Corporation
代理人
弁理士法人ITOH
主分類
G06N
3/063 20230101AFI20250729BHJP(計算;計数)
要約
【課題】 本発明の目的は、減少したコスト(費用)と向上した性能を有する人工知能演算を遂行するように構成されたアクセラレータ、アクセラレータの動作方法およびアクセラレータを含む人工知能システムを提供することにある。
【解決手段】 本発明によれば、人工知能(AI:artificial intelligence)演算を遂行するように構成されたアクセラレータは、メモリからロードされた第1活性データおよび第1重みデータに対する第1演算を遂行して第1結果データを生成するように構成された処理部と、第1結果データに対する量子化を遂行して第1出力データを生成するように構成された量子化器と、を備える。第1活性データ、第1重みデータおよび第1出力データは低精度タイプであり、第1結果データは高精度タイプであり、第1出力データはメモリに記憶される。
【選択図】 図2
特許請求の範囲
【請求項1】
人工知能(AI:artificial intelligence)演算を遂行するように構成されたアクセラレータであって、
メモリからロードされた第1活性データおよび第1重みデータに対する第1演算を遂行して、第1結果データを生成するように構成された処理部と、
前記第1結果データに対して量子化を遂行して第1出力データを生成するように構成された量子化器と、を備え、
前記第1活性データ、前記第1重みデータおよび前記第1出力データは低精度タイプであり、前記第1結果データは高精度タイプであり、
前記第1出力データは前記メモリに記憶される、
アクセラレータ。
続きを表示(約 1,600 文字)
【請求項2】
前記第1出力データのサイズは、前記第1結果データのサイズより小さい、
請求項1に記載のアクセラレータ。
【請求項3】
前記高精度タイプは、BF16(Brain Floating Point Format)タイプ、FP16(half-precision IEEE Floating Point Format)タイプ、FP32(Single-precision floating-point format)タイプおよびFP64(Double-precision floating-point format)タイプのうち、少なくとも1つを含み、
前記低精度タイプは、INT4タイプ、INT8タイプおよびINT16タイプのうち少なくとも1つを含む、
請求項1に記載のアクセラレータ。
【請求項4】
前記第1演算は、前記第1活性データと前記第1重みデータに対するMAC(multiply and accumulate)演算である、
請求項1に記載のアクセラレータ。
【請求項5】
前記量子化器は、
前記第1結果データを受信するように構成されたラウンドロビンスイッチと、
前記ラウンドロビンスイッチから受信された前記第1結果データに対する量子化を遂行し、前記第1出力データを生成するように構成された複数の量子化コアと、
前記複数の量子化コアのそれぞれを制御するように構成された制御ロジック回路と、を含み、
前記複数の量子化コアによって生成された前記第1出力データは、前記ラウンドロビンスイッチを介して前記メモリに転送される、
請求項1に記載のアクセラレータ。
【請求項6】
前記複数の量子化コアのそれぞれは、並列に量子化を行う、
請求項5に記載のアクセラレータ。
【請求項7】
前記複数の量子化コアのそれぞれは、
前記ラウンドロビンスイッチから受信された前記第1結果データのフォーマットを変更し、中間結果を格納するように構成された入力リフォーマッタと、
前記入力リフォーマッタから受信された入力データに対する演算を遂行し、前記第1結果データを生成するように構成された変換回路と、
前記変換回路から生成された前記第1結果データを格納し、前記第1結果データを前記ラウンドロビンスイッチに出力するように構成された出力リフォーマッタと、を含む、
請求項5に記載のアクセラレータ。
【請求項8】
前記変換回路は、
前記入力データの符号を管理するように構成された符号演算モジュールと、
前記入力データに対するスカラー演算を遂行するように構成されたスカラー演算モジュールと、
前記入力データに対するベクトル-スカラー演算を遂行するように構成されたベクトル-スカラー演算モジュールと、
前記入力データに対するベクトル-ベクトル演算を遂行するように構成されたベクトル-ベクトル演算モジュールと、を含む、
請求項7に記載のアクセラレータ。
【請求項9】
前記制御ロジック回路は、前記複数の量子化コアのそれぞれで遂行される量子化アルゴリズムに応じて、前記複数の量子化コアのそれぞれの前記入力リフォーマッタ、前記出力リフォーマッタ、前記符号演算モジュール、前記スカラー演算モジュール、前記ベクトル-スカラー演算モジュールおよび前記ベクトル-ベクトル演算モジュールを順次制御する、
請求項8に記載のアクセラレータ。
【請求項10】
前記量子化器は、BCQ(Binary Coding based Quantization)に基づいて量子化を行う、
請求項1に記載のアクセラレータ。
発明の詳細な説明
【技術分野】
【0001】
本発明は、人工知能システムに関し、より詳細には、人工知能演算を遂行するように構成されたアクセラレータ(加速器)、アクセラレータの動作方法およびアクセラレータを含む人工知能システムに関する。
続きを表示(約 2,900 文字)
【背景技術】
【0002】
最近、人工知能は、自然言語の理解、自然言語の翻訳、ロボティクス、人工視覚、問題解決、学習、知識の獲得、認知科学のような多様な分野で広く活用されているコンピュータ科学の1つの分野である。
【0003】
人工知能は、多様なアルゴリズムに基づいて実施されている。一例として、ニューラルネットワーク(神経網:neural network)は、ノード(node)とシナプス(synapse)が繰り返し連結された複雑なネットワークから構成される。現在のノードから次のノードにデータが移動する過程で、対応するシナプスに応じて多様な信号処理が発生することができ、このような信号処理過程はレイヤ(Layer)と呼ばれる。すなわち、ニューラルネットワークは、相互に複雑に連結された多様なレイヤを含み得る。ニューラルネットワークに含まれる多様なレイヤは、大量の演算を必要とするため、これを最適化するための多様な方法が研究されている。言い換えれば、シングル-レイヤでは演算量が多いため、演算の最適化を少しだけ改善しても、マルチ-レイヤの速度、効率性、消費電力などに大きな影響を与えることができる。
【先行技術文献】
【特許文献】
【0004】
米国特許出願公開第2022/0044114号明細書
米国特許第11、461、614号明細書
米国特許第11、556、772号明細書
中国公開特許第116050464号公報
中国公開特許第116432712号公報
中国公開特許第116502691号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、減少したコスト(費用)と向上した性能を有する人工知能演算を遂行するように構成されたアクセラレータ、アクセラレータの動作方法およびアクセラレータを含む人工知能システムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一実施形態によれば、人工知能(AI:artificial intelligence)演算を遂行するように構成されたアクセラレータは、メモリからロードされた第1活性データおよび第1重みデータに対する第1演算を遂行して、第1結果データを生成するように構成された処理部と、前記第1結果データに対する量子化を遂行して前記第1出力データを生成するように構成された量子化器と、を備える。前記第1活性データ、前記第1重みデータおよび前記第1出力データは低精度タイプであり、前記第1結果データは高精度タイプであり、前記第1出力データは前記メモリに格納される。
【0007】
本発明の一実施形態によれば、人工知能(AI:artificial intelligence)演算を遂行するように構成されたアクセラレータの動作方法は、メモリから第1活性データおよび第1重みデータをロードする段階と、前記第1活性データおよび第1重みデータに対する第1演算を遂行して第1結果データを生成する段階と、前記第1結果データに対する量子化を遂行して第1出力データを生成する段階と、前記第1出力データを前記メモリに格納する段階と、を備える。前記第1活性データ、前記第1重みデータおよび前記第1出力データは低精度タイプであり、前記第1結果データは高精度タイプである。
【0008】
本発明の一実施形態によれば、人工知能システムは、第1活性データおよび第1重みデータを記憶するように構成されたメモリと、前記メモリから前記第1活性データおよび前記第1重みデータをロードし、前記第1活性データおよび前記第1重みデータに対する第1演算を遂行して、第1結果データを生成し、前記第1結果データに対する量子化を遂行して第1出力データを生成するように構成されたアクセラレータと、前記メモリと前記アクセラレータを制御するように構成されたCPU(Central Processing Unit)と、を備える。前記第1活性データ、前記第1重みデータおよび前記第1出力データは低精度タイプであり、前記第1結果データは高精度タイプであり、前記第1出力データは前記メモリに記憶される。
【発明の効果】
【0009】
本発明によれば、アクセラレータは人工知能モデルに対する演算を遂行することができる。このとき、アクセラレータは、アクセラレータの学習または推論中に生成される多様なデータに対する、量子化を遂行するように構成された量子化器を含み得る。したがって、アクセラレータの学習または推論中に生成される多様なデータ(例えば、活性(Activation)、重み(Weight)など)に対する容量が減少するため、多様なデータを格納またはロードするように構成されたメモリの必要な帯域幅および必要な容量が減少することができる。したがって、減少したコストと向上した性能を有する人工知能演算を遂行するように構成されたアクセラレータ、アクセラレータの動作方法およびアクセラレータを含む人工知能システムが提供される。
【図面の簡単な説明】
【0010】
人工知能モデルを処理するように構成されたシステムを示すブロック図である。
本発明の一実施形態によるシステムを示すブロック図である。
図2のアクセラレータによって遂行されるディープラーニングを説明するための概念図である。
図2のアクセラレータで行われるMAC演算の概念を説明するための図である。
図2のアクセラレータの量子化器によって行われる量子化動作を説明するための図である。
図2のアクセラレータを示すブロック図である。
図6の量子化器を示すブロック図である。
図7の複数の量子化コアのうち1つの量子化コアを示すブロック図である。
図8の変換回路を示すブロック図である。
図2のアクセラレータの動作を示すフローチャートである。
図7の量子化器によって行われる量子化動作を説明するための図である。
図7の量子化器によって行われる量子化動作を説明するための図である。
図7の量子化器によって行われる量子化動作を説明するための図である。
図2のアクセラレータを示すブロック図である。
本発明の一実施形態によるアクセラレータの構造を示す図である。
本発明の一実施形態によるアクセラレータの構造を示す図である。
本発明の一実施形態によるアクセラレータの構成を示すブロック図である。
本発明の一実施形態によるシステムを示すブロック図である。
本発明の一実施形態によるシステムを示すブロック図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
三星電子株式会社
半導体装置
18日前
三星電子株式会社
半導体素子
28日前
三星電子株式会社
イメージセンサ
1か月前
三星電子株式会社
イメージセンサ
21日前
三星電子株式会社
イメージセンサ
14日前
三星電子株式会社
ミニファンモータ
1か月前
三星電子株式会社
磁気特性測定装置
14日前
三星電子株式会社
イメージセンサー
8日前
三星電子株式会社
半導体パッケージ
1か月前
三星電子株式会社
半導体設計方法および装置
2日前
三星電子株式会社
自律走行型のロボット掃除機
1か月前
三星電子株式会社
表示装置および表示システム
10日前
三星電子株式会社
撮像装置、および撮像プログラム
1日前
三星電子株式会社
イメージセンサー及びその製造方法
8日前
三星電子株式会社
半導体素子及び半導体素子の製造方法
1か月前
三星電子株式会社
脱臭触媒、脱臭被膜及び脱臭フィルタ
1か月前
三星電子株式会社
発光素子及び前記発光素子を含む電子装置
1か月前
三星電子株式会社
貫通ビアを含むイメージセンサーと半導体素子
3日前
三星電子株式会社
半導体装置及びそれを含むデータ格納システム
11日前
三星電子株式会社
化合物および有機エレクトロルミネッセンス素子
9日前
三星電子株式会社
積層セラミック電子部品及びこれを含む電子装置
9日前
三星電子株式会社
キャパシタ構造体及びこれを含む半導体パッケージ
15日前
三星電子株式会社
レジスト組成物及びそれを利用したパターン形成方法
11日前
三星電子株式会社
乗算および累積(MAC)演算器およびこれを含む行列乗算器
9日前
三星電子株式会社
キャリア基板、及びそれを利用した半導体パッケージの製造方法
1か月前
三星電子株式会社
摂動を使用して人工知能モデルの性能を測定する方法および装置
1か月前
三星電子株式会社
フォトレジスト組成物及びそれを用いる集積回路素子の製造方法
17日前
三星電子株式会社
ナノ光学レンズアレイを具備するイメージセンサ及びこれを含む電子装置
28日前
三星電子株式会社
映像の復号化方法及び装置
29日前
三星電子株式会社
フォーカスリング、これを含む基板処理装置、及びこれを利用した基板処理方法
17日前
三星電子株式会社
ソルダ組成物とそれを製造する方法及びそれを用いた半導体パッケージを製造する方法
1か月前
三星電子株式会社
偏波調整畳み込み(PAC)符号の簡略化された逐次消去リスト復号化のための方法及び装置
1か月前
三星電子株式会社
エッチング組成物、それを利用した金属含有膜エッチング方法、及びそれを利用した半導体素子の製造方法
1か月前
三星電子株式会社
人工知能演算を遂行するように構成されたアクセラレータ、アクセラレータの動作方法およびアクセラレータを含む人工知能システム
10日前
三星電子株式会社
マシン学習アクセラレータ、マシン学習アクセラレータを含むコンピューティング装置、およびデータをマシン学習アクセラレータにロードする方法
10日前
個人
裁判のAI化
29日前
続きを見る
他の特許を見る