TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024150733
公報種別公開特許公報(A)
公開日2024-10-23
出願番号2024125931
出願日2024-08-01
発明の名称大規模言語モデルに用いられるタスク実行方法、装置、機器及び記憶媒体
出願人ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド,Beijing Baidu Netcom Science Technology Co., Ltd.
代理人個人,個人
主分類G06N 20/00 20190101AFI20241016BHJP(計算;計数)
要約【課題】大規模言語モデルに用いられるタスク実行方法、装置、機器及び記憶媒体を提供する。
【解決手段】方法は、処理すべき特徴に対応する、処理すべき特徴のマスク位置を表すスパース表現に基づいて、判定ユニットによって複数の処理すべきアテンションタスクから、処理すべき特徴の非完全マスク領域に対応するタスクである目標アテンションタスクを決定し、マスク位置は、処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内のマスク端点位置を表し、計算ユニットによって目標アテンションタスクを実行し、アテンション特徴を取得する。
【選択図】図2
特許請求の範囲【請求項1】
処理すべき特徴に対応する、前記処理すべき特徴のマスク位置を表すスパース表現に基づいて、判定ユニットによって複数の処理すべきアテンションタスクから、前記処理すべき特徴の非完全マスク領域に対応するタスクである目標アテンションタスクを決定し、前記マスク位置は、前記処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内のマスク端点位置を表すことと、
計算ユニットによって前記目標アテンションタスクを実行し、アテンション特徴を得ることと、を含む
大規模言語モデルに用いられるタスク実行方法。
続きを表示(約 2,200 文字)【請求項2】
処理すべき特徴に対応するスパース表現に基づいて、判定ユニットによって複数の処理すべきアテンションタスクから目標アテンションタスクを決定することは、
処理すべき特徴に対応するスパース表現に基づいて、前記複数の処理すべきアテンションタスクに対応するマスク区間を決定することと、
前記マスク区間に基づいて、前記判定ユニットにより複数の処理すべきアテンションタスクから目標アテンションタスクを決定することと、を含む
請求項1に記載の方法。
【請求項3】
処理すべき特徴に対応するスパース表現に基づいて、前記複数の処理すべきアテンションタスクに対応するマスク区間を決定することは、
処理すべきアテンションタスクごとに、処理すべき特徴に対応するスパース表現に基づいて、各処理すべきアテンションタスクに対応するマスク行列における複数のマスク端点位置を決定することと、
前記複数のマスク端点位置に基づいて、各処理すべきアテンションタスクに対応するマスク区間を決定することと、を含む
請求項2に記載の方法。
【請求項4】
前記マスク位置は、前記処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内の各列要素の開始マスク行及び終了マスク行であり、
処理すべき特徴に対応するスパース表現に基づいて、各処理すべきアテンションタスクに対応するマスク行列におけるマスク端点位置を決定することは、
処理すべき特徴に対応するスパース表現に基づいて、各処理すべきアテンションタスクに対応するマスク行列における各列要素の開始マスク行及び終了マスク行を決定することを含む
請求項3に記載の方法。
【請求項5】
前記複数のマスク端点位置に基づいて、各処理すべきアテンションタスクに対応するマスク区間を決定することは、
前記各列要素の終了マスク行を前記マスク区間の終了位置として決定することと、
前記各列の要素の開始マスク行を前記マスク区間の開始位置として決定することと、を含む
請求項4に記載の方法。
【請求項6】
前記マスク位置は、前記処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内の各行要素の開始マスク列及び終了マスク列であり、
処理すべき特徴に対応するスパース表現に基づいて、各処理すべきアテンションタスクに対応するマスク行列におけるマスク端点位置を決定することは、
処理すべき特徴に対応するスパース表現に基づいて、各処理すべきアテンションタスクに対応するマスク行列における各行要素の開始マスク列及び終了マスク列を決定することを含む
請求項3に記載の方法。
【請求項7】
前記複数のマスク端点位置に基づいて、各処理すべきアテンションタスクに対応するマスク区間を決定することは、
前記各行要素の終了マスク列を前記マスク区間の終了位置として決定することと、
前記各行要素の開始マスク列を前記マスク区間の開始位置として決定することと、を含む
請求項6に記載の方法。
【請求項8】
前記マスク区間に基づいて、前記判定ユニットによって複数の処理すべきアテンションタスクから目標アテンションタスクを決定することは、
処理すべきアテンションタスクに対応する中間特徴行列における要素端点位置が前記マスク区間内にないことに応答して、前記判定ユニットによって前記処理すべきアテンションタスクを前記目標アテンションタスクとして決定することを含み、
前記中間特徴行列は、前記処理すべきアテンションタスクに対応するクエリ行列及びキー行列に基づいて取得される
請求項2~5のいずれか一項に記載の方法。
【請求項9】
前記マスク区間は、マスク終止位置及びマスク開始位置を含み、
処理すべきアテンションタスクに対応する中間特徴行列における要素端点位置が前記マスク区間内にないことに応答して、前記判定ユニットにより前記処理すべきアテンションタスクを前記目標アテンションタスクとして決定することは、
処理すべきアテンションタスクに対応する中間特徴行列における要素端点位置が前記マスク終止位置より大きい又は前記マスク開始位置より小さいことに応答して、前記判定ユニットにより前記処理すべきアテンションタスクを前記目標アテンションタスクとして決定することを含む
請求項8に記載の方法。
【請求項10】
計算ユニットによって前記目標アテンションタスクを実行し、アテンション特徴を得ることは、
計算ユニットにより、目標記憶ユニットから前記目標アテンションタスクに対応する少なくとも1つのクエリ行列、少なくとも1つのキー行列、少なくとも1つの値行列及び少なくとも1つのマスク行列を読み取ることと、
前記少なくとも1つの前記クエリ行列、前記少なくとも1つの前記キー行列、前記少なくとも1つの前記値行列及び前記少なくとも1つの前記マスク行列に基づいて、目標計算ユニットによって前記目標アテンションタスクを実行し、前記アテンション特徴を得ることと、を含む
請求項1~7のいずれか一項に記載の方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特に深層学習、大規模言語モデル、自然言語処理、コンピュータビジョン等の技術分野に関し、特に、大規模言語モデルに用いられるタスク実行方法、装置、機器及び記憶媒体に関する。
続きを表示(約 1,300 文字)【背景技術】
【0002】
大規模言語モデル(略称:LLM、英語:Large Language Model)とは、大量のデータで訓練された高度な人工知能アルゴリズムを指す。1000億以上のパラメータを超える自然言語処理システムは、コンテンツ生成、文字要約、チャットボット、プログラムコードの作成、タンパク質構造や生体分子の属性などの客観化を予測するAI応用プログラムに適用できる。
【0003】
現在の大規模言語モデルは主にTransformerアーキテクチャを利用してアテンションメカニズムに基づく特徴処理プロセスを実現する。
【発明の概要】
【0004】
本開示は、大規模言語モデルに用いられるタスク実行方法、装置、機器及び記憶媒体を提供する。
【0005】
本開示の一態様によれば、大規模言語モデルに用いられるタスク実行方法を提供し、処理すべき特徴に対応する、処理すべき特徴のマスク位置を表すスパース表現に基づいて、判定ユニットによって複数の処理すべきアテンションタスクから、処理すべき特徴の非完全マスク領域に対応するタスクである目標アテンションタスクを決定し、マスク位置は、処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内のマスク端点位置を表すことと、計算ユニットによって目標アテンションタスクを実行し、アテンション特徴を得ることと、を含む。
【0006】
本開示の別の態様によれば、判定ユニットと計算ユニットとを含む、大規模言語モデルに用いられるタスク実行装置を提供する。判定ユニットは、処理すべき特徴に対応する、処理すべき特徴のマスク位置を表すスパース表現に基づいて、複数の処理すべきアテンションタスクから、処理すべき特徴の非完全マスク領域に対応するタスクである目標アテンションタスクを決定し、マスク位置が処理すべき特徴に対応するマスク行列における少なくとも2つの互いに交差しない区間内のマスク端点位置を表す。計算ユニットは、目標アテンションタスクを実行し、アテンション特徴を取得する。
【0007】
本開示の別の態様によれば、大規模言語モデルに用いられるタスク実行機器が提供され、当該機器は、本開示に係る大規模言語モデルに用いられるタスク実行装置を含む。
【0008】
本開示の別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサが本開示に係る方法を実行できるようにする電子機器を提供する。
【0009】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、当該コンピュータ命令は、コンピュータに本開示に係る方法を実行させる。
【0010】
本開示の別の態様によれば、プロセッサによって実行されると、本開示に係る方法を実現するコンピュータプログラムが提供される。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
GPSロガー
28日前
個人
デトろぐシステム
27日前
個人
マウス用テーブル
14日前
個人
管理装置
20日前
個人
都市経営シミュレーション
1か月前
個人
管理装置
22日前
個人
契約管理サーバ
19日前
アズビル株式会社
防爆装置
8日前
個人
特徴検討支援システム
20日前
株式会社セガフェイブ
遊戯機
12日前
株式会社宗建
SNSサーバー
6日前
株式会社テクロス
情報処理装置
26日前
個人
選択操作音声出力システム
14日前
株式会社ジール
文章の分析装置
13日前
株式会社野村総合研究所
検証装置
26日前
大同特殊鋼株式会社
棒材計数装置
5日前
株式会社奥村組
削孔位置検出方法
19日前
アスエネ株式会社
森林管理の方法
8日前
オムロン株式会社
認証中継サーバ
5日前
トヨタ自動車株式会社
車両
20日前
個人
動作のデザイン評価の方法及び装置
5日前
個人
口座悪用を防止する口座管理システム
今日
株式会社八咲
イベント管理システム
5日前
日本電気株式会社
システム及び方法
19日前
トヨタ自動車株式会社
情報処理装置
23日前
個人
マイナンバーポイントの直販システム
29日前
トヨタ自動車株式会社
記号認識装置
23日前
株式会社LMO
イベント招待システム
29日前
セコム株式会社
監視装置
14日前
セコム株式会社
監視装置
14日前
個人
分類処理プログラム、システム及び方法
16日前
個人
分類処理プログラム、システム及び方法
16日前
株式会社えくぼ
死後事務管理システム
29日前
株式会社mov
情報処理システム
29日前
株式会社ゴール
電気錠認証管理システム
20日前
大阪瓦斯株式会社
気候情報提供システム
23日前
続きを見る