TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025092576
公報種別
公開特許公報(A)
公開日
2025-06-19
出願番号
2025052917
出願日
2025-03-27
発明の名称
大規模モデルに用いられるタスク実行方法、装置、機器、媒体及びプログラム
出願人
ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
,
Beijing Baidu Netcom Science Technology Co., Ltd.
代理人
弁理士法人深見特許事務所
主分類
G06N
3/08 20230101AFI20250612BHJP(計算;計数)
要約
【課題】本開示は、大規模モデルに用いられるタスク実行方法、装置、電子機器、記憶媒体及びプログラムを提供する。
【解決手段】本開示は、大規模モデルに用いられるタスク実行方法を開示し、人工知能技術分野に関し、特に深層学習技術分野及び大規模モデル技術分野に関する。具体的な実現方式は、目標処理すべき特徴に基づいて、目標計算ユニットによってモーダルルートタスクを実行し、モーダル認識結果を取得し、目標処理すべき特徴及び目標分野ゲーティングモデルパラメータに基づいて、目標計算ユニットによって分野ルートタスクを実行し、分野認識結果を取得し、目標処理すべき特徴及び目標フィードフォワードタスクモデルパラメータに基づいて、目標計算ユニットによってフィードフォワードタスクを実行し、タスク実行結果を取得する。本開示は、大規模モデルに用いられるタスク実行方法、装置、電子機器、記憶媒体及びプログラムをさらに提供する。
【選択図】図2
特許請求の範囲
【請求項1】
大規模モデルに用いられるタスク実行方法であって、
目標処理すべき特徴に基づいて、目標計算ユニットによってモーダルルートタスクを実行し、モーダル認識結果を得ることと、
前記目標処理すべき特徴及び目標分野ゲーティングモデルパラメータに基づいて、前記目標計算ユニットによって分野ルートタスクを実行して、分野認識結果を得ることであって、前記目標分野ゲーティングモデルパラメータは目標記憶ユニットから読み取られた前記モーダル認識結果に対応する分野ゲーティングモデルパラメータであることと、
前記目標処理すべき特徴及び目標フィードフォワードタスクモデルパラメータに基づいて、前記目標計算ユニットによってフィードフォワードタスクを実行し、タスク実行結果を取得することであって、前記目標フィードフォワードタスクモデルパラメータは、前記目標記憶ユニットから読み取られた前記分野認識結果に対応するフィードフォワードタスクモデルパラメータであることと、を含む
タスク実行方法。
続きを表示(約 2,200 文字)
【請求項2】
前記モーダル認識結果に基づいて、前記目標記憶ユニットに記憶された複数の分野ゲーティングモデルパラメータから前記目標分野ゲーティングモデルパラメータを取得することをさらに含み、ここで、前記複数の分野ゲーティングモデルパラメータ同士の対応するモーダルのタイプが異なる
請求項1に記載の方法。
【請求項3】
前記分野認識結果に基づいて、前記目標記憶ユニットに記憶された複数のフィードフォワードタスクモデルパラメータから前記目標フィードフォワードタスクモデルパラメータを取得することをさらに含み、ここで、前記複数のフィードフォワードタスクモデルパラメータ同士の対応する分野のタイプが異なる
請求項1または2に記載の方法。
【請求項4】
前記複数のフィードフォワードタスクモデルパラメータは、以下のようにして得られる:
サンプルセットと事前トレーニング大規模モデルに基づいて、複数の目標圧縮大規模モデルを取得し、前記サンプルセットは分野のタイプが異なる複数のサンプルサブセットを含み、前記事前トレーニング大規模モデルは、前記フィードフォワードタスクモデルパラメータの機能と同じ圧縮すべきモデルパラメータを含み、
前記複数の目標圧縮大規模モデルに基づいて、前記複数のフィードフォワードタスクモデルパラメータを得る
請求項1または2に記載の方法。
【請求項5】
サンプルセットと事前トレーニング大規模モデルに基づいて、複数の目標圧縮大規模モデルを取得することは、
各前記サンプルサブセットに対して、前記圧縮すべきモデルパラメータの裁断方式を指示するための裁断行列と、前記事前トレーニング大規模モデルに基づいて、圧縮大規模モデルを得ることと、
前記サンプルサブセット、前記事前トレーニング大規模モデル及び前記圧縮大規模モデルに基づいて前記目標圧縮大規模モデルを得ることと、を含む
請求項4に記載の方法。
【請求項6】
前記サンプルサブセット、前記事前トレーニング大規模モデル及び前記圧縮大規模モデルに基づいて、前記目標圧縮大規模モデルを取得することは、
前記サンプルサブセットに基づいて、前記事前トレーニング大規模モデルの参考推論能力と前記圧縮大規模モデルの検証推論能力を決定することと、
前記検証推論能力が前記参考推論能力にマッチングし、且つ前記圧縮大規模モデルのスパース度が所定のスパース度を満たす場合、前記圧縮大規模モデルに基づいて、前記目標圧縮大規模モデルを決定することと、を含む
請求項5に記載の方法。
【請求項7】
前記フィードフォワードタスクモデルパラメータは、以下のようにして得られる:
サンプルセットのサンプルデータセットと初期大規模モデルに基づいて、モデル出力結果セットを取得し、ここで、前記サンプルセットは、前記サンプルデータセットにマッチングするタグセットをさらに含み、前記サンプルデータセットは、領域タイプが異なる複数のサンプルデータサブセットを含み、前記初期大規模モデルは、前記フィードフォワードタスクモデルパラメータの機能と同じモデルパラメータを含み、
前記モデル出力結果セット、前記タグセットに基づいて、複数の損失値を取得し、前記複数の損失値は、前記複数のサンプルデータサブセットと一対一で対応し、
前記複数の損失値と前記初期大規模モデルに基づいて、前記フィードフォワードタスクモデルパラメータを得る
請求項1または2に記載の方法。
【請求項8】
前記複数の損失値と前記初期大規模モデルに基づいて、前記フィードフォワードタスクモデルパラメータを得ることは、
前記複数の損失値に基づいて、目標損失値を取得することと、
前記目標損失値と前記初期大規模モデルに基づいて、前記フィードフォワードタスクモデルパラメータを得ることと、を含む
請求項7に記載の方法。
【請求項9】
前記初期大規模モデルは、以下の方式により得られる:
事前トレーニング大規模モデル、複数の初期分野ゲーティングモデルパラメータ、複数の初期フィードフォワードタスクモデルパラメータ及び初期モーダルゲーティングモデルパラメータに基づいて、前記初期大規模モデルを取得し、ここで、前記初期モーダルゲーティングモデルパラメータは、前記モーダルルートタスクを実行するためのモデルパラメータ機能と同じであり、各前記初期分野ゲーティングモデルパラメータは、前記分野ゲーティングモデルパラメータの機能と同じであり、各前記初期フィードフォワードタスクモデルパラメータは、前記フィードフォワードタスクモデルパラメータの機能と同じである
請求項7に記載の方法。
【請求項10】
前記モーダルのタイプは、画像、テキスト、オーディオのうちの少なくとも1つを含み、
前記分野のタイプは、翻訳、質問応答、検索、テキスト生成、意図認識のうちの少なくとも1つを含む
請求項1または2に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特に、深層学習技術分野及び大規模モデル技術分野に関する。具体的には、大規模モデルに用いられるタスク実行方法、装置、電子機器、記憶媒体及びプログラムに関する。
続きを表示(約 1,900 文字)
【背景技術】
【0002】
人工知能技術は、総合学科であり、係る分野が広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。一般に、人工知能技術は、大規模モデル技術を含む。大規模モデル技術は、人工知能の様々な分野に広く適用できる。例えば、テキスト処理、語義理解、機械翻訳、マンマシンインタラクションなどである。大規模モデルによって各異なる分野のタスクを実行するには、時効、コストなどの要素を総合的に考慮する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、大規模モデルに用いられるタスク実行方法、装置、電子機器、記憶媒体及びプログラムを提供する。
【課題を解決するための手段】
【0004】
本開示の一態様によれば、大規模モデルに用いられるタスク実行方法を提供し、前記タスク実行方法は、目標処理すべき特徴に基づいて、目標計算ユニットによってモーダルルートタスクを実行し、モーダル認識結果を得ることと、前記目標処理すべき特徴及び目標分野ゲーティングモデルパラメータに基づいて、前記目標計算ユニットによって分野ルートタスクを実行して、分野認識結果を得ることであって、前記目標分野ゲーティングモデルパラメータは目標記憶ユニットから読み取られた前記モーダル認識結果に対応する分野ゲーティングモデルパラメータ(field gating model parameter)であることと、前記目標処理すべき特徴及び目標フィードフォワードタスクモデルパラメータに基づいて、前記目標計算ユニットによってフィードフォワードタスクを実行し、タスク実行結果を取得することであって、前記目標フィードフォワードタスクモデルパラメータは、前記目標記憶ユニットから読み取られた前記分野認識結果に対応するフィードフォワードタスクモデルパラメータであることと、を含む。
【0005】
本開示の別の態様によれば、大規模モデルに用いられるタスク実行装置を提供し、複数の分野ゲーティングモデルパラメータ及び複数のフィードフォワードタスクモデルパラメータを記憶する目標記憶ユニットと、目標計算ユニットと、を含み、前記目標計算ユニットは以下のように構成される:目標処理すべき特徴に基づいて、目標計算ユニットによってモーダルルートタスクを実行し、モーダル認識結果を取得し、前記目標処理すべき特徴及び目標分野ゲーティングモデルパラメータに基づいて、前記目標計算ユニットによって分野ルートタスクを実行して、分野認識結果を取得し、前記目標分野ゲーティングモデルパラメータは前記目標記憶ユニットから読み取られた前記モーダル認識結果に対応する分野ゲーティングモデルパラメータであり、前記目標処理すべき特徴及び目標フィードフォワードタスクモデルパラメータに基づいて、前記目標計算ユニットによってフィードフォワードタスクを実行し、タスク実行結果を取得し、前記目標フィードフォワードタスクモデルパラメータは、前記目標記憶ユニットから読み取られた前記分野認識結果に対応するフィードフォワードタスクモデルパラメータである。
【0006】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行されて、前記少なくとも1つのプロセッサが上記の方法を実行することができる。
【0007】
本開示の別の態様によれば、上記の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供する。
【0008】
本開示の別の態様によれば、プロセッサによって実行されると、上記の方法を実現するコンピュータプログラムを提供する。
【0009】
本部分に記載された内容は、本開示の実施例のキー又は重要な特徴を識別するためのものではなく、本開示の範囲を制限するものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。
【0010】
図面は、本発明をより良く理解するためのものであり、本開示を限定するものではない。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
対話装置
15日前
個人
政治のAI化
1か月前
個人
物品給付年金
1か月前
個人
情報処理装置
15日前
個人
記入設定プラグイン
3日前
個人
情報処理装置
11日前
個人
プラグインホームページ
29日前
個人
情報入力装置
15日前
個人
物価スライド機能付生命保険
15日前
キヤノン株式会社
通信装置
1か月前
個人
マイホーム非電子入札システム
15日前
株式会社BONNOU
管理装置
8日前
キヤノン株式会社
画像処理装置
1か月前
個人
全アルゴリズム対応型プログラム
1か月前
サクサ株式会社
カードの制動構造
17日前
大同特殊鋼株式会社
輝線検出方法
1か月前
個人
決済手数料0%のクレジットカード
18日前
シャープ株式会社
電子機器
1か月前
株式会社ライト
情報処理装置
8日前
パテントフレア株式会社
交差型バーコード
1か月前
ミサワホーム株式会社
情報処理装置
1か月前
トヨタ自動車株式会社
情報処理装置
21日前
村田機械株式会社
割当補助システム
21日前
トヨタ自動車株式会社
欠け検査装置
1か月前
株式会社アジラ
データ転送システム
1か月前
長屋印刷株式会社
画像形成システム
1か月前
ミサワホーム株式会社
宅配ロッカー
1か月前
株式会社ユピテル
電子機器及びプログラム等
1か月前
トヨタ自動車株式会社
管理装置
1か月前
オベック実業株式会社
端末用スタンド
1か月前
応研株式会社
業務支援システム
29日前
Sansan株式会社
組織図生成装置
24日前
住友重機械工業株式会社
力覚伝達装置
10日前
西日本電信電話株式会社
評価装置
1か月前
西日本電信電話株式会社
分析装置
1か月前
シャープ株式会社
通信装置
15日前
続きを見る
他の特許を見る