TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025018783
公報種別
公開特許公報(A)
公開日
2025-02-06
出願番号
2023122780
出願日
2023-07-27
発明の名称
言語モデル作成支援装置、方法及びプログラム
出願人
株式会社東芝
,
東芝エネルギーシステムズ株式会社
代理人
弁理士法人東京国際特許事務所
主分類
G06F
40/216 20200101AFI20250130BHJP(計算;計数)
要約
【課題】許容される準備コスト及び要求される目標精度を鑑みて、特定のタスクを実現する言語モデルの作成支援技術を提供する。
【解決手段】言語モデル作成支援装置10は、予め準備された例題及び正解を組み合わせた教師データ12により大規模言語モデル11をプレ学習し検証用モデル16を作成するプレ学習部15と、この例題から導出される正解の確率に基づいて検証用モデル16の精度を検証する検証部17と、検証用モデル16の検証結果に基づいて目標レベルの精度を持つ処理モデル31の作成方針を判定する判定部18と、この作成方針に基づいて教師データ12を拡張し学習させた処理モデル31を作成する第1作成部21と、この作成方針に基づいて教師データ12をベクトル変換した類似判定モデル32を作成する第2作成部22と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
予め準備された例題及び正解を組み合わせた教師データにより大規模言語モデルをプレ学習し検証用モデルを作成するプレ学習部と、
前記例題から導出される前記正解の確率に基づいて前記検証用モデルの精度を検証する検証部と、
前記検証用モデルの検証結果に基づいて、目標レベルの前記精度を持つ処理モデルの作成方針を判定する判定部と、
前記作成方針に基づいて前記教師データを拡張し学習させた前記処理モデルを作成する第1作成部と、
前記作成方針に基づいて前記教師データをベクトル変換した類似判定モデルを作成する第2作成部と、を備える言語モデル作成支援装置。
続きを表示(約 1,200 文字)
【請求項2】
請求項1に記載の言語モデル作成支援装置において、
前記作成方針の判定に利用する、タスク情報、前記精度の前記目標レベル、前記教師データの新規入手の可能性情報、及び前記目標レベルを満たすのに必要な準備コスト情報の少なくとも一つを取得する取得部を備える言語モデル作成支援装置。
【請求項3】
請求項1又は請求項2に記載の言語モデル作成支援装置において、
格納されている前記処理モデル及び前記類似判定モデルのうち、入力した出題データに対応するものを選定する選定部と、
選定した前記処理モデル又は前記類似判定モデルで前記出題データを処理し、回答データを出力させる処理部と、を備える言語モデル作成支援装置。
【請求項4】
請求項3に記載の言語モデル作成支援装置において、
前記回答データにおける前記正解の確率に基づいて、前記教師データをさらに拡張し前記処理モデルを再学習させて更新する更新部を備える言語モデル作成支援装置。
【請求項5】
請求項1又は請求項2に記載の言語モデル作成支援装置において、
前記作成方針に基づいて前記処理モデルの作成を断念したうえで、前記類似判定モデルが作成され、
前記プレ学習したもののうち前記精度の高い前記検証用モデルを前記処理モデルに採用する言語モデル作成支援装置。
【請求項6】
予め準備された例題及び正解を組み合わせた教師データにより大規模言語モデルをプレ学習し検証用モデルを作成するステップと、
前記例題から導出される前記正解の確率に基づいて前記検証用モデルの精度を検証するステップと、
前記検証用モデルの検証結果に基づいて、目標レベルの前記精度を持つ処理モデルの作成方針を判定するステップと、
前記作成方針に基づいて前記教師データを拡張し学習させた前記処理モデルを作成するステップと、
前記作成方針に基づいて前記教師データをベクトル変換した類似判定モデルを作成するステップと、を備える言語モデル作成支援方法。
【請求項7】
コンピュータに、
予め準備された例題及び正解を組み合わせた教師データにより大規模言語モデルをプレ学習し検証用モデルを作成するステップ、
前記例題から導出される前記正解の確率に基づいて前記検証用モデルの精度を検証するステップ、
前記検証用モデルの検証結果に基づいて、目標レベルの前記精度を持つ処理モデルの作成方針を判定するステップ、
前記作成方針に基づいて前記教師データを拡張し学習させた前記処理モデルを作成するステップ、
前記作成方針に基づいて前記教師データをベクトル変換した類似判定モデルを作成するステップ、を実行させる言語モデル作成支援プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は、特定のタスクに特化した言語モデルの作成を支援する技術に関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
言語モデルは、新聞記事のカテゴリを推定したり、ソーシャルメディアの投稿や製品レビューなどのテキストをポジティブ、ネガティブ、ニュートラルなどの感情カテゴリに分類したり、チャットボットでFAQに対応したり等、様々な分野の用途で使用されている。上述したような特定の用途で使用する際には、その用途(タスク)に特化した言語モデル(例えば〇▽のテキスト分類モデルや〇〇のFAQモデル等)を、1つ1つ作成する必要がある。
【0003】
近年は大量の言語データを学習した大規模言語モデル(LLM)が開発されている。そして事前学習済みのLLMをベースとし、タスクに応じた教師データを使用して、ファインチューニング(Fine-tuning)やフューショットラーニング(Few-shot Learning)を行い、特定のタスクに特化した言語モデルを作成できる。
【0004】
そのような特定のタスクに特化した言語モデルの作成において、一般に、教師データの不足に起因して、精度が低くなる課題がある。この課題に対処する公知技術として、言語データを拡張する手法が存在している。具体的に、GPT-3(Generative Pre-trained Transformer 3)を使用し、ファインチューニング無しで、推論可能なLLMを用い言語データを作成(拡張する)手法が公知となっている。
【0005】
また、言語データを構成するトークンのうち複数を置き換えることで言語データの拡張を行う公知技術が存在する。また、データ拡張演算子を用いてトークンシーケンスを生成することで訓練データを作成する公知技術が存在する。
【先行技術文献】
【特許文献】
【0006】
特開2023-018624
特開2023-039102
特開2022-171502
【発明の概要】
【発明が解決しようとする課題】
【0007】
言語モデルの精度を向上させるため、上述のように既存の言語データを拡張して新たな言語データを作成したり、人手で作成した新たな言語データを追加したりする方法がある。しかし、そのような言語データの拡張や作成の難易度が高かったり、そのような新たな言語データを追加したとしても言語モデルの精度が向上しなかったりする場合があった。
【0008】
本発明の実施形態はこのような事情を考慮してなされたもので、許容される準備コスト及び要求される目標精度を鑑みて、特定のタスクを実現する言語モデルの作成支援技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
実施形態に係る言語モデル作成支援装置において、予め準備された例題及び正解を組み合わせた教師データにより大規模言語モデルをプレ学習し検証用モデルを作成するプレ学習部と、前記例題から導出される前記正解の確率に基づいて前記検証用モデルの精度を検証する検証部と、前記検証用モデルの検証結果に基づいて目標レベルの前記精度を持つ処理モデルの作成方針を判定する判定部と、前記作成方針に基づいて前記教師データを拡張し学習させた前記処理モデルを作成する第1作成部と、前記作成方針に基づいて前記教師データをベクトル変換した類似判定モデルを作成する第2作成部と、を備える。
【発明の効果】
【0010】
本発明の実施形態により、許容される準備コスト及び要求される目標精度を鑑みた、特定のタスクを実現する言語モデルの作成支援技術が提供される。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社東芝
弁
1か月前
株式会社東芝
台車
2か月前
株式会社東芝
センサ
1か月前
株式会社東芝
センサ
2か月前
株式会社東芝
固定子
2か月前
株式会社東芝
開閉装置
2か月前
株式会社東芝
電源回路
12日前
株式会社東芝
半導体装置
6日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
水処理装置
6日前
株式会社東芝
半導体装置
6日前
株式会社東芝
半導体装置
12日前
株式会社東芝
半導体装置
12日前
株式会社東芝
半導体装置
18日前
株式会社東芝
遠心送風機
1か月前
株式会社東芝
光スイッチ
1か月前
株式会社東芝
半導体装置
25日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
半導体装置
18日前
株式会社東芝
ガス遮断器
5日前
株式会社東芝
対策提示装置
1か月前
株式会社東芝
蓋の開閉装置
1か月前
株式会社東芝
ディスク装置
25日前
株式会社東芝
電力変換装置
2か月前
株式会社東芝
伝送システム
5日前
株式会社東芝
ディスク装置
5日前
株式会社東芝
ディスク装置
5日前
株式会社東芝
磁気記録装置
5日前
株式会社東芝
電力変換装置
1か月前
続きを見る
他の特許を見る