TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024057460
公報種別公開特許公報(A)
公開日2024-04-24
出願番号2022164222
出願日2022-10-12
発明の名称プログラム,方法,及び情報処理装置
出願人富士通株式会社
代理人弁理士法人真田特許事務所,個人
主分類G06N 20/00 20190101AFI20240417BHJP(計算;計数)
要約【課題】機械学習モデルの強化学習における報酬のバラつきを抑制する。
【解決手段】プログラムは、訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、処理をコンピュータに実行させる。
【選択図】図17
特許請求の範囲【請求項1】
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータに実行させる、プログラム。
続きを表示(約 810 文字)【請求項2】
前記強化学習を実行する処理は、
前記訓練データの確率分布の一部と、前記生成器が出力したデータの確率分布の一部とを、第1パラメータに応じた割合で混合して得られる第1の混合分布と、前記訓練データの確率分布の一部と、前記生成器が出力した確率分布の一部とを、第2パラメータに応じた割合で混合して得られる第2の混合分布との距離を前記報酬関数として利用する、処理を含む、
請求項1に記載のプログラム。
【請求項3】
前記強化学習を実行する処理は、
判別器が出力した報酬を前記第1パラメータと前記第2パラメータとに基づく順応の数理モデルに入力して得られる順応報酬を、前記生成器に入力する、処理を含む、
請求項2に記載のプログラム。
【請求項4】
前記強化学習の進捗に応じて、前記第1パラメータ及び前記第2パラメータの一方又は双方を変化させる、
処理を前記コンピュータに実行させる、請求項2又は請求項3に記載のプログラム。
【請求項5】
所定の指標に基づき、前記強化学習の段階ごとに前記第1パラメータ及び前記第2パラメータの一方又は双方を決定する、
処理を前記コンピュータに実行させる、請求項2又は請求項3に記載のプログラム。
【請求項6】
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータが実行する、方法。
【請求項7】
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
制御部を備える、情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、プログラム,方法,及び情報処理装置に関する。
続きを表示(約 1,400 文字)【背景技術】
【0002】
ユーザからの問い合わせ業務の人件費を削減するために、ユーザの質問又は会話に対してAI(Artificial Intelligence)が自動回答を行なうタスクがある。当該タスクは、例えば、Transformer等のDNN(Deep Neural Network)を用いた言語モデルによる文章生成により実現される。
【0003】
言語モデルは、機械学習モデル(「DNNモデル」と称されてもよい)の一例であり、最尤推定モデルと称されてもよい。最尤推定モデルは、質問又は会話と回答とのペア(対話)を複数含む対話データセット、例えばFAQ(Frequently Asked Questions)等を用いた教師あり学習によって訓練される。
【0004】
最尤推定モデルによる生成される回答文(以下、「生成回答文」と表記する場合がある)は、人により回答文が生成される場合と比較して、最尤推定モデルにより生成される回答文の精度(換言すれば、適切性)及び多様性が低下する場合がある。
【0005】
生成回答文の精度及び多様性を向上させるための手法の1つとして、最尤推定モデルに敵対的模倣学習モデルを組み合わせたモデル(以下、「最尤推定&敵対的模倣学習モデル」と表記する場合がある)を用いる手法が知られている。
【0006】
敵対的模倣学習モデルとしては、例えば、GAN(Generative Adversarial Network)等の敵対的生成ネットワークを利用したTextGAIL(Text Generative Adversarial Imitation Learning)等の機械学習モデルが挙げられる。GANは、Generator及びDiscriminatorの2つのネットワークを備え、これらのネットワークを互いに競い合わせることで精度を高める。Generatorは生成器の一例であり、Discriminatorは判別器(「評価器」と称されてもよい)の一例である。
【0007】
最尤推定&敵対的模倣学習モデルは、敵対的模倣学習を実現するGANの構成を利用して、最尤推定モデルを強化学習によって再訓練する。例えば、生成器は、生成回答文に基づく回答文(以下、「生成文」と表記する場合がある)を出力する。判別器は、当該生成文を文章評価(判別)し、違和感(確信度:confidence)を報酬として生成器に出力する。
【先行技術文献】
【特許文献】
【0008】
特開2021-182039号公報
特表2019-526107号公報
米国特許出願公開第2019/0115027号明細書
米国特許出願公開第2019/0297033号明細書
【発明の概要】
【発明が解決しようとする課題】
【0009】
最尤推定&敵対的模倣学習モデルにおいて、判別器から出力される確信度を強化学習の報酬とする場合、報酬値のバラつきが大きくなり、安定した機械学習の実現が困難となる可能性がある。
【0010】
1つの側面では、本発明は、機械学習モデルの強化学習における報酬のバラつきを抑制することを目的の1つとする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
乗降調査装置
19日前
個人
管理装置
3日前
個人
自動販売機
26日前
日本精機株式会社
投影装置
19日前
日本精機株式会社
投影システム
20日前
株式会社SUBARU
車両
27日前
小林クリエイト株式会社
RFタグ
26日前
17LIVE株式会社
サーバ
19日前
株式会社協同印刷
防災・災害マウス
1か月前
トヨタ自動車株式会社
検査装置
3日前
株式会社ゼロボード
価格決定システム
18日前
太陽誘電株式会社
触覚生成装置
1か月前
株式会社アジラ
姿勢推定システム
17日前
株式会社NGA
画像投稿システム
3日前
株式会社イトーキ
分析装置
1か月前
日本信号株式会社
自転車貸出システム
20日前
株式会社小野測器
移動量計測システム
10日前
日本電気株式会社
勤務管理装置
25日前
個人
言語翻訳システム及びプログラム
10日前
小林クリエイト株式会社
あて先表示システム
26日前
NISSHA株式会社
指装着型コントローラー
25日前
日本信号株式会社
駐車場システム
1か月前
個人
集配システムと保管システム
20日前
トヨタ自動車株式会社
サーバ装置
26日前
富士通株式会社
プロセッサ
12日前
個人
防災訓練オフ会
27日前
日本信号株式会社
所持物検査装置
24日前
日本電気株式会社
端末及び認証システム
20日前
トヨタ自動車株式会社
燃料購入システム
17日前
トヨタ自動車株式会社
燃料購入システム
17日前
大王製紙株式会社
情報読取システム
27日前
パイオニア株式会社
判定装置
1か月前
マクセル株式会社
情報配信方法
1か月前
大王製紙株式会社
情報読取システム
27日前
株式会社コト
サービス提供システム及びその方法
1か月前
三浦工業株式会社
部品管理システム
1か月前
続きを見る