TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025050108
公報種別公開特許公報(A)
公開日2025-04-04
出願番号2023158719
出願日2023-09-22
発明の名称評価プログラム、方法、及び装置
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 20/00 20190101AFI20250327BHJP(計算;計数)
要約【課題】統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行う。
【解決手段】訓練部12が、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、生成部14が、複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、予測部16が、複数の評価用データに対する、第1機械学習モデル及び第2機械学習モデルの各々による予測結果を取得し、評価部18が、第1機械学習モデル及び第2機械学習モデルの各々の能力を示すパラメータと、複数の評価用データの正解ラベルを示すパラメータとを含み、第1機械学習モデル及び第2機械学習モデルの各々が予測結果を得る確率を表す確率モデルに予測結果を入力して最適化した際の能力を示すパラメータを、第2機械学習モデルの各々の能力を示す評価指標として出力する。
【選択図】図1
特許請求の範囲【請求項1】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラム。
続きを表示(約 1,600 文字)【請求項2】
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである請求項1に記載の評価プログラム。
【請求項3】
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む請求項2に記載の評価プログラム。
【請求項4】
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項5】
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項6】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータが実行する評価方法。
【請求項7】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練する訓練部と、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する生成部と、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する予測部と、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する評価部と、
を含む評価装置。

発明の詳細な説明【技術分野】
【0001】
開示の技術は、評価プログラム、評価方法、及び評価装置に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
機械学習による入力値に対する推定値の信頼性を評価する方法が提案されている。この方法は、未学習の機械学習プログラムPに対し、複数の入力値と当該複数の入力値から経験的に得られた既知の出力値とを訓練データTDとして機械学習法による学習処理を実行する。また、この方法は、入力値から出力値を得る学習済みの推定モデルM1~Mnを複数生成し、生成した複数の学習済みの推定モデルM1~Mnのそれぞれに同じ入力値aを入力し、それぞれの推定モデルから出力値X1~Xnを得る。そして、この方法は、得られた複数の出力値の平均値Xmと標準偏差δXmとを求め、標準偏差δXmが小さい出力値ほど、入力値に対する出力値の信頼性が高いと評価する。
【0003】
また、自然言語処理等に関する機械学習モデルの評価に項目応答理論(IRT:Item Response Theory)が導入されている。IRTは、教育テストにおいて、受験者の能力とテスト問題の品質とを同時に評価する手法として広く使われている。機械学習モデルの評価にIRTを適用する場合、機械学習モデルの能力と、評価用データの特徴との両方を評価することができる。
【先行技術文献】
【特許文献】
【0004】
特開2023-56139号公報
【非特許文献】
【0005】
Pedro Rodriguez, Phu Mon Htut, John Lalor, Joao Sedoc, "Clustering Examples in Multi-Dataset Benchmarks with Item Response Theory," In Proceedings of the Third Workshop on Insights from Negative Results in NLP, pages 100-112, Dublin, Ireland, Association for Computational Linguistics, May 2022.
Joao Sedoc and Lyle Ungar, "Item Response Theory for Efficient Human Evaluation of Chatbots," In Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems, pages 21-33, Online, Association for Computational Linguistics, November 2020.
【発明の概要】
【発明が解決しようとする課題】
【0006】
機械学習モデルの評価には、正解ラベル付きのデータが必要であるが、この正解ラベル付きのデータは入手困難な場合も多い。例えば、バイオ分野等では、正解ラベル付きのデータを得るためには実験が必要であるが、これには限界があり、正解ラベル付きのデータを多数用意することは困難である。機械学習モデルの評価の際に入手可能な正解ラベル付きのデータの数が少ない場合、統計的に不十分で評価の信頼性が低くなる場合がある。
【0007】
また、機械学習モデルの評価を適切に行うためには、評価対象の機械学習モデルの訓練に用いられた訓練データセットとは異なるデータで評価することが望ましい。しかし、外部で開発され公開された機械学習モデルの場合、公開されている入手可能な正解ラベル付きデータが、その機械学習モデルの訓練に使われた可能性もある。また、外部で開発された機械学習モデルと、自分で開発した機械学習モデルとの比較等、複数の機械学習モデルの能力を比較評価する場合、複数の機械学習モデルに対して同じベンチマークデータセットを用いて評価することが望ましい。しかし、複数の機械学習モデルそれぞれが異なる訓練データセットで訓練されている場合や、訓練データセットが未公表で不明な場合もある。このような状況では、適切なベンチマークデータセットを用意して、複数の機械学習モデル間の公正な比較評価を行うことは困難である。
【0008】
一つの側面として、開示の技術は、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する。また、開示の技術は、前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する。そして、開示の技術は、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化する。確率モデルは、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含む。開示の技術は、確率モデルを最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する。
【発明の効果】
【0010】
一つの側面として、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
電源装置
16日前
富士通株式会社
車線区分装置及び方法
2日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
2日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
2日前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
17日前
富士通株式会社
方策学習装置、方策学習方法及び通信システム
17日前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
2日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
18日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
3日前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
3日前
富士通株式会社
業務管理プログラム、業務管理方法、および情報処理装置
9日前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
18日前
富士通株式会社
量子計算支援プログラム、量子計算支援方法、および情報処理装置
10日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
4日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
19日前
富士通株式会社
リソース割当て装置、リソース割当て方法、およびリソース割当てプログラム
16日前
富士通株式会社
基底エネルギー算出プログラム、基底エネルギー算出装置、および基底エネルギー算出方法
11日前
富士通株式会社
サイドリンクリソースの再選択方法及び装置
3日前
富士通株式会社
基地局、移動局、通信システム、及び通信方法
15日前
富士通株式会社
ワイヤーハーネス製造図設計支援プログラム、ワイヤーハーネス製造図設計支援方法、および情報処理装置
2日前
個人
非正規コート
12日前
個人
人物再現システム
9日前
個人
AI飲食最適化プラグイン
2日前
有限会社ノア
データ読取装置
10日前
キヤノン電子株式会社
通信システム
23日前
個人
電話管理システム及び管理方法
3日前
個人
広告提供システムおよびその方法
12日前
株式会社ザメディア
出席管理システム
17日前
個人
日誌作成支援システム
9日前
トヨタ自動車株式会社
工程計画装置
17日前
株式会社タクテック
商品取出集品システム
16日前
個人
ポイント還元付き配送システム
10日前
ミサワホーム株式会社
情報処理装置
16日前
トヨタ自動車株式会社
作業判定方法
18日前
トヨタ自動車株式会社
作業評価装置
23日前
オベック実業株式会社
接続構造
9日前
続きを見る