TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025050108
公報種別公開特許公報(A)
公開日2025-04-04
出願番号2023158719
出願日2023-09-22
発明の名称評価プログラム、方法、及び装置
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 20/00 20190101AFI20250327BHJP(計算;計数)
要約【課題】統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行う。
【解決手段】訓練部12が、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、生成部14が、複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、予測部16が、複数の評価用データに対する、第1機械学習モデル及び第2機械学習モデルの各々による予測結果を取得し、評価部18が、第1機械学習モデル及び第2機械学習モデルの各々の能力を示すパラメータと、複数の評価用データの正解ラベルを示すパラメータとを含み、第1機械学習モデル及び第2機械学習モデルの各々が予測結果を得る確率を表す確率モデルに予測結果を入力して最適化した際の能力を示すパラメータを、第2機械学習モデルの各々の能力を示す評価指標として出力する。
【選択図】図1
特許請求の範囲【請求項1】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラム。
続きを表示(約 1,600 文字)【請求項2】
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである請求項1に記載の評価プログラム。
【請求項3】
前記特徴を示すパラメータは、前記評価用データが、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む請求項2に記載の評価プログラム。
【請求項4】
前記第1機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも1つである
請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項5】
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも1つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む請求項1~請求項3のいずれか1項に記載の評価プログラム。
【請求項6】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得し、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータが実行する評価方法。
【請求項7】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練する訓練部と、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する生成部と、
前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する予測部と、
前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する評価部と、
を含む評価装置。

発明の詳細な説明【技術分野】
【0001】
開示の技術は、評価プログラム、評価方法、及び評価装置に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
機械学習による入力値に対する推定値の信頼性を評価する方法が提案されている。この方法は、未学習の機械学習プログラムPに対し、複数の入力値と当該複数の入力値から経験的に得られた既知の出力値とを訓練データTDとして機械学習法による学習処理を実行する。また、この方法は、入力値から出力値を得る学習済みの推定モデルM1~Mnを複数生成し、生成した複数の学習済みの推定モデルM1~Mnのそれぞれに同じ入力値aを入力し、それぞれの推定モデルから出力値X1~Xnを得る。そして、この方法は、得られた複数の出力値の平均値Xmと標準偏差δXmとを求め、標準偏差δXmが小さい出力値ほど、入力値に対する出力値の信頼性が高いと評価する。
【0003】
また、自然言語処理等に関する機械学習モデルの評価に項目応答理論(IRT:Item Response Theory)が導入されている。IRTは、教育テストにおいて、受験者の能力とテスト問題の品質とを同時に評価する手法として広く使われている。機械学習モデルの評価にIRTを適用する場合、機械学習モデルの能力と、評価用データの特徴との両方を評価することができる。
【先行技術文献】
【特許文献】
【0004】
特開2023-56139号公報
【非特許文献】
【0005】
Pedro Rodriguez, Phu Mon Htut, John Lalor, Joao Sedoc, "Clustering Examples in Multi-Dataset Benchmarks with Item Response Theory," In Proceedings of the Third Workshop on Insights from Negative Results in NLP, pages 100-112, Dublin, Ireland, Association for Computational Linguistics, May 2022.
Joao Sedoc and Lyle Ungar, "Item Response Theory for Efficient Human Evaluation of Chatbots," In Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems, pages 21-33, Online, Association for Computational Linguistics, November 2020.
【発明の概要】
【発明が解決しようとする課題】
【0006】
機械学習モデルの評価には、正解ラベル付きのデータが必要であるが、この正解ラベル付きのデータは入手困難な場合も多い。例えば、バイオ分野等では、正解ラベル付きのデータを得るためには実験が必要であるが、これには限界があり、正解ラベル付きのデータを多数用意することは困難である。機械学習モデルの評価の際に入手可能な正解ラベル付きのデータの数が少ない場合、統計的に不十分で評価の信頼性が低くなる場合がある。
【0007】
また、機械学習モデルの評価を適切に行うためには、評価対象の機械学習モデルの訓練に用いられた訓練データセットとは異なるデータで評価することが望ましい。しかし、外部で開発され公開された機械学習モデルの場合、公開されている入手可能な正解ラベル付きデータが、その機械学習モデルの訓練に使われた可能性もある。また、外部で開発された機械学習モデルと、自分で開発した機械学習モデルとの比較等、複数の機械学習モデルの能力を比較評価する場合、複数の機械学習モデルに対して同じベンチマークデータセットを用いて評価することが望ましい。しかし、複数の機械学習モデルそれぞれが異なる訓練データセットで訓練されている場合や、訓練データセットが未公表で不明な場合もある。このような状況では、適切なベンチマークデータセットを用意して、複数の機械学習モデル間の公正な比較評価を行うことは困難である。
【0008】
一つの側面として、開示の技術は、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する。また、開示の技術は、前記複数の評価用データに対する、前記複数の第1機械学習モデル、及び評価対象の1以上の第2機械学習モデルの各々による予測結果を取得する。そして、開示の技術は、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化する。確率モデルは、前記複数の第1機械学習モデル及び前記1以上の第2機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含む。開示の技術は、確率モデルを最適化した際の前記能力を示すパラメータを、前記1以上の第2機械学習モデルの各々の能力を示す評価指標として出力する。
【発明の効果】
【0010】
一つの側面として、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
プロセッサ
10日前
富士通株式会社
アンテナ装置
24日前
富士通株式会社
量子デバイス
10日前
富士通株式会社
画像生成方法
2日前
富士通株式会社
冷却モジュール
4日前
富士通株式会社
敗血症の診断および予測
25日前
富士通株式会社
半導体装置、及び、電子機器
25日前
富士通株式会社
評価プログラム、方法、及び装置
2日前
富士通株式会社
無線アクセス・ネットワーク調整
6日前
富士通株式会社
情報処理プログラム、方法、及び装置
16日前
富士通株式会社
人体のキーポイントの検出方法及び装置
9日前
富士通株式会社
病変検出方法および病変検出プログラム
11日前
富士通株式会社
病変検出方法および病変検出プログラム
11日前
富士通株式会社
タスク特有のグラフセット解析及び視覚化
10日前
富士通株式会社
制御プログラム、システムおよび制御方法
13日前
富士通株式会社
遅延制御回路、光送信機、及び遅延制御方法
24日前
富士通株式会社
リソースサーバおよびサービス提供システム
18日前
富士通株式会社
車両の管理施設情報提供方法及びプログラム
12日前
富士通株式会社
演算処理装置および演算処理装置の動作方法
9日前
富士通株式会社
出力プログラム,出力方法,及び情報処理装置
1か月前
富士通株式会社
プログラム、情報処理方法および情報処理装置
2日前
富士通株式会社
推定方法、推定プログラム、及び通信処理装置
19日前
富士通株式会社
修正候補特定方法及び修正候補特定プログラム
12日前
富士通株式会社
学習プログラム、情報処理装置および学習方法
23日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
24日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
4日前
富士通株式会社
ハイブリッド古典‐量子教師なしマルチクラス分類
9日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
3日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
24日前
富士通株式会社
移動体情報算出方法および移動体情報算出プログラム
25日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
3日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
12日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
9日前
富士通株式会社
言語処理プログラム、言語処理装置、及び言語処理方法
10日前
富士通株式会社
情報処理プログラム,情報処理装置および情報処理方法
24日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
9日前
続きを見る