特許ウォッチ

公開番号2025050108
公報種別公開特許公報(A)
公開日2025-04-04
出願番号2023158719
出願日2023-09-22
発明の名称評価プログラム、方法、及び装置
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 20/00 20190101AFI20250327BHJP(計算;計数)
要約【課題】統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行う。
【解決手段】訓練部12が、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第1機械学習モデルを訓練し、生成部14が、複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、予測部16が、複数の評価用データに対する、第1機械学習モデル及び第2機械学習モデルの各々による予測結果を取得し、評価部18が、第1機械学習モデル及び第2機械学習モデルの各々の能力を示すパラメータと、複数の評価用データの正解ラベルを示すパラメータとを含み、第1機械学習モデル及び第2機械学習モデルの各々が予測結果を得る確率を表す確率モデルに予測結果を入力して最適化した際の能力を示すパラメータを、第2機械学習モデルの各々の能力を示す評価指標として出力する。
【選択図】図1
特許請求の範囲【請求項１】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第１機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第１機械学習モデル、及び評価対象の１以上の第２機械学習モデルの各々による予測結果を取得し、
前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記１以上の第２機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータに実行させるための評価プログラム。
続きを表示（約 1,600 文字）【請求項２】
前記確率モデルは、項目応答理論に基づき、前記能力を示すパラメータと、前記複数の評価用データの各々の特徴を示すパラメータとを同時に推定すると共に、前記正解ラベルを示すパラメータと、前記予測結果が正解か否かを示すパラメータとを同時に推定するためのモデルである請求項１に記載の評価プログラム。
【請求項３】
前記特徴を示すパラメータは、前記評価用データが、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々の能力を識別する分解能力を示すパラメータ、前記評価用データに対する正解を予測することの難易度を示すパラメータ、及び前記評価用データに対する正解が偶然予測される確率を示すパラメータを含む請求項２に記載の評価プログラム。
【請求項４】
前記第１機械学習モデルは、
訓練の開始から収束までの過程における異なる複数の段階の各々において取得される機械学習モデル、
初期値及びハイパーパラメータの少なくとも一方を異ならせて訓練された機械学習モデル、及び、
機械学習モデル毎に、前記複数の正解ラベル付きの訓練データから選択した一部の訓練データを用いて訓練された機械学習モデルの少なくとも１つである
請求項１～請求項３のいずれか１項に記載の評価プログラム。
【請求項５】
前記複数の評価用データを生成することは、ランダム生成、前記正解ラベル付きの訓練データの少なくとも一部の変更、前記正解ラベル付きの訓練データの少なくとも一部の削除、及び前記正解ラベル付きの訓練データへの情報の付加の少なくとも１つの手法により生成されたデータから、前記複数の正解ラベル付きの訓練データのいずれとも前記類似度が所定値以下となるデータを選択することを含む請求項１～請求項３のいずれか１項に記載の評価プログラム。
【請求項６】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第１機械学習モデルを訓練し、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成し、
前記複数の評価用データに対する、前記複数の第１機械学習モデル、及び評価対象の１以上の第２機械学習モデルの各々による予測結果を取得し、
前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記１以上の第２機械学習モデルの各々の能力を示す評価指標として出力する
ことを含む処理をコンピュータが実行する評価方法。
【請求項７】
複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第１機械学習モデルを訓練する訓練部と、
前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する生成部と、
前記複数の評価用データに対する、前記複数の第１機械学習モデル、及び評価対象の１以上の第２機械学習モデルの各々による予測結果を取得する予測部と、
前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含み、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化した際の前記能力を示すパラメータを、前記１以上の第２機械学習モデルの各々の能力を示す評価指標として出力する評価部と、
を含む評価装置。

発明の詳細な説明【技術分野】
【０００１】
開示の技術は、評価プログラム、評価方法、及び評価装置に関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
機械学習による入力値に対する推定値の信頼性を評価する方法が提案されている。この方法は、未学習の機械学習プログラムＰに対し、複数の入力値と当該複数の入力値から経験的に得られた既知の出力値とを訓練データＴＤとして機械学習法による学習処理を実行する。また、この方法は、入力値から出力値を得る学習済みの推定モデルＭ１～Ｍｎを複数生成し、生成した複数の学習済みの推定モデルＭ１～Ｍｎのそれぞれに同じ入力値ａを入力し、それぞれの推定モデルから出力値Ｘ１～Ｘｎを得る。そして、この方法は、得られた複数の出力値の平均値Ｘｍと標準偏差δＸｍとを求め、標準偏差δＸｍが小さい出力値ほど、入力値に対する出力値の信頼性が高いと評価する。
【０００３】
また、自然言語処理等に関する機械学習モデルの評価に項目応答理論（ＩＲＴ：Item Response Theory）が導入されている。ＩＲＴは、教育テストにおいて、受験者の能力とテスト問題の品質とを同時に評価する手法として広く使われている。機械学習モデルの評価にＩＲＴを適用する場合、機械学習モデルの能力と、評価用データの特徴との両方を評価することができる。
【先行技術文献】
【特許文献】
【０００４】
特開２０２３－５６１３９号公報
【非特許文献】
【０００５】
Pedro Rodriguez, Phu Mon Htut, John Lalor, Joao Sedoc, "Clustering Examples in Multi-Dataset Benchmarks with Item Response Theory," In Proceedings of the Third Workshop on Insights from Negative Results in NLP, pages 100-112, Dublin, Ireland, Association for Computational Linguistics, May 2022.
Joao Sedoc and Lyle Ungar, "Item Response Theory for Efficient Human Evaluation of Chatbots," In Proceedings of the First Workshop on Evaluation and Comparison of NLP Systems, pages 21-33, Online, Association for Computational Linguistics, November 2020.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
機械学習モデルの評価には、正解ラベル付きのデータが必要であるが、この正解ラベル付きのデータは入手困難な場合も多い。例えば、バイオ分野等では、正解ラベル付きのデータを得るためには実験が必要であるが、これには限界があり、正解ラベル付きのデータを多数用意することは困難である。機械学習モデルの評価の際に入手可能な正解ラベル付きのデータの数が少ない場合、統計的に不十分で評価の信頼性が低くなる場合がある。
【０００７】
また、機械学習モデルの評価を適切に行うためには、評価対象の機械学習モデルの訓練に用いられた訓練データセットとは異なるデータで評価することが望ましい。しかし、外部で開発され公開された機械学習モデルの場合、公開されている入手可能な正解ラベル付きデータが、その機械学習モデルの訓練に使われた可能性もある。また、外部で開発された機械学習モデルと、自分で開発した機械学習モデルとの比較等、複数の機械学習モデルの能力を比較評価する場合、複数の機械学習モデルに対して同じベンチマークデータセットを用いて評価することが望ましい。しかし、複数の機械学習モデルそれぞれが異なる訓練データセットで訓練されている場合や、訓練データセットが未公表で不明な場合もある。このような状況では、適切なベンチマークデータセットを用意して、複数の機械学習モデル間の公正な比較評価を行うことは困難である。
【０００８】
一つの側面として、開示の技術は、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことを目的とする。
【課題を解決するための手段】
【０００９】
一つの態様として、開示の技術は、複数の正解ラベル付きの訓練データを用いて、能力の異なる複数の第１機械学習モデルを訓練し、前記複数の正解ラベル付きの訓練データとの類似度が所定値以下で、正解ラベルが未知の複数の評価用データを生成する。また、開示の技術は、前記複数の評価用データに対する、前記複数の第１機械学習モデル、及び評価対象の１以上の第２機械学習モデルの各々による予測結果を取得する。そして、開示の技術は、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々が前記予測結果を得る確率を表す確率モデルに前記予測結果を入力して最適化する。確率モデルは、前記複数の第１機械学習モデル及び前記１以上の第２機械学習モデルの各々の能力を示すパラメータと、前記複数の評価用データの正解ラベルを示すパラメータとを含む。開示の技術は、確率モデルを最適化した際の前記能力を示すパラメータを、前記１以上の第２機械学習モデルの各々の能力を示す評価指標として出力する。
【発明の効果】
【００１０】
一つの側面として、統計的信頼性及び公平性を確保して、複数の機械学習モデルの比較評価を行うことができる、という効果を有する。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許