TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025043030
公報種別
公開特許公報(A)
公開日
2025-03-28
出願番号
2023150313
出願日
2023-09-15
発明の名称
データ選択システム及びデータ選択方法
出願人
株式会社日立製作所
代理人
弁理士法人サンネクスト国際特許事務所
主分類
G06N
20/00 20190101AFI20250321BHJP(計算;計数)
要約
【課題】
モデルの予測精度の向上と、入力される学習データがモデルの予測精度に与える影響の推定処理の高速化とを両立すること。
【解決手段】
機械学習に用いられる予測モデルの説明変数及び目的変数を列名としてヘッダに含み、前記予測モデルへ入力される説明変数のデータ及び目的変数のデータを各学習データとして表形式で管理するテーブルデータと、テーブルデータの各学習データのうちから複数選択した検証用データを除く各学習データとしての部分データを選択するデータ選択部と、部分データを予測モデルに入力して予測精度を推定するモデル学習部と、部分データを入力した際における予測モデルの予測精度への影響を評価し、検証用データのうち予測精度を下げるものと推定された有害データを、予測モデルに入力すべき各学習データから除外するデータ除外部と、を備える。
【選択図】 図2
特許請求の範囲
【請求項1】
機械学習に用いられる予測モデルの説明変数及び目的変数を列名としてヘッダに含み、前記予測モデルへ入力される前記説明変数のデータ及び前記目的変数のデータを各学習データとして表形式で管理するテーブルデータと、
前記テーブルデータの前記各学習データのうちから複数選択した検証用データを除く前記各学習データとしての部分データを選択するデータ選択部と、
前記部分データを前記予測モデルに入力して前記予測精度を推定するモデル学習部と、
前記部分データを入力した際における前記予測モデルの予測精度への影響を評価し、前記検証用データのうち前記予測精度を下げるものと推定された有害データを、前記予測モデルに入力すべき前記各学習データから除外するデータ除外部と、
を備えることを特徴とするデータ選択システム。
続きを表示(約 1,400 文字)
【請求項2】
前記テーブルデータにおいて前記各学習データのうちから前記検証用データとして選択すべき割合を管理する分析パラメタを備え、
前記データ選択部は、
前記各学習データのうちから前記分析パラメタで指定した割合で選択した前記検証用データを除く前記各学習データを選択して前記部分データとする
ことを特徴とする請求項1に記載のデータ選択システム。
【請求項3】
前記データ選択部は、
前記各学習データのうちから所定の評価優先度に基づいて選択した検証用データを除く前記各学習データを選択して前記部分データとする
ことを特徴とする請求項1に記載のデータ選択システム。
【請求項4】
前記データ選択部は、
前記各学習データのうちから複数選択した検証用データを除く前記各学習データとしての前記部分データを含む有害度計算用データリストを作成し、
前記モデル学習部は、
前記有害度計算用データリストに基づく前記部分データを前記予測モデルに入力して前記予測精度を推定する
ことを特徴とする請求項1に記載のデータ選択システム。
【請求項5】
前記データ選択部は、
前記評価優先度の計算方法として、多腕バンディット問題に対応するアルゴリズムを用いる
ことを特徴とする請求項3に記載のデータ選択システム。
【請求項6】
前記データ選択部は、
各学習データの各クラスに対する1つ以上の有害度の指標を計算し、前記テーブルデータの行とクラスとの各ペアに対して1つ以上の有害度の指標を出力する
ことを特徴とする請求項2に記載のデータ選択システム。
【請求項7】
前記データ除外部は、
所定の終了条件を満たすまで、前記有害データを、前記予測モデルに入力すべき前記各学習データから除外する処理を繰り返す
ことを特徴とする請求項1に記載のデータ選択システム。
【請求項8】
前記有害データの特徴的な個別属性及び複数の前記有害データに共通する共通属性の少なくとも一方を分析する有害データ特徴分析部を備える
ことを特徴とする請求項1に記載のシステム。
【請求項9】
前記有害データ特徴分析部は、
前記個別属性及び前記共通属性の少なくとも一方を画面表示部に表示させる
ことを特徴とする請求項8に記載のシステム。
【請求項10】
機械学習に用いられる予測モデルの説明変数及び目的変数を列名としてヘッダに含み、前記予測モデルへ入力される前記説明変数のデータ及び前記目的変数のデータを各学習データとして表形式で管理するテーブルデータとして管理するテーブルデータ管理ステップと、
データ選択部が、前記テーブルデータの前記各学習データのうちから複数選択した検証用データを除く前記各学習データとしての部分データを選択するデータ選択ステップと、
モデル学習部が、前記部分データを前記予測モデルに入力して前記予測精度を推定するモデル学習ステップと、
データ除外部が、前記部分データを入力した際における前記予測モデルの予測精度への影響を評価し、前記検証用データのうち前記予測精度を下げるものと推定された有害データを、前記予測モデルに入力すべき前記各学習データから除外するデータ除外ステップと、
を有することを特徴とするデータ選択方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、データ選択システム及びデータ選択方法に関し、例えば、機械学習による予測精度の向上と高速化を両立する技術に関するデータ選択システムに適用して好適なものである。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
近年、様々な業種において、機械学習による予測を用いた業務の効率化が進んでいる。機械学習における代表的な問題設定として、教師あり学習における分類問題及び回帰問題が挙げられる。分類問題及び回帰問題は、正解ラベル及び入力データのペアである学習データをもとに、正解ラベルが未知のデータのラベル値を予測する問題である。一般的に学習データが多いほど予測精度は向上する傾向があるが、誤入力やノイズなど様々な原因で、学習データから特定のデータを除いた方が予測精度が高くなる場合がある。
【0003】
特許文献1には、このように予測精度を下げるという意味で有害なデータを特定する手法が提案されている。特許文献1に開示された手法では、特定の学習データdを除いて予測精度が向上するかどうかについて各学習データdを用いて推定している。特許文献1に開示された手法では、各学習データdが予測精度に与える影響を推定している。ここでいう影響とは、すべての学習データで学習したモデルMの予測精度と、学習データdを除いて学習したモデルM’の予測精度との差である。
【0004】
しかしながら、特許文献1に開示された手法では、上述のように学習データdを除いて学習したモデルM’の予測精度が不十分な場合がある。その理由は2つある。1つ目は、実際にモデルM’を学習して予測精度の差分を計算するのではなく、勾配などの情報から差分を推定することに起因する誤差である。2つ目は、当該特定の学習データと他の学習データとの相互作用を考慮していないためである。具体的には、学習データdのみを除いてもモデルの予測精度は低下しないが、例えば、学習データdと同時に別の学習データd’も除くと、モデルの予測精度が低下するなどの特殊な状況が考慮されていないためである。
【0005】
そこで、モデルの予測精度を向上させる自然な方法として、非特許文献1には、複数の学習データ間の相互作用を考慮し、様々な学習データの入力によって学習したモデルの予測精度を検討する手法が開示されている。当該手法では、すべての学習データに対して多数のモデルを学習する。
【先行技術文献】
【特許文献】
【0006】
特開2021-33544号公報
【非特許文献】
【0007】
Ghorbani, Amirata, and James Zou. "Data shapley: Equitablevaluation of data for machine learning." International conference onmachine learning. PMLR, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献1に開示された手法では、各学習データに対して様々なモデルを学習する必要があるために莫大な計算時間が掛かり、各学習データがモデルの予測精度に与える影響を高速に推定することができなかった。
【0009】
本発明は以上の点を考慮してなされたもので、モデルの予測精度の向上と、入力される学習データがモデルの予測精度に与える影響の推定処理の高速化とを両立することができるデータ選択システム及びデータ選択方法を提案しようとするものである。
【課題を解決するための手段】
【0010】
かかる課題を解決するため本発明においては、機械学習に用いられる予測モデルの説明変数及び目的変数を列名としてヘッダに含み、前記予測モデルへ入力される前記説明変数のデータ及び前記目的変数のデータを各学習データとして表形式で管理するテーブルデータと、前記テーブルデータの前記各学習データのうちから複数選択した検証用データを除く前記各学習データとしての部分データを選択するデータ選択部と、前記部分データを前記予測モデルに入力して前記予測精度を推定するモデル学習部と、前記部分データを入力した際における前記予測モデルの予測精度への影響を評価し、前記検証用データのうち前記予測精度を下げるものと推定された有害データを、前記予測モデルに入力すべき前記各学習データから除外するデータ除外部と、を備えるようにした。
(【0011】以降は省略されています)
特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
関連特許
株式会社日立製作所
梱包体
3日前
株式会社日立製作所
半導体装置
7日前
株式会社日立製作所
開発支援装置
10日前
株式会社日立製作所
電力融通システム
10日前
株式会社日立製作所
故障確率評価装置
5日前
株式会社日立製作所
ストレージシステム
7日前
株式会社日立製作所
増幅装置及び計測機器
13日前
株式会社日立製作所
監視システム及び監視方法
13日前
株式会社日立製作所
蓄電装置及びその制御方法
5日前
株式会社日立製作所
輸配送計画立案装置及び方法
12日前
株式会社日立製作所
エレベーター及びその点検方法
6日前
株式会社日立製作所
ガス分離システムの劣化診断装置
13日前
株式会社日立製作所
計算機システム、データ処理方法
10日前
株式会社日立製作所
情報処理装置および情報処理方法
7日前
株式会社日立製作所
多巻線変圧器、並びに電力変換装置
5日前
株式会社日立製作所
保護制御システムおよび保護制御方法
5日前
株式会社日立製作所
鉄道車両を駆動するシステムおよび方法
4日前
株式会社日立製作所
情報処理装置及び方法並びにプログラム
12日前
株式会社日立製作所
放射線モニタ、および、放射線検出方法
12日前
株式会社日立製作所
情報処理方法、および情報処理システム
6日前
株式会社日立製作所
利用者認可システム及び利用者認可方法
13日前
株式会社日立製作所
水中植物の栄養塩供給監視制御システム
6日前
株式会社日立製作所
データ選択システム及びデータ選択方法
3日前
株式会社日立製作所
複数系統運用連携支援システムおよび方法
13日前
株式会社日立製作所
作業遅延検出装置および作業遅延検出方法
10日前
株式会社日立製作所
保護リレーシステム及び電力系統保護方法
7日前
株式会社日立製作所
テキスト匿名化装置及びテキスト匿名化方法
6日前
株式会社日立製作所
分析装置、分析方法、および分析プログラム
3日前
株式会社日立製作所
判定装置、判定方法、および判定プログラム
13日前
株式会社日立製作所
イベント管理システムおよびイベント管理方法
13日前
株式会社日立製作所
コンタクトセンタを支援するシステムおよび方法
4日前
株式会社日立製作所
水圧管理計画立案システム、方法およびプログラム
13日前
株式会社日立製作所
電動航空機の制御装置および電動航空機の制御方法
4日前
株式会社日立製作所
走行パターン生成装置、車両及び走行パターン生成方法
10日前
株式会社日立製作所
プログラム作成支援装置、及びプログラム作成支援方法
5日前
株式会社日立製作所
プロセス開発支援システムおよびプロセス開発支援方法
7日前
続きを見る
他の特許を見る