TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025012787
公報種別公開特許公報(A)
公開日2025-01-24
出願番号2023115886
出願日2023-07-14
発明の名称外れ値除去方法及び装置
出願人株式会社プロテリアル
代理人弁理士法人平田国際特許事務所
主分類G06N 20/00 20190101AFI20250117BHJP(計算;計数)
要約【課題】外れ値を適切に除去することができる外れ値除去方法及び装置を提供する。
【解決手段】学習用データ31に含まれる外れ値を除去する外れ値除去方法であって、学習用データ31を教師データとテストデータに分割し、教師データを用いて回帰モデルを作成すると共に、作成した回帰モデルに対してテストデータを用いて予測誤差を演算することを所定回数繰り返す予測誤差演算工程と、予測誤差演算工程で得た予測誤差から、学習用データ31に含まれる各データについて、当該データをテストデータとして用いたときの予測誤差を抽出し、抽出した予測誤差の分布を特徴づける指標値をデータ毎に求める分布演算工程と、分布演算工程で求めた各データの指標値を基に、各データが外れ値であるかを判定する外れ値判定工程と、外れ値判定工程で外れ値と判定したデータを除去する外れ値除去工程と、を備えた。
【選択図】図1
特許請求の範囲【請求項1】
機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を除去する方法であって、
前記学習用データを教師データとテストデータに分割し、前記教師データを用いて前記説明変数と前記目的変数の相関性を示す回帰モデルを作成すると共に、作成した前記回帰モデルに対して前記テストデータを用いて予測誤差を演算することを所定回数繰り返す予測誤差演算工程と、
前記予測誤差演算工程で得た予測誤差から、前記学習用データに含まれる各データについて、当該データを前記テストデータとして用いたときの予測誤差を抽出し、抽出した予測誤差の分布を特徴づける指標値を、前記学習用データに含まれるデータ毎に求める分布演算工程と、
前記分布演算工程で求めた各データの前記指標値を基に、各データが外れ値であるかを判定する外れ値判定工程と、
前記外れ値判定工程で外れ値と判定したデータを除去する外れ値除去工程と、を備えた、
外れ値除去方法。
続きを表示(約 1,200 文字)【請求項2】
前記外れ値除去工程では、前記外れ値判定工程で外れ値と判定されたデータが複数あるとき、そのうち1つのデータのみを除去し、
前記外れ値判定工程で外れ値と判定されるデータがなくなるまで、前記予測誤差演算工程、前記外れ値判定工程、及び前記外れ値除去工程を繰り返す、
請求項1に記載の外れ値除去方法。
【請求項3】
前記外れ値判定工程では、前記指標値が、予め設定した判定基準値以上であるデータを、外れ値であると判定し、
前記外れ値除去工程では、前記外れ値判定工程で外れ値と判定されたデータが複数あるとき、そのうち、前記予測誤差の分布において前記判定基準値を超える割合が最も大きいデータのみを除去する、
請求項2に記載の外れ値除去方法。
【請求項4】
前記指標値が、前記予測誤差の分布の中央値である、
請求項1に記載の外れ値除去方法。
【請求項5】
前記予測誤差として、平均誤差(ME)、平均絶対誤差(MAE)、及び平均平方二乗誤差(RMSE)のうち何れか1つと、平均誤差率(MPE)、平均絶対誤差率(MAPE)、及び平均平方二乗誤差率(RMSPE)のうち何れか1つと、を少なくとも用い、
前記外れ値判定工程では、平均誤差(ME)、平均絶対誤差(MAE)、及び平均平方二乗誤差(RMSE)のうち何れか1つの前記指標値が予め設定された第1判定基準値以上であり、かつ、平均誤差率(MPE)、平均絶対誤差率(MAPE)、及び平均平方二乗誤差率(RMSPE)のうち何れか1つの前記指標値が予め設定された第2判定基準値以上であるデータを、外れ値であると判定する、
請求項1に記載の外れ値除去方法。
【請求項6】
機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を除去する装置であって、
前記学習用データを教師データとテストデータに分割し、前記教師データを用いて前記説明変数と前記目的変数の相関性を示す回帰モデルを作成すると共に、作成した前記回帰モデルに対して前記テストデータを用いて予測誤差を演算することを所定回数繰り返す予測誤差演算処理部と、
前記予測誤差演算処理部で得た予測誤差から、前記学習用データに含まれる各データについて、当該データを前記テストデータとして用いたときの予測誤差を抽出し、抽出した予測誤差の分布を特徴づける指標値を、前記学習用データに含まれるデータ毎に求める分布演算処理部と、
前記分布演算処理部で求めた各データの前記指標値を基に、各データが外れ値であるかを判定する外れ値判定処理部と、
前記外れ値判定処理部で外れ値と判定したデータを除去する外れ値除去処理部と、を備えた、
外れ値除去装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、外れ値除去方法及び装置に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
機械学習を用いて様々な予測を行う方法が知られている。例えば、未知の配合の材料の物性を予測する場合、試験製造等により既に取得済みのデータを学習用データ(教師データ)として用いて機械学習を行い、材料の配合と物性との相関性を学習し、学習の結果得られた回帰モデルを用いて予測を行う。
【0003】
なお、この出願の発明に関連する先行技術文献情報としては、特許文献1がある。
【先行技術文献】
【特許文献】
【0004】
特開2020-123365号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、学習用データに、誤ったデータ、あるいは誤差が大きいデータである外れ値が含まれていると、当該学習用データを用いて得られた回帰モデルの予測精度が低下してしまう。そのため、機械学習に先立ち、学習用データから外れ値を除去することが望まれる。しかしながら、どのデータが外れ値かを適切に判断することが困難であった。特に、学習用データが疎なデータ(スパースなデータ)である場合には、適切に外れ値を除去することが困難であった。
【0006】
そこで、本発明は、外れ値を適切に除去することができる外れ値除去方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、上記課題を解決することを目的として、機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を除去する方法であって、前記学習用データを教師データとテストデータに分割し、前記教師データを用いて前記説明変数と前記目的変数の相関性を示す回帰モデルを作成すると共に、作成した前記回帰モデルに対して前記テストデータを用いて予測誤差を演算することを所定回数繰り返す予測誤差演算工程と、前記予測誤差演算工程で得た予測誤差から、前記学習用データに含まれる各データについて、当該データを前記テストデータとして用いたときの予測誤差を抽出し、抽出した予測誤差の分布を特徴づける指標値を、前記学習用データに含まれるデータ毎に求める分布演算工程と、前記分布演算工程で求めた各データの前記指標値を基に、各データが外れ値であるかを判定する外れ値判定工程と、前記外れ値判定工程で外れ値と判定したデータを除去する外れ値除去工程と、を備えた、外れ値除去方法を提供する。
【0008】
また、本発明は、上記課題を解決することを目的として、機械学習に用いる説明変数と目的変数のデータを含む学習用データに含まれる外れ値を除去する装置であって、前記学習用データを教師データとテストデータに分割し、前記教師データを用いて前記説明変数と前記目的変数の相関性を示す回帰モデルを作成すると共に、作成した前記回帰モデルに対して前記テストデータを用いて予測誤差を演算することを所定回数繰り返す予測誤差演算処理部と、前記予測誤差演算処理部で得た予測誤差から、前記学習用データに含まれる各データについて、当該データを前記テストデータとして用いたときの予測誤差を抽出し、抽出した予測誤差の分布を特徴づける指標値を、前記学習用データに含まれるデータ毎に求める分布演算処理部と、前記分布演算処理部で求めた各データの前記指標値を基に、各データが外れ値であるかを判定する外れ値判定処理部と、前記外れ値判定処理部で外れ値と判定したデータを除去する外れ値除去処理部と、を備えた、外れ値除去装置を提供する。
【発明の効果】
【0009】
本発明によれば、外れ値を適切に除去することができる外れ値除去方法及び装置を提供できる。
【図面の簡単な説明】
【0010】
本発明の一実施の形態に係る外れ値除去装置の概略構成図である。
学習用データの一例を示す図である。
(a)は予測誤差演算処理を説明する図、(b)は分布演算処理を説明する図である。
MAEとMAPEの両方を指標値として用いる理由を説明する図である。
分布演算処理により得たMAEとMAPEの中央値の分布の一例を示す図である。
本発明の一実施の形態に係る外れ値除去方法のフロー図である。
予測誤差演算処理のフロー図である。
分布演算処理のフロー図である。
外れ値判定処理のフロー図である。
外れ値除去処理のフロー図である。
(a)は外れ値を除去した際の決定係数の変化を示す図であり、(b)は外れ値を除去した際のMAEの変化を示す図、(c)は外れ値を除去した際のMAPEの変化を示す図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
2か月前
個人
情報提示方法
11日前
個人
自動精算システム
1か月前
個人
RFタグ読取装置
28日前
個人
自動精算システム
19日前
個人
アカウントマップ
4日前
個人
プログラム
10日前
個人
プログラム
3日前
個人
売買システム
25日前
個人
保証金管理システム
2か月前
個人
救急搬送システム
2か月前
個人
鑑定証明システム
2か月前
個人
管理サーバ
1か月前
個人
発想支援方法及びシステム
14日前
個人
市場受発注システム
17日前
個人
分類処理プログラム及び方法
14日前
日本精機株式会社
車両用表示装置
27日前
個人
学習装置及び推論装置
3日前
キヤノン株式会社
印刷装置
1か月前
日本精機株式会社
車両用表示装置
27日前
株式会社MRC
集客システム
2か月前
個人
VRによる人体各部位の立体化
1か月前
個人
生成AIとの常時接続システム
2か月前
井関農機株式会社
ロボット作業車両
19日前
富士通株式会社
金融システム
11日前
トヨタ自動車株式会社
推定装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
個人
未来型家系図構築システム
1か月前
トヨタ自動車株式会社
分析装置
2か月前
株式会社COLORS
表示装置
1か月前
株式会社SEKT
文字認識装置
1か月前
個人
コンテンツ開示順位判定システム
1か月前
キヤノン株式会社
印刷管理装置
2か月前
ローム株式会社
ソース機器
2か月前
キヤノン電子株式会社
業務管理システム
1か月前
株式会社プレニーズ
仲介システム
4日前
続きを見る