TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025125973
公報種別公開特許公報(A)
公開日2025-08-28
出願番号2024022296
出願日2024-02-16
発明の名称欠損データ補完装置及び欠損データ補完方法
出願人株式会社日立製作所
代理人弁理士法人サンネクスト国際特許事務所
主分類G06F 16/215 20190101AFI20250821BHJP(計算;計数)
要約【課題】
補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めること。
【解決手段】
特定の列データ項目の各データのうち、補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つのエントリに補完優先度フラグを付与する補完優先度フラグ付与部と、データテーブルに含まれる各エントリについて補完優先度フラグが付与された各エントリの個数をカウントし、補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、を備える。
【選択図】 図1
特許請求の範囲【請求項1】
列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルと、
前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータを定義するパラメータ定義部と、
前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測部と、
前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出部と、
前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与部と、
前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、
を備えることを特徴とする欠損データ補完装置。
続きを表示(約 2,000 文字)【請求項2】
前記欠損データを含むエントリごとに、前記特定の列データ項目ごとのデータ及び前記統合補完優先度順位のリストデータを表示する表示部を備える
ことを特徴とする請求項1に記載の欠損データ補完装置。
【請求項3】
前記補完優先度フラグ付与部は、
前記補完量調整パラメータとして定義された複数の前記所定の割合ごとに前記補完優先度フラグを付与し、
前記表示部は、
前記リストデータに基づくデータ補完測定工数量と、前記欠損データ予測部による前記特定の列データ項目のデータに関する予測精度と、を表示する
ことを特徴とする請求項2に記載の欠損データ補完装置。
【請求項4】
前記欠損データ予測部は、
前記欠損データを含む学習データの全体予測精度が目標精度を満たすように、前記補完量調整パラメータとして定義された複数の前記所定の割合から1つの所定の割合を選択する
ことを特徴とする請求項3に記載の欠損データ補完装置。
【請求項5】
前記欠損データ予測部は、
前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータを説明変数とするとともに前記特定の列データ項目のデータを目的変数としてモデルを学習し、前記モデルを用いて前記特定の列データ項目の前記欠損データを機械学習によって予測する
ことを特徴とする請求項1に記載の欠損データ補完装置。
【請求項6】
列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルにおける前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータをパラメータ定義部に定義するパラメータ定義ステップと、
欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測ステップと、
抽出部が、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出ステップと、
補完優先度フラグ付与部が、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与ステップと、
優先度順位決定部が、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定ステップと、
を有することを特徴とする欠損データ補完方法。
【請求項7】
前記欠損データを含むエントリごとに、前記特定の列データ項目ごとのデータ及び前記統合補完優先度順位のリストデータを表示部に表示する表示ステップを有する
ことを特徴とする請求項6に記載の欠損データ補完方法。
【請求項8】
前記補完優先度フラグ付与部は、
前記補完量調整パラメータとして各々設定された複数の値ごとに前記補完優先度フラグを付与し、
前記表示ステップでは、
前記リストデータに基づくデータ補完測定工数量と、前記欠損データ予測部による前記特定の列データ項目のデータに関する予測精度と、を前記表示部に表示する
ことを特徴とする請求項7に記載の欠損データ補完方法。
【請求項9】
前記欠損データ予測ステップでは、
前記欠損データ予測部が、前記欠損データを含む学習データの全体予測精度が目標精度を満たすように、前記補完量調整パラメータとして定義された複数の前記所定の割合から1つの所定の割合を選択する
ことを特徴とする請求項8に記載の欠損データ補完方法。
【請求項10】
前記欠損データ予測ステップでは、
前記欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータを説明変数とするとともに前記特定の列データ項目のデータを目的変数としてモデルを学習し、前記モデルを用いて前記特定の列データ項目の前記欠損データを機械学習によって予測する
ことを特徴とする請求項6に記載の欠損データ補完方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、欠損データ補完装置及び欠損データ補完方法に関し、例えば、欠損データを補完する技術に関する欠損データ補完装置に適用して好適なものである。
続きを表示(約 2,400 文字)【背景技術】
【0002】
近年、人工知能を用いた技術の発達によって学習データを用いた機械学習に関する研究が盛んになされている。このような学習データには、その一部に欠損データを含む場合があり、このような場合でも対応できるよう欠損データの補完に関して様々な研究がなされている。特許文献1には、機械学習の前処理として欠損データの補完を行う技術が開示されている。特許文献1に開示された技術では、欠損データの補完精度を向上することを目的とし、具体的には、まず、相関行列計算部が全学習レコードを用いて属性間の相関行列を計算し、回帰補完部が、欠損属性について、相関値の絶対値が相関閾値より大きい属性がある場合に、相関値の絶対値が相関閾値より大きい属性を用いて回帰補完を行う。
【先行技術文献】
【特許文献】
【0003】
特開2020-154828号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示された技術においては、上述したように欠損データについて回帰補完を行うのみであり、どの程度の欠損データを補完すれば欠損データを含む学習データの全体予測精度を高くできるのかについては検討がなされていなかった。
【0005】
本発明は以上の点を考慮してなされたもので、補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めることができる欠損データ補完装置及び欠損データ補完方法を提案しようとするものである。
【課題を解決するための手段】
【0006】
かかる課題を解決するため本発明においては、列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルと、前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータを定義するパラメータ定義部と、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測部と、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出部と、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与部と、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、を備えるようにした。
【0007】
また、本発明においては、列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルにおける前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータをパラメータ定義部に定義するパラメータ定義ステップと、欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測ステップと、抽出部が、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出ステップと、補完優先度フラグ付与部が、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与ステップと、優先度順位決定部が、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定ステップと、を有するようにした。
【発明の効果】
【0008】
本発明によれば、補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めることができる。
【図面の簡単な説明】
【0009】
第1の実施形態による欠損データ補完装置の構成例を示すシステム構成図である。
欠損データ補完処理の手順の一例を示すフローチャートである。
図2に示す欠損データ処理の手順の一例を示すフローチャートである。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データ補完測定工数量に対する全体予測精度の特性の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面に基づいて、本発明の一実施形態を詳述する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

株式会社日立製作所
半導体装置
4日前
株式会社日立製作所
欠陥知識循環システム
10日前
株式会社日立製作所
計画装置および計画方法
2日前
株式会社日立製作所
状態検知装置及び状態検知方法
4日前
株式会社日立製作所
電子機器および電子機器制御方法
4日前
株式会社日立製作所
障害対応システム及び障害対応方法
10日前
株式会社日立製作所
建物管理システム及び建物管理方法
2日前
株式会社日立製作所
異常検知システム及び異常検知方法
2日前
株式会社日立製作所
電力監視システムおよび電力監視方法
2日前
株式会社日立製作所
制御装置、制御方法およびプログラム
4日前
株式会社日立製作所
支援装置、支援方法、及び支援プログラム
2日前
株式会社日立製作所
計算機システム及びタスクの割当制御方法
2日前
株式会社日立製作所
電力運用管理システム及び電力運用管理方法
2日前
株式会社日立製作所
サービス管理システム及びサービス管理方法
2日前
株式会社日立製作所
電力需給調整システムおよび電力需給調整方法
2日前
株式会社日立製作所
ストレージ装置、電力供給方法、及びプログラム
4日前
株式会社日立製作所
金属表面処理剤、塗装体の製造方法、および車両
3日前
株式会社日立製作所
保全計画作成支援装置、及び保全計画作成支援方法
3日前
株式会社日立製作所
情報処理装置、情報処理方法及び情報処理プログラム
4日前
株式会社日立製作所
生産計画・運用立案支援システムおよびその制御方法
10日前
株式会社日立製作所
ボルト軸力推定方法、風車の予防保全方法及びナット
2日前
株式会社日立製作所
画像解析装置、画像解析プログラムおよび顕微鏡装置
2日前
株式会社日立製作所
計算機システム及びデータパイプライン処理の制御方法
3日前
株式会社日立製作所
設計支援システム、設計支援方法および設計支援プログラム
3日前
株式会社日立製作所
生成モデルを利用したデータ処理システム及びデータ処理方法
2日前
株式会社日立製作所
システム構築情報修正支援システム、方法、およびプログラム
10日前
株式会社日立製作所
保守支援システム、保守支援システムが実行する方法、プログラム
2日前
株式会社日立製作所
赤外透過性部材並びにこれを用いた筐体、鉄道車両、変圧器及びエンジン
10日前
株式会社日立製作所
アセットモデル生成装置、セキュリティ評価システムおよびアセットモデル生成方法
10日前
個人
裁判のAI化
2か月前
個人
フラワーコートA
1か月前
個人
情報処理システム
2か月前
個人
工程設計支援装置
1か月前
個人
検査システム
2か月前
個人
介護情報提供システム
1か月前
個人
為替ポイント伊達夢貯
17日前
続きを見る