TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025125973
公報種別公開特許公報(A)
公開日2025-08-28
出願番号2024022296
出願日2024-02-16
発明の名称欠損データ補完装置及び欠損データ補完方法
出願人株式会社日立製作所
代理人弁理士法人サンネクスト国際特許事務所
主分類G06F 16/215 20190101AFI20250821BHJP(計算;計数)
要約【課題】
補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めること。
【解決手段】
特定の列データ項目の各データのうち、補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つのエントリに補完優先度フラグを付与する補完優先度フラグ付与部と、データテーブルに含まれる各エントリについて補完優先度フラグが付与された各エントリの個数をカウントし、補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、を備える。
【選択図】 図1
特許請求の範囲【請求項1】
列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルと、
前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータを定義するパラメータ定義部と、
前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測部と、
前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出部と、
前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与部と、
前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、
を備えることを特徴とする欠損データ補完装置。
続きを表示(約 2,000 文字)【請求項2】
前記欠損データを含むエントリごとに、前記特定の列データ項目ごとのデータ及び前記統合補完優先度順位のリストデータを表示する表示部を備える
ことを特徴とする請求項1に記載の欠損データ補完装置。
【請求項3】
前記補完優先度フラグ付与部は、
前記補完量調整パラメータとして定義された複数の前記所定の割合ごとに前記補完優先度フラグを付与し、
前記表示部は、
前記リストデータに基づくデータ補完測定工数量と、前記欠損データ予測部による前記特定の列データ項目のデータに関する予測精度と、を表示する
ことを特徴とする請求項2に記載の欠損データ補完装置。
【請求項4】
前記欠損データ予測部は、
前記欠損データを含む学習データの全体予測精度が目標精度を満たすように、前記補完量調整パラメータとして定義された複数の前記所定の割合から1つの所定の割合を選択する
ことを特徴とする請求項3に記載の欠損データ補完装置。
【請求項5】
前記欠損データ予測部は、
前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータを説明変数とするとともに前記特定の列データ項目のデータを目的変数としてモデルを学習し、前記モデルを用いて前記特定の列データ項目の前記欠損データを機械学習によって予測する
ことを特徴とする請求項1に記載の欠損データ補完装置。
【請求項6】
列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルにおける前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータをパラメータ定義部に定義するパラメータ定義ステップと、
欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測ステップと、
抽出部が、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出ステップと、
補完優先度フラグ付与部が、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与ステップと、
優先度順位決定部が、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定ステップと、
を有することを特徴とする欠損データ補完方法。
【請求項7】
前記欠損データを含むエントリごとに、前記特定の列データ項目ごとのデータ及び前記統合補完優先度順位のリストデータを表示部に表示する表示ステップを有する
ことを特徴とする請求項6に記載の欠損データ補完方法。
【請求項8】
前記補完優先度フラグ付与部は、
前記補完量調整パラメータとして各々設定された複数の値ごとに前記補完優先度フラグを付与し、
前記表示ステップでは、
前記リストデータに基づくデータ補完測定工数量と、前記欠損データ予測部による前記特定の列データ項目のデータに関する予測精度と、を前記表示部に表示する
ことを特徴とする請求項7に記載の欠損データ補完方法。
【請求項9】
前記欠損データ予測ステップでは、
前記欠損データ予測部が、前記欠損データを含む学習データの全体予測精度が目標精度を満たすように、前記補完量調整パラメータとして定義された複数の前記所定の割合から1つの所定の割合を選択する
ことを特徴とする請求項8に記載の欠損データ補完方法。
【請求項10】
前記欠損データ予測ステップでは、
前記欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータを説明変数とするとともに前記特定の列データ項目のデータを目的変数としてモデルを学習し、前記モデルを用いて前記特定の列データ項目の前記欠損データを機械学習によって予測する
ことを特徴とする請求項6に記載の欠損データ補完方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、欠損データ補完装置及び欠損データ補完方法に関し、例えば、欠損データを補完する技術に関する欠損データ補完装置に適用して好適なものである。
続きを表示(約 2,400 文字)【背景技術】
【0002】
近年、人工知能を用いた技術の発達によって学習データを用いた機械学習に関する研究が盛んになされている。このような学習データには、その一部に欠損データを含む場合があり、このような場合でも対応できるよう欠損データの補完に関して様々な研究がなされている。特許文献1には、機械学習の前処理として欠損データの補完を行う技術が開示されている。特許文献1に開示された技術では、欠損データの補完精度を向上することを目的とし、具体的には、まず、相関行列計算部が全学習レコードを用いて属性間の相関行列を計算し、回帰補完部が、欠損属性について、相関値の絶対値が相関閾値より大きい属性がある場合に、相関値の絶対値が相関閾値より大きい属性を用いて回帰補完を行う。
【先行技術文献】
【特許文献】
【0003】
特開2020-154828号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示された技術においては、上述したように欠損データについて回帰補完を行うのみであり、どの程度の欠損データを補完すれば欠損データを含む学習データの全体予測精度を高くできるのかについては検討がなされていなかった。
【0005】
本発明は以上の点を考慮してなされたもので、補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めることができる欠損データ補完装置及び欠損データ補完方法を提案しようとするものである。
【課題を解決するための手段】
【0006】
かかる課題を解決するため本発明においては、列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルと、前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータを定義するパラメータ定義部と、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測部と、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出部と、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与部と、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定部と、を備えるようにした。
【0007】
また、本発明においては、列方向に複数の列データ項目が定義されているとともに、行方向に前記複数の列データ項目の各データで構成される複数のエントリを有し、各前記エントリのうちの一部のエントリにおける特定の列データ項目に欠損データが存在するデータテーブルにおける前記特定の列データ項目のデータに対して補完が必要な割合を調整するのに用いられる補完量調整パラメータをパラメータ定義部に定義するパラメータ定義ステップと、欠損データ予測部が、前記データテーブルを構成する前記複数のエントリにおける、前記特定の列データ項目以外の他の列データ項目のデータ、及び、前記特定の列データ項目のデータに基づいて、前記特定の列データ項目の前記欠損データを予測する欠損データ予測ステップと、抽出部が、前記特定の列データ項目の各データのうち、前記補完量調整パラメータによって定義された所定の割合に含まれる少なくとも1つの前記エントリを抽出する抽出ステップと、補完優先度フラグ付与部が、前記所定の割合に含まれる少なくとも1つの前記エントリに補完優先度フラグを付与する補完優先度フラグ付与ステップと、優先度順位決定部が、前記データテーブルに含まれる各前記エントリについて前記補完優先度フラグが付与された各前記エントリの個数をカウントし、前記補完優先度フラグの個数が多い順に統合補完優先度順位を決定する優先度順位決定ステップと、を有するようにした。
【発明の効果】
【0008】
本発明によれば、補完すべき欠損データをより少なく抑えつつ欠損データを含む学習データの全体予測精度を高めることができる。
【図面の簡単な説明】
【0009】
第1の実施形態による欠損データ補完装置の構成例を示すシステム構成図である。
欠損データ補完処理の手順の一例を示すフローチャートである。
図2に示す欠損データ処理の手順の一例を示すフローチャートである。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データテーブルの内容の一例を示す図である。
データ補完測定工数量に対する全体予測精度の特性の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面に基づいて、本発明の一実施形態を詳述する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
為替ポイント伊達夢貯
18日前
個人
冷凍食品輸出支援構造
18日前
個人
表変換編集支援システム
11日前
個人
結婚相手紹介支援システム
1か月前
個人
知財出願支援AIシステム
18日前
個人
AIによる情報の売買の仲介
20日前
個人
行動時間管理システム
13日前
個人
パスワード管理支援システム
11日前
日本精機株式会社
施工管理システム
20日前
個人
システム及びプログラム
4日前
個人
AIキャラクター制御システム
11日前
個人
パスポートレス入出国システム
24日前
個人
海外支援型農作物活用システム
3日前
株式会社アジラ
進入判定装置
24日前
個人
SaaS型勤務調整支援システム
11日前
個人
社会還元・施設向け供給支援構造
11日前
個人
音声対話型帳票生成支援システム
11日前
個人
人格進化型対話応答制御システム
11日前
個人
食事受注会計処理システム
25日前
大阪瓦斯株式会社
住宅設備機器
1か月前
サクサ株式会社
中継装置
11日前
個人
冷凍加工連携型農場運用システム
18日前
個人
未来型家系図構築システム
3日前
株式会社やよい
美容支援システム
28日前
株式会社村田製作所
ラック
1か月前
株式会社竹中工務店
管理システム
3日前
中部電力株式会社
学習装置
3日前
マクセル株式会社
非接触ICカード
4日前
キヤノン株式会社
画像形成システム
1か月前
個人
AI支援型ファイル整理支援システム
11日前
ブラザー工業株式会社
サポートプログラム
12日前
ブラザー工業株式会社
サポートプログラム
12日前
個人
入力モードにより色が変わる入力機器
24日前
株式会社東芝
ラック装置
27日前
株式会社ライト
情報処理装置
11日前
個人
マルチ連携型AIキャラクターアプリ
11日前
続きを見る