TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025043151
公報種別
公開特許公報(A)
公開日
2025-03-28
出願番号
2023150490
出願日
2023-09-15
発明の名称
データセット拡充支援装置、データセット拡充支援方法およびデータセット拡充支援プログラム
出願人
株式会社日立製作所
代理人
青稜弁理士法人
主分類
G06N
20/00 20190101AFI20250321BHJP(計算;計数)
要約
【課題】データセットにデータを適切に補充することを容易にすること。
【解決手段】1つ以上の目的変数の値と、1つ以上の説明変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出する方法であって、前記プロセッサは、対象データセットを複数のクラスタにクラスタリングするクラスタリング処理と、前記複数のクラスタから、補充データを補充する対象の少なくとも1つの補充対象クラスタを選択する補充対象クラスタ選択処理と、対象データセットを用いて学習した、前記実測データの前記1つ以上の目的変数の値と前記1つ以上の説明変数の値との関係を表す実測データモデルと、選択した少なくとも1つの補充対象クラスタと、に基づいて、前記補充データの説明変数の値を算出する、説明変数算出処理と、算出した前記補充データの説明変数の値を出力する説明変数出力処理と、を実行する。
【選択図】図4
特許請求の範囲
【請求項1】
プロセッサおよび前記プロセッサの処理に用いる情報を格納する記憶装置を備え、前記プロセッサが、1つ以上の目的変数の値と、1つ以上の説明変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出するデータセット拡充支援装置におけるデータセット拡充支援方法であって、
前記プロセッサは、
対象データセットを複数のクラスタにクラスタリングするクラスタリング処理と、
前記複数のクラスタから、補充データを補充する対象の少なくとも1つの補充対象クラスタを選択する補充対象クラスタ選択処理と、
前記対象データセットを用いて学習した、前記実測データの前記1つ以上の目的変数の値と前記1つ以上の説明変数の値との関係を表す実測データモデルと、選択した少なくとも1つの前記補充対象クラスタと、に基づいて、前記補充データの説明変数の値を算出する、説明変数算出処理と、
算出した前記補充データの説明変数の値を出力する説明変数出力処理と、を実行する、
データセット拡充支援方法。
続きを表示(約 1,400 文字)
【請求項2】
請求項1に記載のデータセット拡充支援方法であって、
前記クラスタリング処理は、前記対象データセットの前記実測データの前記説明変数のデータ空間における、前記実測データの密度に基づいて、前記対象データセットを複数のクラスタにクラスタリングする、
データセット拡充支援方法。
【請求項3】
請求項2に記載のデータセット拡充支援方法であって、
前記補充対象クラスタ選択処理において、少なくとも1つの前記補充対象クラスタは、前記複数のクラスタのうちで、前記クラスタの前記実測データの密度の大きさが、最大ではないクラスタである、
データセット拡充支援方法。
【請求項4】
請求項1に記載のデータセット拡充支援方法であって、
さらに、前記補充データを取得すると、
前記補充データを前記対象データセットに加えた、補充後対象データセットを用いて、学習させた補充後実測データモデルを生成する検証実測モデル学習処理と、
前記補充後対象データセットを用いて、前記実測データモデルに学習させた補充後実測データモデルを用いて、前記補充後対象データセットを評価する、データセット判定処理を実行する、
データセット拡充支援方法。
【請求項5】
請求項4に記載のデータセット拡充支援方法であって、
前記データセット判定処理は、
前記補充後実測データモデルを用いて、前記補充データの前記説明変数の値から、前記補充データの前記目的変数の値を正しく算出できるか否かを判定し、
前記補充後実測データモデルを用いて、前記補充データの前記説明変数の値から、前記補充データの前記目的変数の値を正しく算出できないと判定した場合、前記クラスタリング処理と、前記補充対象クラスタ選択処理と、前記説明変数算出処理と、前記説明変数出力処理と、を実行して、前記補充データの説明変数の値を出力する、
データセット拡充支援方法。
【請求項6】
請求項1に記載のデータセット拡充支援方法であって、
前記クラスタリング処理は、前記実測データの前記目的変数の値に基づいて、前記対象データセットを前記複数のクラスタにクラスタリングする、
データセット拡充支援方法。
【請求項7】
請求項6に記載のデータセット拡充支援方法であって、
少なくとも1つの前記補充対象クラスタは、前記実測データのうちで前記目的変数の値が最も目標値に近い実測データを含むクラスタを含む、
データセット拡充支援方法。
【請求項8】
請求項1に記載のデータセット拡充支援方法であって、
前記補充データの数は複数である、
データセット拡充支援方法。
【請求項9】
請求項1に記載のデータセット拡充支援方法であって、
前記対象データセットに含まれる前記実測データを、前記説明変数の値が、設定可能範囲内にある実測データのみに制限する、
データセット拡充支援方法。
【請求項10】
請求項1に記載のデータセット拡充支援方法であって、
前記対象データセットに含まれる前記実測データを、前記説明変数の値が、測定可能範囲内にある実測データのみに制限する、
データセット拡充支援方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、1つ以上の説明変数の値と、1つ以上の目的変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出するデータセット拡充支援装置、データセット拡充支援方法およびデータセット拡充支援プログラムに関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
1つ以上の説明変数の値と、1つ以上の目的変数の値との組からなる実測データを、機械学習のモデルや統計学的手法のモデルに学習させ、学習させたモデルを利用する技術がある。例えば、特許文献1には、観測対象物から発出される光信号を学習データとして機械学習を行い、観測対象物が特定の対象であるか否かを判別する判別アルゴリズムを、機械学習の結果に基づいて変更する、分析システムが記載されている。
【先行技術文献】
【特許文献】
【0003】
特開2023-98911号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、一般的に、適切に機械学習を行う場合、機械学習に用いる学習データの量および質が十分である必要がある。特許文献1に記載されている技術では、いつ、機械学習が十分なされているかがわからない。特許文献1に記載されている技術では、過学習となり、不適切な機械学習がされるおそれがある。
【0005】
そして、個々の実測データからは、実測データのデータ空間において、実測データがピーク等の特異点となっているか否かを判断できない。また、機械学習のモデルや統計学的手法のモデルは、学習データとして用いる学習用データセットに含まれる実測データの集団としての性質を学習する。従って、学習データとして用いる学習用データセットにおいて、複数の実測データをまとめた、実測データの集合としての性質を考慮しなければ、学習用データセットが適切に実測データを含んでいるか否かは容易には、判断できない。そして、実測データの集合としての性質を考慮することは容易ではないため、学習データに用いるデータセットにデータを適切に補充することを容易ではないという問題があった。
【0006】
そこで、本発明の目的は、モデルの学習に用いるデータセットにデータを適切に補充することを容易にするデータセット拡充支援装置、データセット拡充支援方法およびデータセット拡充支援プログラムを提供することである。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明のデータセット拡充支援方法の一態様は、プロセッサおよび前記プロセッサの処理に用いる情報を格納する記憶装置を備え、前記プロセッサが、1つ以上の目的変数の値と、1つ以上の説明変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出するデータセット拡充支援装置におけるデータセット拡充支援方法であって、前記プロセッサは、対象データセットを複数のクラスタにクラスタリングするクラスタリング処理と、前記複数のクラスタから、補充データを補充する対象の少なくとも1つの補充対象クラスタを選択する補充対象クラスタ選択処理と、前記対象データセットを用いて学習した、前記実測データの前記1つ以上の目的変数の値と前記1つ以上の説明変数の値との関係を表す実測データモデルと、選択した少なくとも1つの前記補充対象クラスタと、に基づいて、前記補充データの説明変数の値を算出する、説明変数算出処理と、算出した前記補充データの説明変数の値を出力する説明変数出力処理と、を実行する。
【0008】
また、本発明のデータセット拡充支援装置の一態様は、プロセッサおよび前記プロセッサの処理に用いる情報を格納する記憶装置を備え、前記プロセッサが、1つ以上の目的変数の値と、1つ以上の説明変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出するデータセット拡充支援装置であって、前記プロセッサは、対象データセットを複数のクラスタにクラスタリングするクラスタリング処理と、前記複数のクラスタから、補充データを補充する対象の少なくとも1つの補充対象クラスタを選択する補充対象クラスタ選択処理と、前記対象データセットを用いて学習した、前記実測データの前記1つ以上の目的変数の値と前記1つ以上の説明変数の値との関係を表す実測データモデルと、選択した少なくとも1つの前記補充対象クラスタと、に基づいて、前記補充データの説明変数の値を算出する、説明変数算出処理と、算出した前記補充データの説明変数の値を出力する説明変数出力処理と、を実行する。
【0009】
また、本発明のデータセット拡充支援プログラムの一態様は、プロセッサおよび前記プロセッサの処理に用いる情報を格納する記憶装置を備え、前記プロセッサが、1つ以上の目的変数の値と、1つ以上の説明変数の値との組からなる実測データを複数含む実測データセットに補充する補充データに関する情報を算出するデータセット拡充支援装置におけるデータセット拡充支援プログラムであって、前記プロセッサに、対象データセットを複数のクラスタにクラスタリングするクラスタリング処理と、前記複数のクラスタから、補充データを補充する対象の少なくとも1つの補充対象クラスタを選択する補充対象クラスタ選択処理と、前記対象データセットを用いて学習した、前記実測データの前記1つ以上の目的変数の値と前記1つ以上の説明変数の値との関係を表す実測データモデルと、選択した少なくとも1つの前記補充対象クラスタと、に基づいて、前記補充データの説明変数の値を算出する、説明変数算出処理と、算出した前記補充データの説明変数の値を出力する説明変数出力処理と、を実行させる。
【発明の効果】
【0010】
本発明の代表的な形態によれば、モデルの学習に用いるデータセットにデータを適切に補充することを容易にする。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社日立製作所
充電管理装置および充電管理方法
1日前
株式会社日立製作所
情報照会システム及び情報照会方法
1日前
株式会社日立製作所
塩基検出用長鎖ssDNAプライマー
今日
株式会社日立製作所
データ統合方法及びデータ統合システム
今日
株式会社日立製作所
活動特徴抽出装置、及び活動特徴抽出方法
1日前
株式会社日立製作所
分析装置、分析方法および分析プログラム
1日前
株式会社日立製作所
水電解システムの制御方法及び水電解システム
今日
株式会社日立製作所
エレベーターシステム及びエレベーター制御方法
今日
株式会社日立製作所
成果評価システム、成果評価方法及び成果評価プログラム
今日
株式会社日立製作所
製造オペレーションに関するインサイトを導出するためのクエリベースの方法
1日前
個人
非正規コート
2日前
キヤノン電子株式会社
通信システム
13日前
有限会社ノア
データ読取装置
今日
個人
広告提供システムおよびその方法
2日前
株式会社ザメディア
出席管理システム
7日前
トヨタ自動車株式会社
作業評価装置
13日前
トヨタ自動車株式会社
工程計画装置
7日前
ミサワホーム株式会社
情報処理装置
6日前
個人
ポイント還元付き配送システム
今日
トヨタ自動車株式会社
作業判定方法
8日前
株式会社タクテック
商品取出集品システム
6日前
株式会社NURSY
再就職の支援装置
14日前
株式会社村田製作所
動き検知装置
6日前
個人
公益寄付インタラクティブシステム
13日前
トヨタ自動車株式会社
情報処理システム
8日前
ゼネラル株式会社
RFIDタグ付き物品
9日前
個人
コンテンツ配信システム
6日前
株式会社実身美
ワーキングシェアリングシステム
今日
トヨタ自動車株式会社
情報処理方法
8日前
富士フイルム株式会社
タッチセンサ
13日前
株式会社国際電気
支援システム
9日前
株式会社インテック
触覚ディスプレイ装置
14日前
ブラザー工業株式会社
ラベルプリンタ
8日前
個人
プラットフォームシステム
6日前
株式会社デンソー
情報処理方法
13日前
富士通株式会社
画像生成方法
12日前
続きを見る
他の特許を見る