TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024072687
公報種別公開特許公報(A)
公開日2024-05-28
出願番号2022183670
出願日2022-11-16
発明の名称データ生成プログラム、データ生成方法およびデータ生成装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240521BHJP(計算;計数)
要約【課題】訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制するデータ生成プログラム、データ生成方法およびデータ生成装置を提供する。
【解決手段】データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、複数のデータ群のうち第1の属性の値が第2の値である第2のデータ群から第1のデータを選択する。生成する処理は、第1のデータに基づいて、第1の属性の値が第2の値である新たなデータを生成する。
【選択図】図3
特許請求の範囲【請求項1】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
続きを表示(約 980 文字)【請求項2】
前記第1のデータ群は、第2の属性が第3の値であり、前記第2のデータ群は前記第2の属性が第4の値であり、
前記第1のデータ群のデータ数は、前記第1の属性が前記第1の値で前記第2の属性が前記第4の値であるデータ群より多い、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項3】
前記生成する処理は、前記第1の属性が前記第2の値で前記第2の属性が前記第3の値であり、前記第2のデータ群よりデータ数が多いデータ群に含まれるデータの第2の分布に基づいて前記新たなデータを生成する、
ことを特徴とする請求項2に記載のデータ生成プログラム。
【請求項4】
前記選択する処理は、前記第2のデータ群から前記第1の分布との距離が遠いデータ順に複数の前記第1のデータを選択する、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項5】
前記生成する処理は、前記第2のデータ群のデータ数と、前記複数のデータ群のうち前記第2のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項6】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
【請求項7】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理を実行する制御部を含むことを特徴とするデータ生成装置。

発明の詳細な説明【技術分野】
【0001】
本発明の実施形態は、データ生成プログラム、データ生成方法およびデータ生成装置に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
近年、大学入試の合否判定、銀行の与信判定などの意思決定プロセスでは、機械学習モデルを用いた判定が活用されている。機械学習モデルは、複数の訓練データのそれぞれに含まれる特徴とクラス(合否や与信の可否など)を用いて機械学習を行なうことで、入力された特徴から適切なクラス分類が可能となる。
【0003】
複数の訓練データについては、クラスやグループなどの属性について、しばしば偏りがある。例えば、クラスについては、合格に対して不合格のほうが多くなるなど、特定のクラスに偏る場合がある。また、グループについては、男性/女性などのグループにおいて女性に対して男性のほうが多くなるなど、特定のグループに偏る場合がある。
【0004】
複数の訓練データにおけるこのような偏りは、機械学習モデルの訓練時に数が少ないクラスやグループの学習が進まず、クラス分類の精度が悪化する問題として知られている。この問題に対する従来技術としては、複数の訓練データに対して、数の少ないクラスやグループのデータを新たに生成して補完することで、精度の改善を試みるデータのオーバーサンプリング技術がある。
【先行技術文献】
【特許文献】
【0005】
国際公開第2022/044064号
国際公開第2018/079020号
米国特許出願公開第2021/0158094号明細書
米国特許出願公開第2020/0380309号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術では、オーバーサンプリングによって異なるクラス間でデータが重なるオーバーラップが発生するという問題がある。
【0007】
1つの側面では、訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できるデータ生成プログラム、データ生成方法およびデータ生成装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの案では、データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、複数のデータ群のうち第1の属性の値が第2の値である第2のデータ群から第1のデータを選択する。生成する処理は、第1のデータに基づいて、第1の属性の値が第2の値である新たなデータを生成する。
【発明の効果】
【0009】
訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できる。
【図面の簡単な説明】
【0010】
図1Aは、実施形態にかかるデータ生成装置におけるデータ生成の概要を説明する説明図である。
図1Bは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。
図1Cは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。
図2は、実施形態にかかるデータ生成装置の機能構成例を示すブロック図である。
図3は、実施形態にかかるデータ生成装置の動作例を示すフローチャートである。
図4は、実施形態にかかるデータ生成装置のデータ生成に関連する動作例を示すフローチャートである。
図5は、実施形態にかかるデータ生成装置のデータ生成の一例を説明する説明図である。
図6は、評価メトリクスを説明する説明図である。
図7は、評価結果の一例を説明する説明図である。
図8は、コンピュータ構成の一例を説明する説明図である。
図9は、従来のデータ生成を説明する説明図である。
図10は、従来のデータ生成による不均衡の是正を説明する説明図である。
図11は、従来のデータ生成によるオーバーラップの発生を説明する説明図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
算出方法及び算出プログラム
3日前
富士通株式会社
光通信装置および伝送制御方法
18日前
富士通株式会社
情報処理装置及び情報処理方法
23日前
富士通株式会社
画像探索方法及び画像探索プログラム
9日前
富士通株式会社
画像識別方法および画像識別プログラム
3日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
23日前
富士通株式会社
類似度判定方法および類似度判定プログラム
18日前
富士通株式会社
検出プログラム、検出方法および情報処理装置
4日前
富士通株式会社
評価プログラム、評価方法および情報処理装置
4日前
富士通株式会社
判定プログラム、判定方法および情報処理装置
3日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
23日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
2日前
富士通株式会社
パターン抽出方法及びパターン抽出プログラム
1日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
1日前
富士通株式会社
設定プログラム、設定方法および情報処理装置
1日前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
19日前
富士通株式会社
移動時間予測方法および移動時間予測プログラム
1日前
富士通株式会社
データ処理装置、データ処理方法およびプログラム
23日前
富士通株式会社
カメラキャリブレーション方法の評価方法及び装置
8日前
富士通株式会社
署名支援プログラム、署名支援方法、署名支援装置
19日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
24日前
富士通株式会社
並列処理プログラム,並列処理装置及び並列処理方法
8日前
富士通株式会社
情報処理プログラム、情報処理方法、およびシステム
8日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
10日前
富士通株式会社
演算処理プログラム、演算処理方法および情報処理装置
23日前
富士通株式会社
取引処理プログラム、取引処理方法および情報処理装置
17日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
23日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
23日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
温度調整プログラム、データ処理装置及びデータ処理方法
19日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
広告管理プログラム、広告管理方法、および情報処理装置
18日前
富士通株式会社
機械学習プログラム、機械学習方法、及び、情報処理装置
17日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
23日前
富士通株式会社
モデル生成方法、画像分類方法及び補助分類モデル訓練装置
16日前
富士通株式会社
データ生成プログラム、データ生成方法および情報処理装置
23日前
続きを見る