TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024072687
公報種別公開特許公報(A)
公開日2024-05-28
出願番号2022183670
出願日2022-11-16
発明の名称データ生成プログラム、データ生成方法およびデータ生成装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240521BHJP(計算;計数)
要約【課題】訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制するデータ生成プログラム、データ生成方法およびデータ生成装置を提供する。
【解決手段】データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、複数のデータ群のうち第1の属性の値が第2の値である第2のデータ群から第1のデータを選択する。生成する処理は、第1のデータに基づいて、第1の属性の値が第2の値である新たなデータを生成する。
【選択図】図3
特許請求の範囲【請求項1】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
続きを表示(約 980 文字)【請求項2】
前記第1のデータ群は、第2の属性が第3の値であり、前記第2のデータ群は前記第2の属性が第4の値であり、
前記第1のデータ群のデータ数は、前記第1の属性が前記第1の値で前記第2の属性が前記第4の値であるデータ群より多い、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項3】
前記生成する処理は、前記第1の属性が前記第2の値で前記第2の属性が前記第3の値であり、前記第2のデータ群よりデータ数が多いデータ群に含まれるデータの第2の分布に基づいて前記新たなデータを生成する、
ことを特徴とする請求項2に記載のデータ生成プログラム。
【請求項4】
前記選択する処理は、前記第2のデータ群から前記第1の分布との距離が遠いデータ順に複数の前記第1のデータを選択する、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項5】
前記生成する処理は、前記第2のデータ群のデータ数と、前記複数のデータ群のうち前記第2のデータ群よりもデータ数の多いデータ群のデータ数との差分に基づく数の前記新たなデータを生成する、
ことを特徴とする請求項1に記載のデータ生成プログラム。
【請求項6】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
【請求項7】
複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、前記複数のデータ群のうち前記第1の属性の値が第2の値である第2のデータ群から第1のデータを選択し、
前記第1のデータに基づいて、前記第1の属性の値が前記第2の値である新たなデータを生成する、
処理を実行する制御部を含むことを特徴とするデータ生成装置。

発明の詳細な説明【技術分野】
【0001】
本発明の実施形態は、データ生成プログラム、データ生成方法およびデータ生成装置に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
近年、大学入試の合否判定、銀行の与信判定などの意思決定プロセスでは、機械学習モデルを用いた判定が活用されている。機械学習モデルは、複数の訓練データのそれぞれに含まれる特徴とクラス(合否や与信の可否など)を用いて機械学習を行なうことで、入力された特徴から適切なクラス分類が可能となる。
【0003】
複数の訓練データについては、クラスやグループなどの属性について、しばしば偏りがある。例えば、クラスについては、合格に対して不合格のほうが多くなるなど、特定のクラスに偏る場合がある。また、グループについては、男性/女性などのグループにおいて女性に対して男性のほうが多くなるなど、特定のグループに偏る場合がある。
【0004】
複数の訓練データにおけるこのような偏りは、機械学習モデルの訓練時に数が少ないクラスやグループの学習が進まず、クラス分類の精度が悪化する問題として知られている。この問題に対する従来技術としては、複数の訓練データに対して、数の少ないクラスやグループのデータを新たに生成して補完することで、精度の改善を試みるデータのオーバーサンプリング技術がある。
【先行技術文献】
【特許文献】
【0005】
国際公開第2022/044064号
国際公開第2018/079020号
米国特許出願公開第2021/0158094号明細書
米国特許出願公開第2020/0380309号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術では、オーバーサンプリングによって異なるクラス間でデータが重なるオーバーラップが発生するという問題がある。
【0007】
1つの側面では、訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できるデータ生成プログラム、データ生成方法およびデータ生成装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの案では、データ生成プログラムは、選択する処理と、生成する処理とをコンピュータに実行させる。選択する処理は、複数のデータを属性に基づいて分類した複数のデータ群のうち第1の属性の値が第1の値である第1のデータ群に含まれるデータの第1の分布に基づいて、複数のデータ群のうち第1の属性の値が第2の値である第2のデータ群から第1のデータを選択する。生成する処理は、第1のデータに基づいて、第1の属性の値が第2の値である新たなデータを生成する。
【発明の効果】
【0009】
訓練データについてオーバーサンプリングを行なう際のオーバーラップを抑制できる。
【図面の簡単な説明】
【0010】
図1Aは、実施形態にかかるデータ生成装置におけるデータ生成の概要を説明する説明図である。
図1Bは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。
図1Cは、近傍が同じクラスに属する割合を考慮してデータ生成を行なう場合を説明する説明図である。
図2は、実施形態にかかるデータ生成装置の機能構成例を示すブロック図である。
図3は、実施形態にかかるデータ生成装置の動作例を示すフローチャートである。
図4は、実施形態にかかるデータ生成装置のデータ生成に関連する動作例を示すフローチャートである。
図5は、実施形態にかかるデータ生成装置のデータ生成の一例を説明する説明図である。
図6は、評価メトリクスを説明する説明図である。
図7は、評価結果の一例を説明する説明図である。
図8は、コンピュータ構成の一例を説明する説明図である。
図9は、従来のデータ生成を説明する説明図である。
図10は、従来のデータ生成による不均衡の是正を説明する説明図である。
図11は、従来のデータ生成によるオーバーラップの発生を説明する説明図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
乗降調査装置
2か月前
個人
暗号化記憶媒体
23日前
個人
管理装置
1か月前
個人
プロジェクター
1か月前
日本精機株式会社
投影装置
2か月前
個人
求人支援システム
12日前
日本精機株式会社
投影システム
2か月前
キヤノン電子株式会社
周辺機器
1か月前
個人
求人マッチングサーバ
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
17LIVE株式会社
サーバ
2か月前
株式会社ワコム
電子ペン
24日前
トヨタ自動車株式会社
検査装置
1か月前
シャープ株式会社
情報出力装置
10日前
株式会社ゼロボード
価格決定システム
1か月前
株式会社ワコム
電子ペン
26日前
アスエネ株式会社
水管理の方法
1か月前
CKD株式会社
遠隔支援システム
1か月前
大日本印刷株式会社
作業台
29日前
株式会社NGA
画像投稿システム
1か月前
株式会社アジラ
姿勢推定システム
1か月前
株式会社寺岡精工
システム
26日前
個人
ポイント増量アプリ「太陽光銭サー」
1か月前
トヨタ紡織株式会社
検査装置
19日前
株式会社カロニマ
情報発信システム
2日前
日本信号株式会社
料金精算システム
8日前
株式会社小野測器
移動量計測システム
1か月前
日本信号株式会社
自転車貸出システム
2か月前
株式会社小野測器
移動量計測システム
1か月前
株式会社アジラ
異常行動検出システム
19日前
個人
言語翻訳システム及びプログラム
1か月前
BH株式会社
商品販売システム
1か月前
株式会社三富
取引管理システム
1か月前
続きを見る