TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024130409
公報種別公開特許公報(A)
公開日2024-09-30
出願番号2023040098
出願日2023-03-14
発明の名称訓練データ生成プログラム、方法、及び装置
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 20/00 20190101AFI20240920BHJP(計算;計数)
要約【課題】訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制する訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置を提供する。
【解決手段】訓練データ生成装置10において、制御部は、第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付ける受付部と、複数のデータ修正処理の組み合わせに基づいて、複数のデータ修正処理それぞれによって行われるデータの修正度合である公平化強度を決定する決定部と、公平化強度に基づいて、複数のデータ修正処理を第1の訓練データに順に適用して修正後の第2の訓練データを生成する生成部と、有する。
【選択図】図10
特許請求の範囲【請求項1】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成プログラム。
続きを表示(約 1,400 文字)【請求項2】
前記修正度合いを決定する処理は、前記第1の訓練データに適用する順番が後になるほど低下する前記データ修正処理の有効性と、前記データ修正処理毎に設定された、前記データ修正処理後に到達すべき修正度合いの進度とに基づいて、前記修正度合いを決定することを含む、
ことを特徴とする請求項1に記載の訓練データ生成プログラム。
【請求項3】
前記データ修正処理後に到達すべき修正度合いの進度は、前記データ修正処理毎の進度を足し合わせた場合に、最終的に到達すべき修正度合いとなるように設定される、
ことを特徴とする請求項2に記載の訓練データ生成プログラム。
【請求項4】
前記修正度合いを決定する処理は、前記進度を前記有効性で除算した値を前記修正度合いとして決定することを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項5】
前記修正度合いを決定する処理は、前記データ修正処理の入力及び出力の各々の変数タイプが説明変数か目的変数かに応じて、前記データ修正処理後に到達すべき修正度合いの進度を設定することを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項6】
前記修正度合いを決定する処理は、前段で適用するデータ修正処理の出力の変数タイプと、後段で適用するデータ修正処理の出力の変数タイプとが一致する場合、変数タイプが一致しない場合に比べて、前記後段で適用するデータ修正処理の前記進度を低下させることを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項7】
前記修正度合いを決定する処理は、前段で適用するデータ修正処理の出力の変数タイプと、後段で適用するデータ修正処理の入力の変数タイプとが一致しない場合、変数タイプが一致する場合に比べて、前記後段で適用するデータ修正処理の前記進度を低下させることを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項8】
前記第2の訓練データを用いて、機械学習モデルを訓練する、
ことをさらに含む処理を前記コンピュータに実行させることを特徴とする請求項1~請求項3のいずれか1項に記載の訓練データ生成プログラム。
【請求項9】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成方法。
【請求項10】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理を実行する制御部を含むことを特徴とする訓練データ生成装置。

発明の詳細な説明【技術分野】
【0001】
開示の技術は、訓練データ生成プログラム、訓練データ生成方法、及び訓練データ生成装置に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
機械学習モデルの訓練に用いられる訓練データにおいて、特定の性別、人種等の特定の社会的グループに対して、データ数や特定のラベルが不均衡になっている場合がある。そのような訓練データを用いて機械学習モデルを訓練すると、そのグループにとって、機械学習モデルによる予測の精度や正例率が低いといった不公平な予測が行われ易い。そこで、不利な予測をされ易いグループ、すなわちマイノリティグループに対して、訓練データの不均衡を改善し、精度や公平性を改善することが行われている。
【0003】
例えば、データの集合を複数のグループに分割し、該複数のグループのそれぞれについて、該グループに属するデータの数を取得し、該取得した数に基づいて、該複数のグループのそれぞれに属するデータの数を制御するデータ処理装置が提案されている。そして、この装置は、該制御により数が制御されたデータの集合を用いて学習器の学習を行う。
【0004】
また、例えば、オーダーを割振るための方法が提案されている。この方法は、予測モデルを取得し、ターゲットとするオーダー特徴、ターゲットとする要求者特徴、及びターゲットとする提供者特徴に基づいて予測モデルを使用してターゲットとする事象の発生確率を決定する。また、この方法は、アンダーサンプリング、オーバーサンプリング等のサンプル平衡化技術を使用してトレーニング・データに基づいてサンプル構成を平衡化する。
【0005】
また、例えば、多クラスの教師つき学習において用いられる教師データのデータ数をクラス毎に集計し、集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラス毎に調整するサンプリング装置が提案されている。そして、この装置は、データ数が調整された教師データに基づいて判別モデルを生成する。
【先行技術文献】
【特許文献】
【0006】
特開2021-047826号公報
特表2020-531933号公報
特開2010-204966号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
訓練データの不均衡を是正する手法には、データのラベルが属するクラス間の不均衡を是正する手法と、データを特定の属性で分類した場合のグループ間の不均衡を是正する手法とがある。訓練データ内にクラス間の不均衡とグループ間の不均衡とが混在している場合には、これらの手法を組み合わせて適用することが考えられる。しかし、これらの手法を単純に組み合わせた場合には、過剰な公平化が行われたり、偏った公平化が行われたりする場合がある。
【0008】
一つの側面として、開示の技術は、訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付ける。また、開示の技術は、前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定する。そして、開示の技術は、前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する。
【発明の効果】
【0010】
一つの側面として、訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制することができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
プロセッサ
10日前
富士通株式会社
アバター制御
24日前
富士通株式会社
光半導体デバイス
今日
富士通株式会社
評価装置及び評価方法
1か月前
富士通株式会社
基板装置及び電子機器
11日前
富士通株式会社
半導体装置及び実装方法
1か月前
富士通株式会社
演算処理装置及び演算処理方法
10日前
富士通株式会社
半導体装置の製造方法及び基板
17日前
富士通株式会社
受信器および適応等化処理方法
21日前
富士通株式会社
ヘテロ積層デバイスの製造方法
1か月前
富士通株式会社
自動探索的データ解析(EDA)
26日前
富士通株式会社
施策決定方法及び施策決定プログラム
27日前
富士通株式会社
分散学習プログラム、方法、及び装置
1か月前
富士通株式会社
深層信念ネットワークのトレーニング
21日前
富士通株式会社
説明可能な人工知能のためのグラフ縮小
17日前
富士通株式会社
推定プログラム、推定方法および推定装置
1か月前
富士通株式会社
訓練データ生成プログラム、方法、及び装置
今日
富士通株式会社
データ制御方法およびデータ制御プログラム
18日前
富士通株式会社
オブジェクトの計数装置、方法及び電子機器
1か月前
富士通株式会社
演算処理装置および演算処理装置の制御方法
18日前
富士通株式会社
施策評価支援方法及び施策評価支援プログラム
25日前
富士通株式会社
情報処理装置、情報処理方法およびプログラム
1か月前
富士通株式会社
乗降者カウントプログラムおよび情報処理装置
21日前
富士通株式会社
探索プログラム、探索方法および情報処理装置
18日前
富士通株式会社
表示プログラム、表示方法および情報処理装置
17日前
富士通株式会社
推定プログラム、機械学習方法、及び推定装置
1か月前
富士通株式会社
プログラム、情報処理方法および情報処理装置
11日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
3日前
富士通株式会社
グラフェン素子およびグラフェン素子の製造方法
18日前
富士通株式会社
生成プログラム、生成方法、および情報処理装置
1か月前
富士通株式会社
修正プログラム、修正方法、および情報処理装置
1か月前
富士通株式会社
トランス接続相判定プログラム、方法、及び装置
今日
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
21日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
21日前
富士通株式会社
管理プログラム、管理方法、および情報処理装置
10日前
続きを見る