TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024130409
公報種別
公開特許公報(A)
公開日
2024-09-30
出願番号
2023040098
出願日
2023-03-14
発明の名称
訓練データ生成プログラム、方法、及び装置
出願人
富士通株式会社
代理人
弁理士法人太陽国際特許事務所
主分類
G06N
20/00 20190101AFI20240920BHJP(計算;計数)
要約
【課題】訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制する訓練データ生成プログラム、訓練データ生成方法及び訓練データ生成装置を提供する。
【解決手段】訓練データ生成装置10において、制御部は、第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付ける受付部と、複数のデータ修正処理の組み合わせに基づいて、複数のデータ修正処理それぞれによって行われるデータの修正度合である公平化強度を決定する決定部と、公平化強度に基づいて、複数のデータ修正処理を第1の訓練データに順に適用して修正後の第2の訓練データを生成する生成部と、有する。
【選択図】図10
特許請求の範囲
【請求項1】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成プログラム。
続きを表示(約 1,400 文字)
【請求項2】
前記修正度合いを決定する処理は、前記第1の訓練データに適用する順番が後になるほど低下する前記データ修正処理の有効性と、前記データ修正処理毎に設定された、前記データ修正処理後に到達すべき修正度合いの進度とに基づいて、前記修正度合いを決定することを含む、
ことを特徴とする請求項1に記載の訓練データ生成プログラム。
【請求項3】
前記データ修正処理後に到達すべき修正度合いの進度は、前記データ修正処理毎の進度を足し合わせた場合に、最終的に到達すべき修正度合いとなるように設定される、
ことを特徴とする請求項2に記載の訓練データ生成プログラム。
【請求項4】
前記修正度合いを決定する処理は、前記進度を前記有効性で除算した値を前記修正度合いとして決定することを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項5】
前記修正度合いを決定する処理は、前記データ修正処理の入力及び出力の各々の変数タイプが説明変数か目的変数かに応じて、前記データ修正処理後に到達すべき修正度合いの進度を設定することを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項6】
前記修正度合いを決定する処理は、前段で適用するデータ修正処理の出力の変数タイプと、後段で適用するデータ修正処理の出力の変数タイプとが一致する場合、変数タイプが一致しない場合に比べて、前記後段で適用するデータ修正処理の前記進度を低下させることを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項7】
前記修正度合いを決定する処理は、前段で適用するデータ修正処理の出力の変数タイプと、後段で適用するデータ修正処理の入力の変数タイプとが一致しない場合、変数タイプが一致する場合に比べて、前記後段で適用するデータ修正処理の前記進度を低下させることを含む、
ことを特徴とする請求項2又は請求項3に記載の訓練データ生成プログラム。
【請求項8】
前記第2の訓練データを用いて、機械学習モデルを訓練する、
ことをさらに含む処理を前記コンピュータに実行させることを特徴とする請求項1~請求項3のいずれか1項に記載の訓練データ生成プログラム。
【請求項9】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理をコンピュータに実行させることを特徴とする訓練データ生成方法。
【請求項10】
第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付け、
前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定し、
前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する、
処理を実行する制御部を含むことを特徴とする訓練データ生成装置。
発明の詳細な説明
【技術分野】
【0001】
開示の技術は、訓練データ生成プログラム、訓練データ生成方法、及び訓練データ生成装置に関する。
続きを表示(約 1,600 文字)
【背景技術】
【0002】
機械学習モデルの訓練に用いられる訓練データにおいて、特定の性別、人種等の特定の社会的グループに対して、データ数や特定のラベルが不均衡になっている場合がある。そのような訓練データを用いて機械学習モデルを訓練すると、そのグループにとって、機械学習モデルによる予測の精度や正例率が低いといった不公平な予測が行われ易い。そこで、不利な予測をされ易いグループ、すなわちマイノリティグループに対して、訓練データの不均衡を改善し、精度や公平性を改善することが行われている。
【0003】
例えば、データの集合を複数のグループに分割し、該複数のグループのそれぞれについて、該グループに属するデータの数を取得し、該取得した数に基づいて、該複数のグループのそれぞれに属するデータの数を制御するデータ処理装置が提案されている。そして、この装置は、該制御により数が制御されたデータの集合を用いて学習器の学習を行う。
【0004】
また、例えば、オーダーを割振るための方法が提案されている。この方法は、予測モデルを取得し、ターゲットとするオーダー特徴、ターゲットとする要求者特徴、及びターゲットとする提供者特徴に基づいて予測モデルを使用してターゲットとする事象の発生確率を決定する。また、この方法は、アンダーサンプリング、オーバーサンプリング等のサンプル平衡化技術を使用してトレーニング・データに基づいてサンプル構成を平衡化する。
【0005】
また、例えば、多クラスの教師つき学習において用いられる教師データのデータ数をクラス毎に集計し、集計されたデータ数と所定の基準値との差に基づいて、教師データのデータ数をクラス毎に調整するサンプリング装置が提案されている。そして、この装置は、データ数が調整された教師データに基づいて判別モデルを生成する。
【先行技術文献】
【特許文献】
【0006】
特開2021-047826号公報
特表2020-531933号公報
特開2010-204966号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
訓練データの不均衡を是正する手法には、データのラベルが属するクラス間の不均衡を是正する手法と、データを特定の属性で分類した場合のグループ間の不均衡を是正する手法とがある。訓練データ内にクラス間の不均衡とグループ間の不均衡とが混在している場合には、これらの手法を組み合わせて適用することが考えられる。しかし、これらの手法を単純に組み合わせた場合には、過剰な公平化が行われたり、偏った公平化が行われたりする場合がある。
【0008】
一つの側面として、開示の技術は、訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第1の訓練データに順に適用する複数のデータ修正処理の指定を受け付ける。また、開示の技術は、前記複数のデータ修正処理の組み合わせに基づいて、前記複数のデータ修正処理それぞれによって行われるデータの修正度合を決定する。そして、開示の技術は、前記修正度合に基づいて、前記複数のデータ修正処理を前記第1の訓練データに順に適用して修正後の第2の訓練データを生成する。
【発明の効果】
【0010】
一つの側面として、訓練データの不均衡を是正するためのデータ修正処理を組み合わせて適用する場合に、過剰な公平化又は偏った公平化を抑制することができる、という効果を有する。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
プロセッサパッケージ
3日前
富士通株式会社
変換プログラムおよび変換方法
10日前
富士通株式会社
歩容認識装置、方法及び電子機器
16日前
富士通株式会社
マルチチャネルパワープロファイル推定
9日前
富士通株式会社
評価プログラム、評価装置及び評価システム
3日前
富士通株式会社
情報処理装置、情報処理方法および情報処理プログラム
16日前
富士通株式会社
機械学習プログラム、機械学習装置及び機械学習システム
3日前
富士通株式会社
情報処理装置、情報処理方法、および情報処理プログラム
3日前
富士通株式会社
ログ情報取得プログラム、ログ情報取得方法、及び情報処理装置
3日前
富士通株式会社
ジョブ実行制御プログラム、情報処理装置及びジョブ実行制御方法
2日前
富士通株式会社
量子化学計算プログラム、量子化学計算方法、および情報処理装置
16日前
富士通株式会社
シミュレーションに用いるデータのデータ生成方法、データ生成プログラム
16日前
個人
認証システム
3日前
個人
マウス用テーブル
1か月前
個人
鑑定証明システム
3日前
アズビル株式会社
防爆装置
1か月前
個人
契約管理サーバ
1か月前
個人
人的価値発掘システム
1か月前
個人
業界地図作成システム
27日前
個人
技術マッチングシステム
9日前
株式会社宗建
SNSサーバー
1か月前
株式会社セガフェイブ
遊戯機
1か月前
キヤノン電子株式会社
情報処理装置
1か月前
株式会社ジール
文章の分析装置
1か月前
キヤノン株式会社
印刷制御装置
18日前
株式会社ネットブリッジ
展示販売装置
4日前
ミサワホーム株式会社
管理装置
1か月前
ミサワホーム株式会社
システム
1か月前
個人
選択操作音声出力システム
1か月前
個人
配送システムおよび同包箱
1か月前
オムロン株式会社
認証中継サーバ
1か月前
大同特殊鋼株式会社
棒材計数装置
1か月前
個人
動作のデザイン評価の方法及び装置
1か月前
アスエネ株式会社
森林管理の方法
1か月前
ミサワホーム株式会社
プログラム
3日前
個人
文字入力方法、文字入力プログラム
10日前
続きを見る
他の特許を見る