TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024066748
公報種別公開特許公報(A)
公開日2024-05-16
出願番号2022176403
出願日2022-11-02
発明の名称機械学習プログラム、機械学習方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240509BHJP(計算;計数)
要約【課題】機械学習モデルの精度劣化を抑制することを課題とする。
【解決手段】情報処理装置は、元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、射影空間内における、第1のクラスの領域内に位置し且つ第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、第1のクラスの領域内に位置し且つ第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、データ拡張後の各データが射影空間内で互いに重なる場合に、第1のデータをデータ拡張した第1の拡張データと、第2のデータと、第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに第1のクラスに対応するラベルを設定する。
【選択図】図8
特許請求の範囲【請求項1】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータに実行させる機械学習プログラム。
続きを表示(約 1,500 文字)【請求項2】
前記設定する処理により前記ラベルが設定された前記1つのデータを機械学習モデルの説明変数とし、前記設定する処理により設定されたラベルを前記機械学習モデルの目的変数とする機械学習を実行する処理を前記コンピュータにさらに実行させる、
ことを特徴とする請求項1に記載の機械学習プログラム。
【請求項3】
前記元のデータは、画像データである、
ことを特徴とする請求項1に記載の機械学習プログラム。
【請求項4】
前記データ拡張する処理は、前記第1のデータまたは前記第2のデータに対応する画像データにTTA(Test Time Augmentation)を適用する、
ことを特徴とする請求項3に記載の機械学習プログラム。
【請求項5】
前記データ拡張する処理は、前記第1のデータまたは前記第2のデータに対応する画像データにフリッピング、ガウシアンノイズ、拡大、あるいは縮小のいずれかの加工を実行することにより前記第1の拡張データまたは前記第2の拡張データを生成する、
ことを特徴とする請求項3に記載の機械学習プログラム。
【請求項6】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置するデータをデータ拡張し、
データ拡張後のデータの前記射影空間上の位置が前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する場合に、前記データと、前記データをデータ拡張した拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータに実行させる機械学習プログラム。
【請求項7】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータが実行する機械学習方法。
【請求項8】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理を実行する制御部を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、機械学習プログラム等に関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
データの識別や分類などを行う機械学習モデルが利用されている。機械学習モデルの運用では、時間経過に伴い、機械学習に使用した正解ラベル付きの訓練データとはデータの分布や性質などが徐々に異なってくる「コンセプトドリフト」が発生することがある。機械学習モデルは、訓練データの通りに識別や分類を行うので、コンセプトドリフトにより運用中に入力データの傾向(データ分布)が変化すると、精度が劣化する。
【0003】
このようなコンセプトドリフトに対応する技術の1つとして、運用時に入力される運用データに応じて機械学習モデルの精度劣化を自動的に修復する自動修復技術が提案されている。例えば、運用時に入力された運用データは、データ空間に表現される。データ空間に表現された運用データは、機械学習モデルにより決定境界と呼ばれる境界線で分離される。次に、データ空間に表された運用データは、データ分布の特徴をデータ群として表現した数理的空間である特徴量空間に射影される。このように特徴量空間へ射影された運用データには、密度ベースクラスタリングが実行される。これにより、機械学習モデルが出力するクラスと同一のクラスに属する運用データにより形成されるデータ群のうち、運用データが密である高密度領域に位置する運用データの集合がクラスタとして抽出される。さらに、クラスタとして抽出された運用データの集合を再訓練データセットとし、各運用データには、クラスタに対応するクラスが疑似的な正解ラベルとして付与される。このように疑似ラベルが付与された再訓練データセットを用いて再訓練が実行されることにより、正解ラベルの設定作業を不要化しつつ、機械学習モデルの精度劣化に対する自動修復が実現される。
【先行技術文献】
【特許文献】
【0004】
特開2020-52783号公報
特開2013-246478号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の自動修復技術では、機械学習モデルの再訓練に用いられるクラスタの高密度領域が小さい場合、再訓練データの数が不足するので、機械学習モデルの精度劣化を抑制することが難しい。
【0006】
1つの側面では、機械学習モデルの精度劣化を抑制することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
第1の案では、機械学習プログラムは、元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
一実施形態によれば、機械学習モデルの精度劣化を抑制することができる。
【図面の簡単な説明】
【0009】
図1は、実施例1にかかる機械学習モデルを説明する図である。
図2は、機械学習モデルの出力結果のモニタリングを説明する図である。
図3は、コンセプトドリフトを説明する図である。
図4は、自動修復技術を説明する図である。
図5は、データ分布の例を説明する図である。
図6は、データ拡張の一例を説明する図である。
図7は、ラベルの伝播を説明する図である。
図8は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
図9は、訓練データDBに記憶される訓練データの例を示す図である。
図10は、出力結果DBに記憶される情報の例を示す図である。
図11は、訓練データDBに記憶される訓練データの例を示す図である。
図12は、実施例1にかかる自動修復処理の流れを示すフローチャートである。
図13は、運用データの変化の一例を示す模式図である。
図14は、効果の一側面を説明する図である。
図15は、ハードウェア構成例を説明する図である。
【発明を実施するための形態】
【0010】
以下に、本発明にかかる機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
アバター制御
23日前
富士通株式会社
画像処理方法
4日前
富士通株式会社
基板連結構造
19日前
富士通株式会社
光信号パワー利得
15日前
富士通株式会社
キャッシュメモリ
1か月前
富士通株式会社
増幅装置及び増幅方法
5日前
富士通株式会社
演算装置および演算方法
9日前
富士通株式会社
物体検出システム及び方法
10日前
富士通株式会社
演算回路及び演算処理方法
5日前
富士通株式会社
電子装置及び改竄検知方法
2日前
富士通株式会社
生成プログラムおよび生成方法
29日前
富士通株式会社
情報処理装置および情報処理方法
26日前
富士通株式会社
光伝送システムでの異常の位置特定
22日前
富士通株式会社
半導体装置及び半導体装置の製造方法
19日前
富士通株式会社
移相量調整装置、及び、移相量調整方法
12日前
富士通株式会社
病変検出方法および病変検出プログラム
5日前
富士通株式会社
情報処理方法および情報処理プログラム
4日前
富士通株式会社
スイッチング電源、増幅装置及び通信装置
4日前
富士通株式会社
自動化されたカスタム特徴エンジニアリング
19日前
富士通株式会社
制御プログラム,制御方法及び情報処理装置
1か月前
富士通株式会社
3次元人体動的着装モデル推定装置及び方法
23日前
富士通株式会社
クエリ実行方法およびクエリ実行プログラム
12日前
富士通株式会社
車両経路選択問題及びその変形例の経路生成
2日前
富士通株式会社
物品数量を検出する装置と方法及び電子機器
9日前
富士通株式会社
物品数量を検出する装置と方法及び電子機器
9日前
富士通株式会社
働きかけ表示方法、働きかけ表示プログラム
5日前
富士通株式会社
予測プログラム、情報処理装置および予測方法
29日前
富士通株式会社
探索プログラム、探索システム、及び探索方法
29日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
29日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
29日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
5日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
8日前
富士通株式会社
光ノード装置、光通信システム、及び波長変換回路
5日前
富士通株式会社
カスタム特徴量エンジニアリングのための単位予測
18日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
9日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
29日前
続きを見る