TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024066748
公報種別公開特許公報(A)
公開日2024-05-16
出願番号2022176403
出願日2022-11-02
発明の名称機械学習プログラム、機械学習方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240509BHJP(計算;計数)
要約【課題】機械学習モデルの精度劣化を抑制することを課題とする。
【解決手段】情報処理装置は、元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、射影空間内における、第1のクラスの領域内に位置し且つ第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、第1のクラスの領域内に位置し且つ第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、データ拡張後の各データが射影空間内で互いに重なる場合に、第1のデータをデータ拡張した第1の拡張データと、第2のデータと、第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに第1のクラスに対応するラベルを設定する。
【選択図】図8
特許請求の範囲【請求項1】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータに実行させる機械学習プログラム。
続きを表示(約 1,500 文字)【請求項2】
前記設定する処理により前記ラベルが設定された前記1つのデータを機械学習モデルの説明変数とし、前記設定する処理により設定されたラベルを前記機械学習モデルの目的変数とする機械学習を実行する処理を前記コンピュータにさらに実行させる、
ことを特徴とする請求項1に記載の機械学習プログラム。
【請求項3】
前記元のデータは、画像データである、
ことを特徴とする請求項1に記載の機械学習プログラム。
【請求項4】
前記データ拡張する処理は、前記第1のデータまたは前記第2のデータに対応する画像データにTTA(Test Time Augmentation)を適用する、
ことを特徴とする請求項3に記載の機械学習プログラム。
【請求項5】
前記データ拡張する処理は、前記第1のデータまたは前記第2のデータに対応する画像データにフリッピング、ガウシアンノイズ、拡大、あるいは縮小のいずれかの加工を実行することにより前記第1の拡張データまたは前記第2の拡張データを生成する、
ことを特徴とする請求項3に記載の機械学習プログラム。
【請求項6】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置するデータをデータ拡張し、
データ拡張後のデータの前記射影空間上の位置が前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する場合に、前記データと、前記データをデータ拡張した拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータに実行させる機械学習プログラム。
【請求項7】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理をコンピュータが実行する機械学習方法。
【請求項8】
元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、
前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、
データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、
処理を実行する制御部を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、機械学習プログラム等に関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
データの識別や分類などを行う機械学習モデルが利用されている。機械学習モデルの運用では、時間経過に伴い、機械学習に使用した正解ラベル付きの訓練データとはデータの分布や性質などが徐々に異なってくる「コンセプトドリフト」が発生することがある。機械学習モデルは、訓練データの通りに識別や分類を行うので、コンセプトドリフトにより運用中に入力データの傾向(データ分布)が変化すると、精度が劣化する。
【0003】
このようなコンセプトドリフトに対応する技術の1つとして、運用時に入力される運用データに応じて機械学習モデルの精度劣化を自動的に修復する自動修復技術が提案されている。例えば、運用時に入力された運用データは、データ空間に表現される。データ空間に表現された運用データは、機械学習モデルにより決定境界と呼ばれる境界線で分離される。次に、データ空間に表された運用データは、データ分布の特徴をデータ群として表現した数理的空間である特徴量空間に射影される。このように特徴量空間へ射影された運用データには、密度ベースクラスタリングが実行される。これにより、機械学習モデルが出力するクラスと同一のクラスに属する運用データにより形成されるデータ群のうち、運用データが密である高密度領域に位置する運用データの集合がクラスタとして抽出される。さらに、クラスタとして抽出された運用データの集合を再訓練データセットとし、各運用データには、クラスタに対応するクラスが疑似的な正解ラベルとして付与される。このように疑似ラベルが付与された再訓練データセットを用いて再訓練が実行されることにより、正解ラベルの設定作業を不要化しつつ、機械学習モデルの精度劣化に対する自動修復が実現される。
【先行技術文献】
【特許文献】
【0004】
特開2020-52783号公報
特開2013-246478号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の自動修復技術では、機械学習モデルの再訓練に用いられるクラスタの高密度領域が小さい場合、再訓練データの数が不足するので、機械学習モデルの精度劣化を抑制することが難しい。
【0006】
1つの側面では、機械学習モデルの精度劣化を抑制することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
第1の案では、機械学習プログラムは、元のデータを射影した射影空間におけるデータの密度に基づきデータを複数のクラスに分類し、前記射影空間内における、第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも高く存在する領域内に位置する第1のデータと、前記第1のクラスの領域内に位置し且つ前記第1のクラスに属するデータが所定の密度よりも低く存在する領域内に位置する第2のデータとをそれぞれデータ拡張し、データ拡張後の各データが前記射影空間内で互いに重なる場合に、前記第1のデータをデータ拡張した第1の拡張データと、前記第2のデータと、前記第2のデータをデータ拡張した第2の拡張データとのうち少なくとも1つのデータに前記第1のクラスに対応するラベルを設定する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
一実施形態によれば、機械学習モデルの精度劣化を抑制することができる。
【図面の簡単な説明】
【0009】
図1は、実施例1にかかる機械学習モデルを説明する図である。
図2は、機械学習モデルの出力結果のモニタリングを説明する図である。
図3は、コンセプトドリフトを説明する図である。
図4は、自動修復技術を説明する図である。
図5は、データ分布の例を説明する図である。
図6は、データ拡張の一例を説明する図である。
図7は、ラベルの伝播を説明する図である。
図8は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
図9は、訓練データDBに記憶される訓練データの例を示す図である。
図10は、出力結果DBに記憶される情報の例を示す図である。
図11は、訓練データDBに記憶される訓練データの例を示す図である。
図12は、実施例1にかかる自動修復処理の流れを示すフローチャートである。
図13は、運用データの変化の一例を示す模式図である。
図14は、効果の一側面を説明する図である。
図15は、ハードウェア構成例を説明する図である。
【発明を実施するための形態】
【0010】
以下に、本発明にかかる機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
算出方法及び算出プログラム
3日前
富士通株式会社
画像識別方法および画像識別プログラム
3日前
富士通株式会社
設定プログラム、設定方法および情報処理装置
1日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
1日前
富士通株式会社
パターン抽出方法及びパターン抽出プログラム
1日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
2日前
富士通株式会社
判定プログラム、判定方法および情報処理装置
3日前
富士通株式会社
評価プログラム、評価方法および情報処理装置
4日前
富士通株式会社
検出プログラム、検出方法および情報処理装置
4日前
富士通株式会社
移動時間予測方法および移動時間予測プログラム
1日前
富士通株式会社
パイプライン数縮退コンパイラおよびパイプライン数縮退方法
1日前
富士通株式会社
Spawn制御プログラム、Spawn制御方法、および情報処理装置
1日前
富士通株式会社
通信装置及び通信システム
3日前
富士通株式会社
タスクスケジューリング支援方法及びタスクスケジューリング支援プログラム
1日前
富士通株式会社
デジタルツイン管理プログラム、デジタルツイン管理方法およびデジタルツイン管理装置
1日前
個人
情報検索装置
17日前
個人
ノートPC寝台
19日前
個人
ドットパターン
16日前
個人
電子文書の閲覧用電子機器
23日前
個人
モノ造りプロトコルレイヤー
8日前
キヤノン電子株式会社
携帯情報端末
18日前
個人
施術スタッフ育成システム
24日前
大和製衡株式会社
組合せ計数装置
19日前
ブラザー工業株式会社
印刷制御装置
19日前
株式会社SUBARU
画像処理装置
24日前
株式会社COLORS
表示制御装置
4日前
学校法人修道学園
農地集約システム
1か月前
有限会社カツミ工業
管理装置
19日前
株式会社広島銀行
本人確認システム
18日前
株式会社SUBARU
操作制御装置
1か月前
株式会社ゼロワン
ケア支援システム
18日前
トヨタ自動車株式会社
図面表示装置
1日前
株式会社ゼロワン
ケア支援システム
18日前
三菱電機株式会社
情報検索装置
9日前
旭精工株式会社
管理装置および管理システム
1か月前
geeva株式会社
ギフト贈呈システム
3日前
続きを見る