TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025028574
公報種別公開特許公報(A)
公開日2025-03-03
出願番号2023133478
出願日2023-08-18
発明の名称パイプライン集合生成プログラム、パイプライン集合生成方法及び情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20250221BHJP(計算;計数)
要約【課題】機械学習の自動化の利便性を向上させるパイプライン集合生成プログラム、パイプライン集合生成方法及び情報処理装置を提供する。
【解決手段】複数のタスクに基づいて、それぞれのパイプラインが機械学習モデルを含む第1のパイプライン集合を取得し、第1のパイプライン集合に含まれるそれぞれのパイプラインに複数のタスクのデータに含まれる変数の各種別に対応する特定の部品を追加することによって、第2のパイプライン集合を生成し、複数のタスクに対して、第2のパイプライン集合を実行することによって第2のパイプライン集合に含まれるそれぞれのパイプラインの評価値を取得し、評価値に基づいて第2のパイプライン集合から複数のパイプラインを選択することによって第3のパイプライン集合を生成する処理をコンピュータに実行させる処理をコンピュータに実行させる。
【選択図】図7
特許請求の範囲【請求項1】
複数のタスクに基づいて、それぞれのパイプラインが機械学習モデルを含む第1のパイプライン集合を取得し、
前記第1のパイプライン集合に含まれるそれぞれのパイプラインに前記複数のタスクのデータに含まれる変数の各種別に対応する特定の部品を追加することによって、第2のパイプライン集合を生成し、
前記複数のタスクに対して、前記第2のパイプライン集合を実行することによって前記第2のパイプライン集合に含まれるそれぞれのパイプラインの評価値を取得し、
前記評価値に基づいて前記第2のパイプライン集合から複数のパイプラインを選択することによって第3のパイプライン集合を生成する、
処理をコンピュータに実行させることを特徴とするパイプライン集合生成プログラム。
続きを表示(約 1,500 文字)【請求項2】
前記第1のパイプライン集合に含まれる部品を基に、前記特定の部品を選択する、
処理を前記コンピュータにさらに実行させることを特徴とする請求項1に記載のパイプライン集合生成プログラム。
【請求項3】
前記特定の部品の選択は、前記第1のパイプライン集合に含まれる特定のパイプラインについて、前記第1のパイプライン集合に含まれる部品のうち前記特定のパイプラインに含まれない部品を前記特定のパイプラインに対する前記特定の部品として選択する、
ことを特徴とする請求項2に記載のパイプライン集合生成プログラム。
【請求項4】
前記変数の特定の種別に対して、前記第1のパイプライン集合に含まれる部品のうち前記特定のパイプラインに含まれない部品の種類が複数存在する場合、前記第1のパイプライン集合における各前記種類の出現頻度を基に、前記変数の特定の種別に対応する前記特定の部品を選択する、
ことを特徴とする請求項3に記載のパイプライン集合生成プログラム。
【請求項5】
前記変数の特定の種別に対して、前記第1のパイプライン集合に含まれる部品のうち前記特定のパイプラインに含まれない部品の種類が複数存在する場合、前記第1のパイプライン集合において前記種類が異なる部品を置換した場合の前記第1のパイプライン集合に含まれる前記パイプラインそれぞれの前記機械学習モデルによる予測精度の劣化を基に、前記変数の特定の種別に対応する前記特定の部品を選択する、
ことを特徴とする請求項3に記載のパイプライン集合生成プログラム。
【請求項6】
前記評価値を取得する処理は、前記複数のタスクのそれぞれのタスクについて、基準のパイプラインの予測精度と前記第2のパイプライン集合に含まれるそれぞれのパイプラインの予測精度との差を前記評価値として取得する処理を含むことを特徴とする請求項1に記載のパイプライン集合生成プログラム。
【請求項7】
複数のタスクに基づいて、それぞれのパイプラインが機械学習モデルを含む第1のパイプライン集合を取得し、
前記第1のパイプライン集合に含まれるそれぞれのパイプラインに前記複数のタスクのデータに含まれる変数の各種別に対応する特定の部品を追加することによって、第2のパイプライン集合を生成し、
前記複数のタスクに対して、前記第2のパイプライン集合を実行することによって前記第2のパイプライン集合に含まれるそれぞれのパイプラインの評価値を取得し、
前記評価値に基づいて前記第2のパイプライン集合から複数のパイプラインを選択することによって第3のパイプライン集合を生成する、
処理をコンピュータに実行させることを特徴とするパイプライン集合生成方法。
【請求項8】
複数のタスクに基づいて、それぞれのパイプラインが機械学習モデルを含む第1のパイプライン集合を取得し、
前記第1のパイプライン集合に含まれるそれぞれのパイプラインに前記複数のタスクのデータに含まれる変数の各種別に対応する特定の部品を追加することによって、第2のパイプライン集合を生成し、
前記複数のタスクに対して、前記第2のパイプライン集合を実行することによって前記第2のパイプライン集合に含まれるそれぞれのパイプラインの評価値を取得し、
前記評価値に基づいて前記第2のパイプライン集合から複数のパイプラインを選択することによって第3のパイプライン集合を生成する、
処理を実行する制御部、
を備えたことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、パイプライン集合生成プログラム、パイプライン集合生成方法及び情報処理装置に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
機械学習を用いた分析では、分析するデータや目的により使用する機械学習モデルや入力するデータの形式等の機械学習アルゴリズムが異なる。また、機械学習モデルについても、ハイパーパラメータを適切にチューニングすることで予測精度を向上させることができる。このようなことから、従来、機械学習を用いた分析を行う場合、データの加工及び整形、特徴量エンジニアリング、ハイパーパラメータの最適化、並びに、機械学習モデルの設計等が機械学習の専門家の手作業により行われてきた。
【0003】
このように、機械学習を用いた分析を適切に行うためには、高度なデータサイエンスの知識や技術が求められる。そのため、一般の利用者にとって、機械学習を用いることに高いハードルが存在した。そこで、高度な技術や知識がなくても機械学習を用いた分析を可能とするAutoML(Auto Machine Learning:自動機械学習)による機械学習の自動化の研究が進められている。AutoMLは、データの加工及び整形、特徴量エンジニアリング、機械学習モデルの生成等が自動で行われる。
【0004】
データの加工及び整形、特徴量エンジニアリング及びハイパーパラメータの調整等の複数の前処理、並びに、各処理で生成されたデータ及び機械学習モデルを用いた予測を含む一連の流れの処理をまとめたものが「パイプライン」と呼ばれる。すなわち、パイプラインは、0個以上の前処理の後に学習器を用いた予測処理がおこなわれる一連の処理を表す。パイプラインには、各処理におけるハイパーパラメータが含まれる。
【0005】
また、データセットに目的変数の指定や評価指標の指定等を加えた予測対象とする情報が「タスク」と呼ばれる。すなわち、AutoMLは、特定のタスクにおいて、好適なパイプラインを決定することが要求される。ただし、ここでの好適なパイプラインとは、予測精度が許容範囲に収まるパイプラインであり、最適なパイプラインでない場合もある。
【0006】
そして、AutoMLでは、多くのタスクに対してある程度の予測精度を有するロバストな少数のパイプラインの集合を保持しておくことで、特定のタスクに対する適切なパイプラインの決定を迅速に行うことができるようになる。そのため、多くのタスクにおいてある程度の予測精度を有するロバストな少数のパイプラインの集合を選択候補となるパイプラインとして保持することが、AutoMLにおいて素早く挙用範囲に収まる予測性能を実現するための有望な方法といえる。
【0007】
このような、選択候補となるパイプラインの集合を保持する技術として、多数のタスクに対してAutoMLを実行し、AutoMLが選択した各タスクに対する好適なパイプラインの中からその部分集合であるパイプライン集合を選択する技術が存在する。
【0008】
他にも、パイプライン選択の技術として以下のような技術が存在する。例えば、新たなデータセットに対して、複数データセットをクラスタ化した各クラスにおける代表データセットを基にパイプラインを選択し、選択したパイプラインのパフォーマンスを示すレーティング値を基にパイプライン集合を決定する技術が提案されている。また、所定データに適したパイプライン集合を決定し、所定データの前処理済みデータセットを生成して性能を基に選択されたハイパーパラメータセット及びパイプラインを適用して得られるスコアに基づいてパイプライン集合を生成する技術が提案されている。また、ユーザー指定の指標又はその組み合わせに基づいて、サロゲートモデルを用いてパイプラインの価格を決定するためのランク付けを各パイプラインについて行い、ランクにしたがって各パイプラインの価格を決定する技術が提案されている。また、既存の機械学習プロジェクトから抽出した第1特徴を用いて第1のランク付けセットを生成し、第1特徴に基づいて生成した第2特徴を用いて第2のランク付けセットを生成し、最高ランクの第2のランク付けセットを選択する技術が提案されている。また、機械学習モデルの訓練中に構築された特徴構築パイプラインから展開に最適化された特徴構築パイプラインを生成し、データ変換演算子の遅延要件を評価して、遅延の影響評価に基づき最適化された特徴構築パイプラインを作成する技術が提案されている。
【先行技術文献】
【特許文献】
【0009】
特開2022-87842号公報
米国特許出願公開第2022/0051049号明細書
米国特許出願公開第2022/0207444号明細書
特開2022-44016号公報
特開2022-159132号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、あるタスクに対してAutoMLにより生成されたパイプラインは、他のタスクに対する処理を正常に実行するための前処理部品が含まれていない場合が存在する。適切な前処理部品が含まれていないパイプラインは、各タスクに対する好適なパイプラインの中からその部分集合であるパイプライン集合を選択する技術では、他のタスクの実行が困難なことから除外される場合がある。ただし、実際には、そのような他のタスクに対する適切な前処理部品が含まれていないパイプラインであっても、ロバストなパイプラインとして考慮することが好ましい場合がある。そのため、各タスクに対する好適なパイプラインの集合の部分集合として得られるパイプライン集合は、十分にロバストであるとは限らない。したがって、機械学習の自動化の利便性を向上させることは困難である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
予測
18日前
富士通株式会社
プロセッサ
25日前
富士通株式会社
グラフ表現
5日前
富士通株式会社
シーン検出
18日前
富士通株式会社
画像符号化
5日前
富士通株式会社
金融システム
1か月前
富士通株式会社
異常な挙動の検出
26日前
富士通株式会社
冷却部品、及び冷却装置
12日前
富士通株式会社
基地局装置及び通信方法
1か月前
富士通株式会社
キュービット・マッピング
1か月前
富士通株式会社
キュービット・ルーティング
1か月前
富士通株式会社
制御装置及び制御プログラム
1か月前
富士通株式会社
画像視角変化類型検出装置と方法
26日前
富士通株式会社
通信制御装置及び基地局制御方法
4日前
富士通株式会社
異常検知装置および異常検知方法
25日前
富士通株式会社
機械学習方法および情報処理装置
26日前
富士通株式会社
情報処理装置及びデータ転送制御方法
1か月前
富士通株式会社
能動学習プログラム、方法、及び装置
11日前
富士通株式会社
ネットワーク装置及びモデル学習方法
5日前
富士通株式会社
ネットワーク装置及びモデル学習方法
25日前
富士通株式会社
疾患予測根拠表示方法及びプログラム
1か月前
富士通株式会社
連携装置、連携方法、連携プログラム
1か月前
富士通株式会社
歪み補正係数算出方法およびプログラム
1か月前
富士通株式会社
作業割当方法および作業割当プログラム
1か月前
富士通株式会社
病変検出方法および病変検出プログラム
1か月前
富士通株式会社
光伝送装置および送信光パワー制御方法
19日前
富士通株式会社
サーバ監視システムおよびサーバ監視方法
11日前
富士通株式会社
コンパイルプログラム及びコンパイル方法
1か月前
富士通株式会社
データ連携方法及びデータ連携プログラム
1か月前
富士通株式会社
モジュール搭載装置、及び、情報処理装置
1か月前
富士通株式会社
支援プログラム、支援方法及び情報処理装置
25日前
富士通株式会社
評価プログラム、評価方法および情報処理装置
18日前
富士通株式会社
推定プログラム、推定方法、及び情報処理装置
25日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
18日前
富士通株式会社
制御プログラム、制御方法および制御システム
1か月前
富士通株式会社
予測プログラム、予測方法、および情報処理装置
4日前
続きを見る