特許ウォッチ

公開番号2025018352
公報種別公開特許公報(A)
公開日2025-02-06
出願番号2023121969
出願日2023-07-26
発明の名称機械学習パイプライン部品判定プログラム、方法、及び装置
出願人富士通株式会社
代理人弁理士法人太陽国際特許事務所
主分類G06N 20/00 20190101AFI20250130BHJP(計算;計数)
要約【課題】自動機械学習の探索範囲への新たな部品の追加可否の判定のための計算コストを低減する。
【解決手段】機械学習パイプライン部品判定装置は、第1の部品の種別を取得し、複数の部品からタスクに応じて選択された部品を含む機械学習パイプラインを生成するプログラムが、複数のデータセットに対して出力した複数の機械学習パイプラインのうち、第1の部品の種別と同じ種別の部品を含む第1の一又は複数の機械学習パイプラインを特定し、第1の一又は複数の機械学習パイプラインのそれぞれについて、同じ種別の部品を第1の部品に変更した第2の一又は複数の機械学習パイプラインを生成し、第1の一又は複数の機械学習パイプラインのそれぞれの性能と第2の一又は複数の機械学習パイプラインのそれぞれの性能を比較した結果に基づいて、第1の部品を複数の部品に追加するか否かを判定する。
【選択図】図10
特許請求の範囲【請求項１】
第１の部品の種別を取得し、
複数の部品からタスクに応じて選択された部品を含む機械学習パイプラインを生成するプログラムが、複数のデータセットに対して出力した複数の機械学習パイプラインのうち、前記第１の部品の種別と同じ種別の部品を含む第１の一又は複数の機械学習パイプラインを特定し、
前記第１の一又は複数の機械学習パイプラインのそれぞれについて、前記同じ種別の部品を前記第１の部品に変更した第２の一又は複数の機械学習パイプラインを生成し、
前記第１の一又は複数の機械学習パイプラインのそれぞれの性能と前記第２の一又は複数の機械学習パイプラインのそれぞれの性能を比較した結果に基づいて、前記第１の部品を前記複数の部品に追加するか否かを判定する、
処理をコンピュータに実行させることを特徴とする機械学習パイプライン部品判定プログラム。
続きを表示（約 1,300 文字）【請求項２】
第１の部品の種別を取得することは、前記複数の部品を複数の種別に分類し、前記複数の種別のいずれかに前記第１の部品を分類することにより取得することを含む、
ことを特徴とする請求項１に記載の機械学習パイプライン部品判定プログラム。
【請求項３】
前記複数の部品のそれぞれの特徴と、前記部品が分類された種別とを対応付けた訓練データを用いて、部品の特徴が入力された場合に、前記部品の種別を出力するように訓練された機械学習モデルに、前記第１の部品の特徴を入力して、前記第１の部品の種別を取得する、
ことを特徴とする請求項２に記載の機械学習パイプライン部品判定プログラム。
【請求項４】
前記部品は、データセットに対する前処理を実行する部品であり、
前記特徴として、前記部品を前記データセットに対して適用した場合の前記データセットの変化を用いる、
ことを特徴とする請求項３に記載の機械学習パイプライン部品判定プログラム。
【請求項５】
前記複数の機械学習パイプラインは、前記複数のデータセットのそれぞれに対して最も性能が高い機械学習パイプラインである、
ことを特徴とする請求項１～請求項４のいずれか１項に記載の機械学習パイプライン部品判定プログラム。
【請求項６】
第１の部品の種別を取得し、
複数の部品からタスクに応じて選択された部品を含む機械学習パイプラインを生成するプログラムが、複数のデータセットに対して出力した複数の機械学習パイプラインのうち、前記第１の部品の種別と同じ種別の部品を含む第１の一又は複数の機械学習パイプラインを特定し、
前記第１の一又は複数の機械学習パイプラインのそれぞれについて、前記同じ種別の部品を前記第１の部品に変更した第２の一又は複数の機械学習パイプラインを生成し、
前記第１の一又は複数の機械学習パイプラインのそれぞれの性能と前記第２の一又は複数の機械学習パイプラインのそれぞれの性能を比較した結果に基づいて、前記第１の部品を前記複数の部品に追加するか否かを判定する、
処理をコンピュータが実行することを特徴とする機械学習パイプライン部品判定方法。
【請求項７】
第１の部品の種別を取得し、
複数の部品からタスクに応じて選択された部品を含む機械学習パイプラインを生成するプログラムが、複数のデータセットに対して出力した複数の機械学習パイプラインのうち、前記第１の部品の種別と同じ種別の部品を含む第１の一又は複数の機械学習パイプラインを特定し、
前記第１の一又は複数の機械学習パイプラインのそれぞれについて、前記同じ種別の部品を前記第１の部品に変更した第２の一又は複数の機械学習パイプラインを生成し、
前記第１の一又は複数の機械学習パイプラインのそれぞれの性能と前記第２の一又は複数の機械学習パイプラインのそれぞれの性能を比較した結果に基づいて、前記第１の部品を前記複数の部品に追加するか否かを判定する、
処理を実行する制御部を有することを特徴とする機械学習パイプライン部品判定装置。

発明の詳細な説明【技術分野】
【０００１】
開示の技術は、機械学習パイプライン部品判定プログラム、機械学習パイプライン部品判定方法、及び機械学習パイプライン部品判定装置に関する。
続きを表示（約 2,200 文字）【背景技術】
【０００２】
自動機械学習（ＡｕｔｏＭＬ：Automated Machine Learning）は、データに対する前処理を実行する部品、推論を実行する部品（機械学習モデル）等の複数の部品を探索して、タスクを実行するための最適な機械学習パイプライン（以下、単に「パイプライン」ともいう）を自動生成する。
【０００３】
ＡｕｔｏＭＬに関する技術として、例えば、組織のトランザクションデータの事前の詳細な知識を必要としない、支出データをカテゴリ化する方法が提案されている。この方法は、クリーンデータセット（ＣＤＳ）を生成するために、トランザクションデータからテキストデータに自然言語処理を適用する。トランザクションについてのログは、類似度に基づいてクラスタリングされ、最小データセット（ＭＤＳ）を形成する。サブセットの各クラスタからログを手動でカテゴリ化するようにユーザに要求することによって高値クラスタのサブセットを選択する。次いで、手動でカテゴリ化されたクラスタのサブセットを使用してモデルが訓練され、残りのログについての支出カテゴリを高精度で予測するために使用される。ＡＩエンジンは、クライアントコンテキストに基づいて予測を自動的に分析し、機械学習モデルを自動調整するか、手動でカテゴリ化されるクラスタの新しいサブセットを識別する。
【０００４】
また、例えば、統合分類器における分類器の作成を効率化するデータ分類システムが提案されている。このシステムは、複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を、学習データとして格納する。また、このシステムは、学習データにおけるラベル無しのデータセット各々について、特徴量と、分類器各々による分類結果から学習した統合分類器が出力する分類確率とに基づき、１つのデータセットに対して複数ラベルが未分類とされる同時未分類率を算定する。また、このシステムは、１つのデータセットに対して複数ラベルが分類される同時分類確率を算定する。そして、このシステムは、同時未分類率と同時分類確率との乗算値をラベル毎に集計して推薦スコアを算定し、分類器を追加作成するべきラベルとして推薦スコアの高い順にラベルを特定し、推薦情報として出力する。
【０００５】
また、例えば、機械学習モデル及び特徴エンジニアリングプロセスに適したハイパーパラメータを決定するシステムが提案されている。このシステムでは、適切な機械学習モデル及び関連するハイパーパラメータは、データセットを分析することにより決定される。また、このシステムは、共通の一つ以上のハイパーパラメータ及び互換性のあるデータセットスキーマを有する互換性のある機械学習モデルに適したハイパーパラメータ値が識別される。ハイパーパラメータは、モデル性能測定基準に対するそれぞれの影響の各々に従ってランク付けされてもよく、またより大きい影響を有するとして識別されたハイパーパラメータ値がより積極的に検索されてもよい。
【０００６】
また、例えば、データベースサーバにおいて複数のフィールドから予測フィールドの選択を受信し、データベースサーバによってデータセットから複数の特徴を生成する予測機械学習モデルを生成する方法が提案されている。ここで、複数の特徴は、データセットに関連付けられたメタデータの少なくとも一部に基づいて自動的に生成される。また、この方法は、データベースサーバによって、複数の特徴の少なくとも一部に基づいて、予測機械学習モデルを生成し、予測機械学習モデルの少なくとも一部に基づいて、予測フィールドの複数の予測値の表示を送信する。
【先行技術文献】
【特許文献】
【０００７】
特開２０２０－１１５３４６号公報
特開２０２０－００８９９２号公報
米国特許出願公開第２０２０／００５７９５８号明細書
米国特許出願公開第２０１９／０１３８９４６号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００８】
ＡｕｔｏＭＬでは、部品の集合である探索範囲にどのような部品を含むかが重要である。既存の探索範囲に含まれない新しい部品ができた場合、その部品を探索範囲に追加すべきか否かを判定する必要がある。例えば、既存の探索範囲に含まれる部品で可能な処理しかできない部品であれば探索範囲に追加する必要はない。このような新しい部品の探索範囲への追加可否の判定を自動的に行えることが望ましい。
【０００９】
そこで、多数のデータセットに対し、対象部品を追加する前の探索範囲と追加した後の探索範囲とに対してＡｕｔｏＭＬを実行し、対象部品の追加前後で生成されるパイプラインの性能が向上するか否かにより対象部品の追加の可否を判定することが考えられる。
【００１０】
しかし、対象部品を追加する前後の探索範囲に含まれる複数の部品の全ての組み合わせに対してＡｕｔｏＭＬを実行して生成されるパイプラインについて性能を評価することは、計算コストが非常に高くなる。
（【００１１】以降は省略されています）

関連特許