特許ウォッチ

公開番号2024152651
公報種別公開特許公報(A)
公開日2024-10-25
出願番号2024060063
出願日2024-04-03
発明の名称カスタム特徴エンジニアリングを使用した機械学習システムのトレーニング
出願人富士通株式会社
代理人個人,個人
主分類G06N 20/00 20190101AFI20241018BHJP(計算;計数)
要約【課題】カスタム特徴エンジニアリングを使用した機械学習モデルをトレーニングするシステム及び記憶媒体を提供する。
【解決手段】システムは、データセットを取得することを含む一つまたは複数の動作を実行する一つまたは複数のプロセッサを含む。前記動作は、取得したデータセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングし、データセット内のデータサブセットから値およびタイトルを抽出し、前記タイトル、前記値および/またはターゲット変数に基づいて質問を決定し、前記質問を言語モデルに送ってベクトルを取得し、前記データを使用して実行できる動作を、前記ベクトルに基づいて決定し、ターゲット変数に関係するデータを合成し、合成したデータを、データセット内の一つまたは複数のデータサブセットに追加し、データセットを使用して機械学習パイプラインを修正する。
【選択図】図4
特許請求の範囲【請求項１】
一つまたは複数のプロセッサと；
命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体と
を有するシステムであって、前記命令は、実行されることに応答して、当該システムに動作を実行させるものであり、前記動作は：
複数のデータサブセットを含むデータセットを取得する段階と；
一つまたは複数の質問回答対を使用して、取得されたデータセット内のデータサブセット内のデータ間の関係を決定するよう言語モデルをトレーニングする段階と；
前記データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出する段階と；
前記タイトル、前記値、および前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定する段階と；
前記質問を前記言語モデルに送ってベクトルを取得する段階であって、前記ベクトルは複数の回答を含む、段階と；
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して実行すべき動作を、前記ベクトルに基づいて決定する段階と；
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成する段階と；
合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加する段階と；
前記データセットを使用して機械学習パイプラインを修正する段階とを含み、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、前記データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されている、
システム。
続きを表示（約 1,500 文字）【請求項２】
前記一つまたは複数の質問回答対は：
前記データセット内のデータサブセットの間の情報に対応する複数の意味的類似性分布を生成する段階と；
前記複数の意味的類似性分布が閾値を満たすことに基づいて、前記データセット内の前記データサブセットについての一つまたは複数のドメインを決定する段階と；
前記一つまたは複数のドメインに対応する一つまたは複数の質問回答対を生成する段階であって、前記質問回答対における質問は、同じドメインをもつデータサブセットを比較する、段階と
を実行することによって生成される、請求項１に記載のシステム。
【請求項３】
前記一つまたは複数の新しいデータサブセットは、前記質問に対する前記回答の信頼度が閾値を満たすことに基づいて合成される、請求項１に記載のシステム。
【請求項４】
前記決定された動作は、一つまたは複数のグルーピング演算を含み、前記グルーピング演算は、前記少なくとも2つのデータサブセットから組み合わされたデータを解析するように構成される、請求項１に記載のシステム。
【請求項５】
前記グルーピング演算は、最大、最小、スキュー、平均、総和、標準偏差、一意的な値、または最も一般的な値のうちの一つまたは複数を含む、請求項４に記載のシステム。
【請求項６】
前記決定された動作は、前記データセット内の前記2つのデータサブセットにおける前記値に対して実行されると、前記データセットに対応する新しいデータを生成する一つまたは複数の数学的演算を含む、請求項１に記載のシステム。
【請求項７】
前記一つまたは複数の数学的演算は、減算、加算、乗算、または除算のうちの一つまたは複数を含む、請求項６に記載のシステム。
【請求項８】
前記複数の回答のそれぞれは確率分布を含み、前記複数の回答はイエスまたはノーのいずれかであり、前記確率分布は、前記イエスまたは前記ノーのどちらが前記決定された質問に対する正しい回答であるかどうかを示す、請求項１に記載のシステム。
【請求項９】
前記複数の回答のそれぞれは確率分布を含み、前記確率分布は、前記複数の回答のうちの一つまたは複数が肯定的であるか否定的であるかを示す感情解析を含む、請求項１に記載のシステム。
【請求項１０】
前記追加された合成データを含む前記データセットは第2のデータセットであり、前記追加された合成データを含まない前記データセットは第1のデータセットであり、前記動作は：
前記第2のデータセットにおけるデータサブセットの複数の対に含まれるデータに対応する複数の比較スコアを生成する段階であって、前記複数の比較スコアは、前記第2のデータセットにおけるデータサブセットの前記複数の対のうちのあるデータサブセットに含まれるデータと別のデータサブセットに含まれるデータとの間の類似性分布の重なりを反映する、段階と；
前記複数の比較スコアのうちの一つまたは複数の対応する比較スコアが閾値を満たさないことに基づいて、前記第2のデータセットから、データサブセットの一つまたは複数の対をフィルタ除去する段階と；
前記第2のデータセットからフィルタ除去され、前記第1のデータセットに存在していた一つまたは複数のデータサブセットを復元することによって第3のデータセットを生成する段階と；
前記第3のデータセットを使用して一つまたは複数の機械学習モデルをトレーニングする段階とをさらに含む、
請求項１に記載のシステム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示で説明される実施形態は、カスタム特徴エンジニアリングを使用して機械学習システムをトレーニングすることに関する。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
機械学習システムは、金融技術、電子商取引、ソーシャルメディア、ゲーム、顔認識、および／または自律運転を含むが、これらに限定されない多くの技術分野で使用されうる。これらの機械学習システムは、システムが異なる状況のセットを学習し、それに適応することを許容しうる入力を受信することが可能でありうる。多くの場合、機械学習システムが受信することが可能でありうる入力は、データの一つまたは複数のセットでありうる。
【０００３】
本開示において請求される主題は、何らかの欠点を解決するか、または上記のような環境でのみ動作する実施形態に限定されない。むしろこの背景は、本開示に記載されるいくつかの実施形態が実施されうる1つの例示的な技術領域を示すために提供されているだけである。
【発明の概要】
【課題を解決するための手段】
【０００４】
ある例示的な実施形態では、システムは、一つまたは複数のプロセッサと、実行されることに応答して、システムに一つまたは複数の動作を実行させうる命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体とを含んでいてもよく、前記動作は、一つまたは複数のデータサブセットを含むデータセットを取得することを含みうる。前記動作は、一つまたは複数の質問回答対を使用して、データセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングすることをさらに含みうる。さらなる動作は、データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出し、前記タイトル、前記値、および／または前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定することを含みうる。いくつかの実施形態では、前記動作は、前記質問を言語モデルに送ってベクトルを取得することをさらに含んでいてもよく、ベクトルは一つまたは複数の回答を含んでいてもよい。
【０００５】
さらに、前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して実行されうる動作を、前記ベクトルに基づいて決定することを含みうる。前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成することをさらに含みうる。いくつかの実施形態では、前記動作は、合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加することをさらに含みうる。前記動作は、データセットを使用して機械学習パイプラインを修正することをさらに含んでいてもよく、いくつかの実施形態では、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されうる。
【０００６】
実施形態の目的および利点は、少なくとも、特許請求の範囲において特に指摘される要素、特徴、および組み合わせによって実現され、達成される。
【０００７】
上記の一般的な説明および以下の詳細な説明は、例として与えられ、説明的であり、特許請求される本発明を限定するものではない。
【図面の簡単な説明】
【０００８】
例示的な実施形態が、添付の図面の使用を通じて、さらなる具体性および詳細さをもって記載され、説明される。
【０００９】
向上されたデータセットを使用して一つまたは複数の機械学習システムをトレーニングするための例示的な環境を示す図である。
【００１０】
一つまたは複数の言語モデルをトレーニングするための例示的な環境を示す図である。
（【００１１】以降は省略されています）

関連特許