TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024152651
公報種別公開特許公報(A)
公開日2024-10-25
出願番号2024060063
出願日2024-04-03
発明の名称カスタム特徴エンジニアリングを使用した機械学習システムのトレーニング
出願人富士通株式会社
代理人個人,個人
主分類G06N 20/00 20190101AFI20241018BHJP(計算;計数)
要約【課題】カスタム特徴エンジニアリングを使用した機械学習モデルをトレーニングするシステム及び記憶媒体を提供する。
【解決手段】システムは、データセットを取得することを含む一つまたは複数の動作を実行する一つまたは複数のプロセッサを含む。前記動作は、取得したデータセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングし、データセット内のデータサブセットから値およびタイトルを抽出し、前記タイトル、前記値および/またはターゲット変数に基づいて質問を決定し、前記質問を言語モデルに送ってベクトルを取得し、前記データを使用して実行できる動作を、前記ベクトルに基づいて決定し、ターゲット変数に関係するデータを合成し、合成したデータを、データセット内の一つまたは複数のデータサブセットに追加し、データセットを使用して機械学習パイプラインを修正する。
【選択図】図4
特許請求の範囲【請求項1】
一つまたは複数のプロセッサと;
命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体と
を有するシステムであって、前記命令は、実行されることに応答して、当該システムに動作を実行させるものであり、前記動作は:
複数のデータサブセットを含むデータセットを取得する段階と;
一つまたは複数の質問回答対を使用して、取得されたデータセット内のデータサブセット内のデータ間の関係を決定するよう言語モデルをトレーニングする段階と;
前記データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出する段階と;
前記タイトル、前記値、および前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定する段階と;
前記質問を前記言語モデルに送ってベクトルを取得する段階であって、前記ベクトルは複数の回答を含む、段階と;
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して実行すべき動作を、前記ベクトルに基づいて決定する段階と;
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成する段階と;
合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加する段階と;
前記データセットを使用して機械学習パイプラインを修正する段階とを含み、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、前記データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されている、
システム。
続きを表示(約 1,500 文字)【請求項2】
前記一つまたは複数の質問回答対は:
前記データセット内のデータサブセットの間の情報に対応する複数の意味的類似性分布を生成する段階と;
前記複数の意味的類似性分布が閾値を満たすことに基づいて、前記データセット内の前記データサブセットについての一つまたは複数のドメインを決定する段階と;
前記一つまたは複数のドメインに対応する一つまたは複数の質問回答対を生成する段階であって、前記質問回答対における質問は、同じドメインをもつデータサブセットを比較する、段階と
を実行することによって生成される、請求項1に記載のシステム。
【請求項3】
前記一つまたは複数の新しいデータサブセットは、前記質問に対する前記回答の信頼度が閾値を満たすことに基づいて合成される、請求項1に記載のシステム。
【請求項4】
前記決定された動作は、一つまたは複数のグルーピング演算を含み、前記グルーピング演算は、前記少なくとも2つのデータサブセットから組み合わされたデータを解析するように構成される、請求項1に記載のシステム。
【請求項5】
前記グルーピング演算は、最大、最小、スキュー、平均、総和、標準偏差、一意的な値、または最も一般的な値のうちの一つまたは複数を含む、請求項4に記載のシステム。
【請求項6】
前記決定された動作は、前記データセット内の前記2つのデータサブセットにおける前記値に対して実行されると、前記データセットに対応する新しいデータを生成する一つまたは複数の数学的演算を含む、請求項1に記載のシステム。
【請求項7】
前記一つまたは複数の数学的演算は、減算、加算、乗算、または除算のうちの一つまたは複数を含む、請求項6に記載のシステム。
【請求項8】
前記複数の回答のそれぞれは確率分布を含み、前記複数の回答はイエスまたはノーのいずれかであり、前記確率分布は、前記イエスまたは前記ノーのどちらが前記決定された質問に対する正しい回答であるかどうかを示す、請求項1に記載のシステム。
【請求項9】
前記複数の回答のそれぞれは確率分布を含み、前記確率分布は、前記複数の回答のうちの一つまたは複数が肯定的であるか否定的であるかを示す感情解析を含む、請求項1に記載のシステム。
【請求項10】
前記追加された合成データを含む前記データセットは第2のデータセットであり、前記追加された合成データを含まない前記データセットは第1のデータセットであり、前記動作は:
前記第2のデータセットにおけるデータサブセットの複数の対に含まれるデータに対応する複数の比較スコアを生成する段階であって、前記複数の比較スコアは、前記第2のデータセットにおけるデータサブセットの前記複数の対のうちのあるデータサブセットに含まれるデータと別のデータサブセットに含まれるデータとの間の類似性分布の重なりを反映する、段階と;
前記複数の比較スコアのうちの一つまたは複数の対応する比較スコアが閾値を満たさないことに基づいて、前記第2のデータセットから、データサブセットの一つまたは複数の対をフィルタ除去する段階と;
前記第2のデータセットからフィルタ除去され、前記第1のデータセットに存在していた一つまたは複数のデータサブセットを復元することによって第3のデータセットを生成する段階と;
前記第3のデータセットを使用して一つまたは複数の機械学習モデルをトレーニングする段階とをさらに含む、
請求項1に記載のシステム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示で説明される実施形態は、カスタム特徴エンジニアリングを使用して機械学習システムをトレーニングすることに関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
機械学習システムは、金融技術、電子商取引、ソーシャルメディア、ゲーム、顔認識、および/または自律運転を含むが、これらに限定されない多くの技術分野で使用されうる。これらの機械学習システムは、システムが異なる状況のセットを学習し、それに適応することを許容しうる入力を受信することが可能でありうる。多くの場合、機械学習システムが受信することが可能でありうる入力は、データの一つまたは複数のセットでありうる。
【0003】
本開示において請求される主題は、何らかの欠点を解決するか、または上記のような環境でのみ動作する実施形態に限定されない。むしろこの背景は、本開示に記載されるいくつかの実施形態が実施されうる1つの例示的な技術領域を示すために提供されているだけである。
【発明の概要】
【課題を解決するための手段】
【0004】
ある例示的な実施形態では、システムは、一つまたは複数のプロセッサと、実行されることに応答して、システムに一つまたは複数の動作を実行させうる命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体とを含んでいてもよく、前記動作は、一つまたは複数のデータサブセットを含むデータセットを取得することを含みうる。前記動作は、一つまたは複数の質問回答対を使用して、データセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングすることをさらに含みうる。さらなる動作は、データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出し、前記タイトル、前記値、および/または前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定することを含みうる。いくつかの実施形態では、前記動作は、前記質問を言語モデルに送ってベクトルを取得することをさらに含んでいてもよく、ベクトルは一つまたは複数の回答を含んでいてもよい。
【0005】
さらに、前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して実行されうる動作を、前記ベクトルに基づいて決定することを含みうる。前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成することをさらに含みうる。いくつかの実施形態では、前記動作は、合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加することをさらに含みうる。前記動作は、データセットを使用して機械学習パイプラインを修正することをさらに含んでいてもよく、いくつかの実施形態では、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されうる。
【0006】
実施形態の目的および利点は、少なくとも、特許請求の範囲において特に指摘される要素、特徴、および組み合わせによって実現され、達成される。
【0007】
上記の一般的な説明および以下の詳細な説明は、例として与えられ、説明的であり、特許請求される本発明を限定するものではない。
【図面の簡単な説明】
【0008】
例示的な実施形態が、添付の図面の使用を通じて、さらなる具体性および詳細さをもって記載され、説明される。
【0009】
向上されたデータセットを使用して一つまたは複数の機械学習システムをトレーニングするための例示的な環境を示す図である。
【0010】
一つまたは複数の言語モデルをトレーニングするための例示的な環境を示す図である。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
ラック装置
25日前
富士通株式会社
リスクと診断
26日前
富士通株式会社
目標確定方法と装置
1か月前
富士通株式会社
プロセッサパッケージ
3日前
富士通株式会社
試験装置および試験方法
1か月前
富士通株式会社
光受信機及び光受信方法
1か月前
富士通株式会社
光増幅器および光増幅方法
16日前
富士通株式会社
信号処理装置及び信号処理方法
24日前
富士通株式会社
変換プログラムおよび変換方法
10日前
富士通株式会社
光センサ及び光センサの製造方法
24日前
富士通株式会社
物品認識装置、方法及び電子機器
1か月前
富士通株式会社
動作認識装置と方法及び電子機器
1か月前
富士通株式会社
動作認識装置と方法及び電子機器
1か月前
富士通株式会社
運転者上下車状態判断方法と装置
1か月前
富士通株式会社
歩容認識装置、方法及び電子機器
16日前
富士通株式会社
光送信器およびタイミング調整方法
1か月前
富士通株式会社
表示制御プログラム、方法、及び装置
1か月前
富士通株式会社
3点サポートイベント検出方法と装置
1か月前
富士通株式会社
機械学習プログラム、方法、及び装置
24日前
富士通株式会社
ネットワーク装置及びモデル学習方法
1か月前
富士通株式会社
機械学習プログラム、方法、及び装置
24日前
富士通株式会社
マルチチャネルパワープロファイル推定
9日前
富士通株式会社
フォークリフト状態の検出装置及び方法
1か月前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
1か月前
富士通株式会社
制御プログラム、制御方法及び情報処理装置
1か月前
富士通株式会社
制御装置,制御方法および分散処理システム
17日前
富士通株式会社
評価プログラム、評価装置及び評価システム
3日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
機械学習のためのグラフセット分析及び可視化
1か月前
富士通株式会社
試験装置,試験方法および情報処理プログラム
16日前
富士通株式会社
光送信装置、遅延制御回路、及び遅延制御方法
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
17日前
富士通株式会社
プログラム、情報処理装置および情報処理システム
1か月前
富士通株式会社
プログラム、情報処理方法およびクラスタシステム
1か月前
続きを見る