TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024152651
公報種別公開特許公報(A)
公開日2024-10-25
出願番号2024060063
出願日2024-04-03
発明の名称カスタム特徴エンジニアリングを使用した機械学習システムのトレーニング
出願人富士通株式会社
代理人個人,個人
主分類G06N 20/00 20190101AFI20241018BHJP(計算;計数)
要約【課題】カスタム特徴エンジニアリングを使用した機械学習モデルをトレーニングするシステム及び記憶媒体を提供する。
【解決手段】システムは、データセットを取得することを含む一つまたは複数の動作を実行する一つまたは複数のプロセッサを含む。前記動作は、取得したデータセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングし、データセット内のデータサブセットから値およびタイトルを抽出し、前記タイトル、前記値および/またはターゲット変数に基づいて質問を決定し、前記質問を言語モデルに送ってベクトルを取得し、前記データを使用して実行できる動作を、前記ベクトルに基づいて決定し、ターゲット変数に関係するデータを合成し、合成したデータを、データセット内の一つまたは複数のデータサブセットに追加し、データセットを使用して機械学習パイプラインを修正する。
【選択図】図4
特許請求の範囲【請求項1】
一つまたは複数のプロセッサと;
命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体と
を有するシステムであって、前記命令は、実行されることに応答して、当該システムに動作を実行させるものであり、前記動作は:
複数のデータサブセットを含むデータセットを取得する段階と;
一つまたは複数の質問回答対を使用して、取得されたデータセット内のデータサブセット内のデータ間の関係を決定するよう言語モデルをトレーニングする段階と;
前記データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出する段階と;
前記タイトル、前記値、および前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定する段階と;
前記質問を前記言語モデルに送ってベクトルを取得する段階であって、前記ベクトルは複数の回答を含む、段階と;
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して実行すべき動作を、前記ベクトルに基づいて決定する段階と;
前記データセット内の前記少なくとも2つのデータサブセットに含まれる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成する段階と;
合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加する段階と;
前記データセットを使用して機械学習パイプラインを修正する段階とを含み、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、前記データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されている、
システム。
続きを表示(約 1,500 文字)【請求項2】
前記一つまたは複数の質問回答対は:
前記データセット内のデータサブセットの間の情報に対応する複数の意味的類似性分布を生成する段階と;
前記複数の意味的類似性分布が閾値を満たすことに基づいて、前記データセット内の前記データサブセットについての一つまたは複数のドメインを決定する段階と;
前記一つまたは複数のドメインに対応する一つまたは複数の質問回答対を生成する段階であって、前記質問回答対における質問は、同じドメインをもつデータサブセットを比較する、段階と
を実行することによって生成される、請求項1に記載のシステム。
【請求項3】
前記一つまたは複数の新しいデータサブセットは、前記質問に対する前記回答の信頼度が閾値を満たすことに基づいて合成される、請求項1に記載のシステム。
【請求項4】
前記決定された動作は、一つまたは複数のグルーピング演算を含み、前記グルーピング演算は、前記少なくとも2つのデータサブセットから組み合わされたデータを解析するように構成される、請求項1に記載のシステム。
【請求項5】
前記グルーピング演算は、最大、最小、スキュー、平均、総和、標準偏差、一意的な値、または最も一般的な値のうちの一つまたは複数を含む、請求項4に記載のシステム。
【請求項6】
前記決定された動作は、前記データセット内の前記2つのデータサブセットにおける前記値に対して実行されると、前記データセットに対応する新しいデータを生成する一つまたは複数の数学的演算を含む、請求項1に記載のシステム。
【請求項7】
前記一つまたは複数の数学的演算は、減算、加算、乗算、または除算のうちの一つまたは複数を含む、請求項6に記載のシステム。
【請求項8】
前記複数の回答のそれぞれは確率分布を含み、前記複数の回答はイエスまたはノーのいずれかであり、前記確率分布は、前記イエスまたは前記ノーのどちらが前記決定された質問に対する正しい回答であるかどうかを示す、請求項1に記載のシステム。
【請求項9】
前記複数の回答のそれぞれは確率分布を含み、前記確率分布は、前記複数の回答のうちの一つまたは複数が肯定的であるか否定的であるかを示す感情解析を含む、請求項1に記載のシステム。
【請求項10】
前記追加された合成データを含む前記データセットは第2のデータセットであり、前記追加された合成データを含まない前記データセットは第1のデータセットであり、前記動作は:
前記第2のデータセットにおけるデータサブセットの複数の対に含まれるデータに対応する複数の比較スコアを生成する段階であって、前記複数の比較スコアは、前記第2のデータセットにおけるデータサブセットの前記複数の対のうちのあるデータサブセットに含まれるデータと別のデータサブセットに含まれるデータとの間の類似性分布の重なりを反映する、段階と;
前記複数の比較スコアのうちの一つまたは複数の対応する比較スコアが閾値を満たさないことに基づいて、前記第2のデータセットから、データサブセットの一つまたは複数の対をフィルタ除去する段階と;
前記第2のデータセットからフィルタ除去され、前記第1のデータセットに存在していた一つまたは複数のデータサブセットを復元することによって第3のデータセットを生成する段階と;
前記第3のデータセットを使用して一つまたは複数の機械学習モデルをトレーニングする段階とをさらに含む、
請求項1に記載のシステム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示で説明される実施形態は、カスタム特徴エンジニアリングを使用して機械学習システムをトレーニングすることに関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
機械学習システムは、金融技術、電子商取引、ソーシャルメディア、ゲーム、顔認識、および/または自律運転を含むが、これらに限定されない多くの技術分野で使用されうる。これらの機械学習システムは、システムが異なる状況のセットを学習し、それに適応することを許容しうる入力を受信することが可能でありうる。多くの場合、機械学習システムが受信することが可能でありうる入力は、データの一つまたは複数のセットでありうる。
【0003】
本開示において請求される主題は、何らかの欠点を解決するか、または上記のような環境でのみ動作する実施形態に限定されない。むしろこの背景は、本開示に記載されるいくつかの実施形態が実施されうる1つの例示的な技術領域を示すために提供されているだけである。
【発明の概要】
【課題を解決するための手段】
【0004】
ある例示的な実施形態では、システムは、一つまたは複数のプロセッサと、実行されることに応答して、システムに一つまたは複数の動作を実行させうる命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体とを含んでいてもよく、前記動作は、一つまたは複数のデータサブセットを含むデータセットを取得することを含みうる。前記動作は、一つまたは複数の質問回答対を使用して、データセット内のデータサブセット内のデータ間の関係を決定するために言語モデルをトレーニングすることをさらに含みうる。さらなる動作は、データセット内の少なくとも2つのデータサブセットのそれぞれから値およびタイトルを抽出し、前記タイトル、前記値、および/または前記データセットに含まれるデータから推論されるターゲット変数に基づいて質問を決定することを含みうる。いくつかの実施形態では、前記動作は、前記質問を言語モデルに送ってベクトルを取得することをさらに含んでいてもよく、ベクトルは一つまたは複数の回答を含んでいてもよい。
【0005】
さらに、前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して実行されうる動作を、前記ベクトルに基づいて決定することを含みうる。前記動作は、データセット内の前記少なくとも2つのデータサブセットに含まれうる前記データを使用して、決定された動作を実行することによって、前記ターゲット変数に関係するデータを合成することをさらに含みうる。いくつかの実施形態では、前記動作は、合成されたデータを、前記データセットへの一つまたは複数の新しいデータサブセットに追加することをさらに含みうる。前記動作は、データセットを使用して機械学習パイプラインを修正することをさらに含んでいてもよく、いくつかの実施形態では、修正された機械学習パイプラインは、新しいデータを使用して予測を行うために、データセットを使用して一つまたは複数の機械学習モデルをトレーニングするように構成されうる。
【0006】
実施形態の目的および利点は、少なくとも、特許請求の範囲において特に指摘される要素、特徴、および組み合わせによって実現され、達成される。
【0007】
上記の一般的な説明および以下の詳細な説明は、例として与えられ、説明的であり、特許請求される本発明を限定するものではない。
【図面の簡単な説明】
【0008】
例示的な実施形態が、添付の図面の使用を通じて、さらなる具体性および詳細さをもって記載され、説明される。
【0009】
向上されたデータセットを使用して一つまたは複数の機械学習システムをトレーニングするための例示的な環境を示す図である。
【0010】
一つまたは複数の言語モデルをトレーニングするための例示的な環境を示す図である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
GPSロガー
1か月前
個人
デトろぐシステム
1か月前
個人
マウス用テーブル
17日前
個人
管理装置
23日前
個人
都市経営シミュレーション
1か月前
個人
人的価値発掘システム
1日前
個人
特徴検討支援システム
23日前
アズビル株式会社
防爆装置
11日前
個人
管理装置
25日前
個人
契約管理サーバ
22日前
株式会社宗建
SNSサーバー
9日前
株式会社セガフェイブ
遊戯機
15日前
キヤノン電子株式会社
情報処理装置
1日前
個人
配送システムおよび同包箱
1日前
個人
選択操作音声出力システム
17日前
ミサワホーム株式会社
システム
1日前
株式会社テクロス
情報処理装置
29日前
株式会社ジール
文章の分析装置
16日前
ミサワホーム株式会社
管理装置
1日前
オムロン株式会社
認証中継サーバ
8日前
大同特殊鋼株式会社
棒材計数装置
8日前
個人
動作のデザイン評価の方法及び装置
8日前
株式会社野村総合研究所
検証装置
29日前
株式会社奥村組
削孔位置検出方法
22日前
トヨタ自動車株式会社
車両
23日前
アスエネ株式会社
森林管理の方法
11日前
トヨタ自動車株式会社
情報処理装置
26日前
日本電気株式会社
システム及び方法
22日前
株式会社八咲
イベント管理システム
8日前
個人
口座悪用を防止する口座管理システム
3日前
個人
マイナンバーポイントの直販システム
1か月前
トヨタ自動車株式会社
記号認識装置
26日前
株式会社えくぼ
死後事務管理システム
1か月前
個人
分類処理プログラム、システム及び方法
19日前
株式会社LMO
イベント招待システム
1か月前
個人
分類処理プログラム、システム及び方法
19日前
続きを見る