TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024072268
公報種別公開特許公報(A)
公開日2024-05-27
出願番号2023191693
出願日2023-11-09
発明の名称自動化されたカスタム特徴エンジニアリング
出願人富士通株式会社
代理人個人,個人
主分類G06F 16/908 20190101AFI20240520BHJP(計算;計数)
要約【課題】自動化されたカスタム特徴エンジニアリングを提供する。
【解決手段】方法は、一つまたは複数の列を含みうるデータセットを取得することを含んでいてもよく、該一つまたは複数の列の各列は、第1のタイトルおよび少なくとも1つの値を含んでいてもよい。動作はさらに、一つまたは複数の列の各列について、前記タイトルおよび前記少なくとも1つの値からのサンプル値を抽出することを含んでいてもよい。動作はさらに、一つまたは複数の列の各列についての前記タイトルおよび前記サンプル値に基づいて質問を合成することを含みうる。さらに、動作は、質問を言語モデルに送って回答を取得することを含んでいてもよい。動作はさらに、質問に対する回答から、一つまたは複数の列の各列における前記少なくとも1つの値についての予測される測定単位を生成することを含みうる。この方法を実行するためのシステムおよびデバイスも開示される。
【選択図】図2
特許請求の範囲【請求項1】
少なくとも第1の列および第2の列を含むデータセットを取得する段階であって、前記第1の列は、第1のタイトルおよび第1の値を含み、前記第2の列は、第2のタイトルおよび第2の値を含む、段階と;
メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づいて、前記第1の列と前記第2の列との間の総合類似性値を決定する段階と;
前記総合類似性値が閾値未満である場合、前記第1の列および前記第2の列をクラスターに追加する段階と;
特徴エンジニアリング機能を使用して、前記クラスターに追加するための新しい列を生成する段階であって、前記新しい列は、新しいタイトルおよび新しい値を含み、前記新しい値は、前記第1の列の前記第1の値および前記第2の列の前記第2の値のうちの少なくとも1つに作用することによって、前記特徴エンジニアリング機能を使用して決定される、段階と;
前記新しい列を前記データセットに追加する段階とを含む、
方法。
続きを表示(約 2,500 文字)【請求項2】
追加された新しい列を有する前記データセットは、前記新しい列のない所与のデータセットに対して作用する第2の機械学習モデルの予測精度と比較して、第1の機械学習モデルにおける予測精度を改善するように設計される、請求項1に記載の方法。
【請求項3】
前記メタデータ類似性値は:
前記第1の列からメタデータの第1の集合を抽出し、前記第2の列からメタデータの第2の集合を抽出する段階と;
メタデータの前記第1の集合からの第1のデータ・タイプとメタデータの前記第2の集合からの第2のデータ・タイプとが等価であるかどうかを判定する段階と;
前記第1のデータ・タイプと前記第2のデータ・タイプが等価であることに基づいて、前記第1の値の集合からの第1のデータ分布および前記第2の値の集合からの第2のデータ分布からデータ類似性値を決定する段階であって、前記第1のデータ分布および前記第2のデータ分布は、分散、標準偏差、平均、モード、データの分布、データの形状、相関、確率、共分散、歪度、最小および最大のうちの少なくとも1つを含む、段階と;
前記第1のデータ分布および前記第2のデータ分布に基づいて前記メタデータ類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項4】
前記意味的類似性値は:
前記第1のタイトルを、前記第1のタイトルにおける第1の単語を表す第1の値を含む第1のベクトルに変換し、前記第2のタイトルを、前記第2のタイトルにおける第2の単語を表す第2の値を含む第2のベクトルに変換する段階と;
類似性関数を使用して前記第1のベクトルと前記第2のベクトルとの間の距離を決定する段階と;
前記第1のベクトルと前記第2のベクトルとの間の前記距離に基づいて前記意味的類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項5】
前記意味的類似性値は、前記第1の列における前記第1の値についての第1の測定単位と、前記第2の列における前記第2の値についての第2の測定単位とにさらに基づいて生成される、請求項4に記載の方法。
【請求項6】
前記測定単位類似性値は:
言語モデルを使用して、前記第1の値についての第1の測定単位および前記第2の値についての第2の測定単位を予測する段階と;
前記第1の測定単位を第1の単位測定ベクトルに変換し、前記第2の測定単位を第2の単位測定ベクトルに変換する段階と;
前記第1の単位測定ベクトルと前記第2の単位測定ベクトルとの間の距離を決定する段階と;
前記第1の単位測定ベクトルと前記第2の単位測定ベクトルとの間の前記距離に基づいて、前記測定単位類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項7】
前記新しい値は、前記第1の値および前記第2の値を使用して前記特徴エンジニアリング機能に関連付けられた数学的演算を実行することによって生成される、請求項1に記載の方法。
【請求項8】
前記総合類似性値は、前記メタデータ類似性値、前記意味的類似性値、および前記測定単位類似性値のそれぞれを加算することによって決定される、請求項1に記載の方法。
【請求項9】
第3の列を含むデータセットを取得する段階であって、前記第3の列は第3のタイトルおよび第3の値を含む、段階と;
第2のメタデータ類似性値、第2の意味的類似性値、および第2の測定単位類似性値のうちの少なくとも1つに基づいて、前記第3の列と前記第1の列および前記第2の列のうちの1つとの間の第3の類似性値を決定する段階と;
前記総合類似性値が前記閾値未満である場合、前記第3の列を前記クラスターに追加する段階と;
前記特徴エンジニアリング機能を使用して前記クラスターに追加するための第2の新しい列を生成する段階であって、前記第2の新しい列は、第2の新しいタイトルおよび第2の新しい値を含み、前記第2の新しい値は、前記第3の列の前記第3の値、前記第2の列の前記第2の値、および前記第1の列の前記第1の値のうちの少なくとも1つに作用することによって前記特徴エンジニアリング機能を使用して決定される、段階と;
前記第2の新しい列を前記データセットに追加する段階とをさらに含む、
請求項1に記載の方法。
【請求項10】
実行されることに応答して、システムに動作を実行させる命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体であって、前記動作が:
少なくとも第1の列および第2の列を含むデータセットを取得する段階であって、前記第1の列は、第1のタイトルおよび第1の値を含み、前記第2の列は、第2のタイトルおよび第2の値を含む、段階と;
メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づいて、前記第1の列と前記第2の列との間の総合類似性値を決定する段階と;
前記総合類似性値が閾値未満である場合、前記第1の列および前記第2の列をクラスターに追加する段階と;
特徴エンジニアリング機能を使用して、前記クラスターに追加するための新しい列を生成する段階であって、前記新しい列は、新しいタイトルおよび新しい値を含み、前記新しい値は、前記第1の列の前記第1の値および前記第2の列の前記第2の値のうちの少なくとも1つに作用することによって、前記特徴エンジニアリング機能を使用して決定される、段階と;
前記新しい列を前記データセットに追加する段階とを含む、
一つまたは複数の非一時的なコンピュータ可読記憶媒体。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示において論じられる実施形態は、自動化されたカスタム特徴エンジニアリング(feature engineering[フィーチャー・エンジニアリング]、FE)に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
本開示において別段の指示がない限り、本開示において記載される素材は、本願における特許請求の範囲に対する先行技術ではなく、このセクションに含まれることによって先行技術であると認められるものではない。
【0003】
機械学習システムは、金融技術、電子商取引、ソーシャルメディア、ゲーム、顔認識、および自律運転を含むがこれらに限定されない多くの技術分野において使用されうる。これらの機械学習システムは、システムが状況の種々の集合を学習し、それに適応することを許容しうる入力を受領することが可能でありうる。多くの場合、機械学習システムが受領することが可能でありうる入力は、データの一つまたは複数の集合でありうる。
【0004】
本開示において特許請求される主題は、何らかの欠点を解決する実施形態または上記のような環境でのみ動作する実施形態に限定されるものではない。むしろこの背景は、本開示で説明されるいくつかの実施形態が実施されうる1つの例示的な技術領域を示すために提供される。
【発明の概要】
【課題を解決するための手段】
【0005】
この概要は、以下の詳細な説明においてさらに説明される概念のセレクションを簡略化された形で紹介するために提供される。この概要は、特許請求される主題の主要な特徴または本質的な特性を特定することを意図するものではなく、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。
【0006】
本開示の一つまたは複数の実施形態は、方法を含んでいてもよい。本方法は、少なくとも第1の列および第2の列を含みうるデータセットを取得することを含んでいてもよく、第1の列は、第1のタイトルおよび第1の値を含んでいてもよく、第2の列は、第2のタイトルおよび第2の値を含んでいてもよい。加えて、本方法は、メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づきうる、第1の列と第2の列との間の総合類似性値を決定するステップを含みうる。本方法は、総合類似性値が閾値未満である場合、第1の列および第2の列をクラスターに追加するステップをさらに含むことができる。さらに、本方法は、特徴エンジニアリング機能を使用することによって行われうる、クラスターに追加するための新しい列を生成することを含んでいてもよく、該新しい列は、新しいタイトルおよび新しい値を含んでいてもよく、該新しい値は、第1の列の第1の値および第2の列の第2の値のうちの少なくとも1つに作用することによって、特徴エンジニアリング機能を使用することによって決定されうる。加えて、本方法は、新しい列をデータセットに追加することを含んでいてもよい。
【0007】
本開示の一つまたは複数の実施形態は、方法を含んでいてもよい。本方法は、一つまたは複数の列を有するデータセットを取得することを含んでいてもよく、前記一つまたは複数の列のそれぞれは、タイトルおよび少なくとも1つの値を含んでいてもよい。本方法は、前記一つまたは複数の列のそれぞれについて、タイトルと、前記少なくとも1つの値からのサンプル値とを抽出することをさらに含みうる。さらに、本方法は、前記一つまたは複数の列のそれぞれについてのタイトルおよびサンプル値に基づいて質問を合成することを含みうる。本方法は、質問を言語モデルに送って回答を取得することをさらに含むことができ、さらに、本方法は、質問に対する回答から、前記一つまたは複数の列のそれぞれにおける前記少なくとも1つの値についての予測される測定単位を生成することを含むことができる。
【0008】
実施形態の目的および利点は、少なくとも、特許請求の範囲において特に指摘される要素、特徴、および組み合わせによって実現および達成される。上記の一般的な記述および移管お詳細な説明は例示し、説明するものであり、特許請求される発明を制約するものではないことが理解される。
【図面の簡単な説明】
【0009】
例示的な実施形態は、添付の図面の使用を通じてさらなる具体性および詳細さをもって記載および説明される。
【0010】
自動化されたカスタム特徴エンジニアリングを利用することができるシステムの例示的実施形態を示す。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
算出方法及び算出プログラム
3日前
富士通株式会社
光通信装置および伝送制御方法
18日前
富士通株式会社
情報処理装置及び情報処理方法
23日前
富士通株式会社
表示制御方法及び表示制御プログラム
1か月前
富士通株式会社
画像探索方法及び画像探索プログラム
9日前
富士通株式会社
足位置の補正方法、装置及び記憶媒体
26日前
富士通株式会社
分散学習プログラム、方法、及び装置
1か月前
富士通株式会社
画像識別方法および画像識別プログラム
3日前
富士通株式会社
情報処理プログラムおよび情報処理装置
1か月前
富士通株式会社
プログラム、算出方法および情報処理装置
1か月前
富士通株式会社
情報処理装置,プログラムおよび制御方法
23日前
富士通株式会社
類似度判定方法および類似度判定プログラム
18日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
2日前
富士通株式会社
判定プログラム、判定方法および情報処理装置
3日前
富士通株式会社
パターン抽出方法及びパターン抽出プログラム
1日前
富士通株式会社
評価プログラム、評価方法および情報処理装置
4日前
富士通株式会社
検出プログラム、検出方法および情報処理装置
4日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
1日前
富士通株式会社
制御方法、制御プログラムおよび情報処理装置
25日前
富士通株式会社
設定プログラム、設定方法および情報処理装置
1日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
23日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
1か月前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
19日前
富士通株式会社
移動時間予測方法および移動時間予測プログラム
1日前
富士通株式会社
カメラキャリブレーション方法の評価方法及び装置
8日前
富士通株式会社
グラフェン光素子及びグラフェン光素子の製造方法
1か月前
富士通株式会社
データ処理装置、データ処理方法およびプログラム
23日前
富士通株式会社
署名支援プログラム、署名支援方法、署名支援装置
19日前
富士通株式会社
基地局装置、無線通信システム、及び通信制御方法
1か月前
富士通株式会社
情報処理プログラム、情報処理方法、およびシステム
8日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
24日前
富士通株式会社
プロセッサ、命令実行プログラムおよび情報処理装置
26日前
富士通株式会社
機械学習プログラム、機械学習方法及び機械学習装置
1か月前
富士通株式会社
並列処理プログラム,並列処理装置及び並列処理方法
8日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
23日前
富士通株式会社
演算処理プログラム、演算処理方法および情報処理装置
23日前
続きを見る