TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024072268
公報種別公開特許公報(A)
公開日2024-05-27
出願番号2023191693
出願日2023-11-09
発明の名称自動化されたカスタム特徴エンジニアリング
出願人富士通株式会社
代理人個人,個人
主分類G06F 16/908 20190101AFI20240520BHJP(計算;計数)
要約【課題】自動化されたカスタム特徴エンジニアリングを提供する。
【解決手段】方法は、一つまたは複数の列を含みうるデータセットを取得することを含んでいてもよく、該一つまたは複数の列の各列は、第1のタイトルおよび少なくとも1つの値を含んでいてもよい。動作はさらに、一つまたは複数の列の各列について、前記タイトルおよび前記少なくとも1つの値からのサンプル値を抽出することを含んでいてもよい。動作はさらに、一つまたは複数の列の各列についての前記タイトルおよび前記サンプル値に基づいて質問を合成することを含みうる。さらに、動作は、質問を言語モデルに送って回答を取得することを含んでいてもよい。動作はさらに、質問に対する回答から、一つまたは複数の列の各列における前記少なくとも1つの値についての予測される測定単位を生成することを含みうる。この方法を実行するためのシステムおよびデバイスも開示される。
【選択図】図2
特許請求の範囲【請求項1】
少なくとも第1の列および第2の列を含むデータセットを取得する段階であって、前記第1の列は、第1のタイトルおよび第1の値を含み、前記第2の列は、第2のタイトルおよび第2の値を含む、段階と;
メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づいて、前記第1の列と前記第2の列との間の総合類似性値を決定する段階と;
前記総合類似性値が閾値未満である場合、前記第1の列および前記第2の列をクラスターに追加する段階と;
特徴エンジニアリング機能を使用して、前記クラスターに追加するための新しい列を生成する段階であって、前記新しい列は、新しいタイトルおよび新しい値を含み、前記新しい値は、前記第1の列の前記第1の値および前記第2の列の前記第2の値のうちの少なくとも1つに作用することによって、前記特徴エンジニアリング機能を使用して決定される、段階と;
前記新しい列を前記データセットに追加する段階とを含む、
方法。
続きを表示(約 2,500 文字)【請求項2】
追加された新しい列を有する前記データセットは、前記新しい列のない所与のデータセットに対して作用する第2の機械学習モデルの予測精度と比較して、第1の機械学習モデルにおける予測精度を改善するように設計される、請求項1に記載の方法。
【請求項3】
前記メタデータ類似性値は:
前記第1の列からメタデータの第1の集合を抽出し、前記第2の列からメタデータの第2の集合を抽出する段階と;
メタデータの前記第1の集合からの第1のデータ・タイプとメタデータの前記第2の集合からの第2のデータ・タイプとが等価であるかどうかを判定する段階と;
前記第1のデータ・タイプと前記第2のデータ・タイプが等価であることに基づいて、前記第1の値の集合からの第1のデータ分布および前記第2の値の集合からの第2のデータ分布からデータ類似性値を決定する段階であって、前記第1のデータ分布および前記第2のデータ分布は、分散、標準偏差、平均、モード、データの分布、データの形状、相関、確率、共分散、歪度、最小および最大のうちの少なくとも1つを含む、段階と;
前記第1のデータ分布および前記第2のデータ分布に基づいて前記メタデータ類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項4】
前記意味的類似性値は:
前記第1のタイトルを、前記第1のタイトルにおける第1の単語を表す第1の値を含む第1のベクトルに変換し、前記第2のタイトルを、前記第2のタイトルにおける第2の単語を表す第2の値を含む第2のベクトルに変換する段階と;
類似性関数を使用して前記第1のベクトルと前記第2のベクトルとの間の距離を決定する段階と;
前記第1のベクトルと前記第2のベクトルとの間の前記距離に基づいて前記意味的類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項5】
前記意味的類似性値は、前記第1の列における前記第1の値についての第1の測定単位と、前記第2の列における前記第2の値についての第2の測定単位とにさらに基づいて生成される、請求項4に記載の方法。
【請求項6】
前記測定単位類似性値は:
言語モデルを使用して、前記第1の値についての第1の測定単位および前記第2の値についての第2の測定単位を予測する段階と;
前記第1の測定単位を第1の単位測定ベクトルに変換し、前記第2の測定単位を第2の単位測定ベクトルに変換する段階と;
前記第1の単位測定ベクトルと前記第2の単位測定ベクトルとの間の距離を決定する段階と;
前記第1の単位測定ベクトルと前記第2の単位測定ベクトルとの間の前記距離に基づいて、前記測定単位類似性値を生成する段階とを実行することによって決定される、
請求項1に記載の方法。
【請求項7】
前記新しい値は、前記第1の値および前記第2の値を使用して前記特徴エンジニアリング機能に関連付けられた数学的演算を実行することによって生成される、請求項1に記載の方法。
【請求項8】
前記総合類似性値は、前記メタデータ類似性値、前記意味的類似性値、および前記測定単位類似性値のそれぞれを加算することによって決定される、請求項1に記載の方法。
【請求項9】
第3の列を含むデータセットを取得する段階であって、前記第3の列は第3のタイトルおよび第3の値を含む、段階と;
第2のメタデータ類似性値、第2の意味的類似性値、および第2の測定単位類似性値のうちの少なくとも1つに基づいて、前記第3の列と前記第1の列および前記第2の列のうちの1つとの間の第3の類似性値を決定する段階と;
前記総合類似性値が前記閾値未満である場合、前記第3の列を前記クラスターに追加する段階と;
前記特徴エンジニアリング機能を使用して前記クラスターに追加するための第2の新しい列を生成する段階であって、前記第2の新しい列は、第2の新しいタイトルおよび第2の新しい値を含み、前記第2の新しい値は、前記第3の列の前記第3の値、前記第2の列の前記第2の値、および前記第1の列の前記第1の値のうちの少なくとも1つに作用することによって前記特徴エンジニアリング機能を使用して決定される、段階と;
前記第2の新しい列を前記データセットに追加する段階とをさらに含む、
請求項1に記載の方法。
【請求項10】
実行されることに応答して、システムに動作を実行させる命令を記憶するように構成された一つまたは複数の非一時的なコンピュータ可読記憶媒体であって、前記動作が:
少なくとも第1の列および第2の列を含むデータセットを取得する段階であって、前記第1の列は、第1のタイトルおよび第1の値を含み、前記第2の列は、第2のタイトルおよび第2の値を含む、段階と;
メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づいて、前記第1の列と前記第2の列との間の総合類似性値を決定する段階と;
前記総合類似性値が閾値未満である場合、前記第1の列および前記第2の列をクラスターに追加する段階と;
特徴エンジニアリング機能を使用して、前記クラスターに追加するための新しい列を生成する段階であって、前記新しい列は、新しいタイトルおよび新しい値を含み、前記新しい値は、前記第1の列の前記第1の値および前記第2の列の前記第2の値のうちの少なくとも1つに作用することによって、前記特徴エンジニアリング機能を使用して決定される、段階と;
前記新しい列を前記データセットに追加する段階とを含む、
一つまたは複数の非一時的なコンピュータ可読記憶媒体。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示において論じられる実施形態は、自動化されたカスタム特徴エンジニアリング(feature engineering[フィーチャー・エンジニアリング]、FE)に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
本開示において別段の指示がない限り、本開示において記載される素材は、本願における特許請求の範囲に対する先行技術ではなく、このセクションに含まれることによって先行技術であると認められるものではない。
【0003】
機械学習システムは、金融技術、電子商取引、ソーシャルメディア、ゲーム、顔認識、および自律運転を含むがこれらに限定されない多くの技術分野において使用されうる。これらの機械学習システムは、システムが状況の種々の集合を学習し、それに適応することを許容しうる入力を受領することが可能でありうる。多くの場合、機械学習システムが受領することが可能でありうる入力は、データの一つまたは複数の集合でありうる。
【0004】
本開示において特許請求される主題は、何らかの欠点を解決する実施形態または上記のような環境でのみ動作する実施形態に限定されるものではない。むしろこの背景は、本開示で説明されるいくつかの実施形態が実施されうる1つの例示的な技術領域を示すために提供される。
【発明の概要】
【課題を解決するための手段】
【0005】
この概要は、以下の詳細な説明においてさらに説明される概念のセレクションを簡略化された形で紹介するために提供される。この概要は、特許請求される主題の主要な特徴または本質的な特性を特定することを意図するものではなく、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。
【0006】
本開示の一つまたは複数の実施形態は、方法を含んでいてもよい。本方法は、少なくとも第1の列および第2の列を含みうるデータセットを取得することを含んでいてもよく、第1の列は、第1のタイトルおよび第1の値を含んでいてもよく、第2の列は、第2のタイトルおよび第2の値を含んでいてもよい。加えて、本方法は、メタデータ類似性値、意味的類似性値、および測定単位類似性値のうちの少なくとも1つに基づきうる、第1の列と第2の列との間の総合類似性値を決定するステップを含みうる。本方法は、総合類似性値が閾値未満である場合、第1の列および第2の列をクラスターに追加するステップをさらに含むことができる。さらに、本方法は、特徴エンジニアリング機能を使用することによって行われうる、クラスターに追加するための新しい列を生成することを含んでいてもよく、該新しい列は、新しいタイトルおよび新しい値を含んでいてもよく、該新しい値は、第1の列の第1の値および第2の列の第2の値のうちの少なくとも1つに作用することによって、特徴エンジニアリング機能を使用することによって決定されうる。加えて、本方法は、新しい列をデータセットに追加することを含んでいてもよい。
【0007】
本開示の一つまたは複数の実施形態は、方法を含んでいてもよい。本方法は、一つまたは複数の列を有するデータセットを取得することを含んでいてもよく、前記一つまたは複数の列のそれぞれは、タイトルおよび少なくとも1つの値を含んでいてもよい。本方法は、前記一つまたは複数の列のそれぞれについて、タイトルと、前記少なくとも1つの値からのサンプル値とを抽出することをさらに含みうる。さらに、本方法は、前記一つまたは複数の列のそれぞれについてのタイトルおよびサンプル値に基づいて質問を合成することを含みうる。本方法は、質問を言語モデルに送って回答を取得することをさらに含むことができ、さらに、本方法は、質問に対する回答から、前記一つまたは複数の列のそれぞれにおける前記少なくとも1つの値についての予測される測定単位を生成することを含むことができる。
【0008】
実施形態の目的および利点は、少なくとも、特許請求の範囲において特に指摘される要素、特徴、および組み合わせによって実現および達成される。上記の一般的な記述および移管お詳細な説明は例示し、説明するものであり、特許請求される発明を制約するものではないことが理解される。
【図面の簡単な説明】
【0009】
例示的な実施形態は、添付の図面の使用を通じてさらなる具体性および詳細さをもって記載および説明される。
【0010】
自動化されたカスタム特徴エンジニアリングを利用することができるシステムの例示的実施形態を示す。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
管理装置
1か月前
個人
暗号化記憶媒体
1か月前
個人
プロジェクター
1か月前
個人
環境情報処理装置
3日前
個人
求人支援システム
20日前
個人
外食予約システム
3日前
キヤノン電子株式会社
周辺機器
1か月前
個人
海外在住支援システム
3日前
個人
求人マッチングサーバ
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
株式会社ワコム
電子ペン
1か月前
シャープ株式会社
情報出力装置
18日前
アスエネ株式会社
水管理の方法
1か月前
株式会社ワコム
電子ペン
6日前
株式会社ワコム
電子ペン
1か月前
トヨタ自動車株式会社
検査装置
1か月前
株式会社NGA
画像投稿システム
1か月前
東洋電装株式会社
操作装置
6日前
東洋電装株式会社
操作装置
6日前
CKD株式会社
遠隔支援システム
1か月前
東洋電装株式会社
操作装置
6日前
大日本印刷株式会社
作業台
1か月前
株式会社寺岡精工
システム
1か月前
株式会社カロニマ
情報発信システム
10日前
トヨタ紡織株式会社
検査装置
27日前
日本信号株式会社
料金精算システム
16日前
個人
ポイント増量アプリ「太陽光銭サー」
1か月前
株式会社小野測器
移動量計測システム
1か月前
株式会社三富
取引管理システム
1か月前
株式会社アジラ
異常行動検出システム
27日前
BH株式会社
商品販売システム
1か月前
株式会社mov
情報処理システム
26日前
ローム株式会社
電源制御集積回路
3日前
続きを見る