TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024072804
公報種別公開特許公報(A)
公開日2024-05-28
出願番号2023193032
出願日2023-11-13
発明の名称カスタム特徴量エンジニアリングのための単位予測
出願人富士通株式会社
代理人個人,個人
主分類G06F 16/90 20190101AFI20240521BHJP(計算;計数)
要約【課題】カスタム特徴量エンジニアリングのための単位予測の方法等を提供する。
【解決手段】方法は、第1タイトル及び第1値を有する第1カラムと、第2タイトル及び第2値を有する第2カラムとを少なくとも含み得るデータセットを取得することを含んでよい。動作は更に、メタデータ類似度値、意味的類似度値、及び/又は測定単位類似度値に基づいて第1カラムと第2カラムとの間の総類似度値を決定することと、総類似度値が閾値よりも小さい場合に第1カラム及び第2カラムをクラスタに加えることと、特徴量エンジニアリング関数を用いて、クラスタに加えるべき新しいカラムを生成することとを含んでもよく、新しいカラムは新しいタイトル及び新しい値を含んでよく、新しい値は、第1値及び/又は第2値に作用することによって特徴量エンジニアリング関数を用いて決定される。更に、動作は、新しいカラムをデータセットに加えることを含んでもよい。
【選択図】図5
特許請求の範囲【請求項1】
1つ以上のカラムを有し、前記1つ以上のカラムの夫々がタイトル及び少なくとも1つの値を含むデータセットを取得することと、
前記1つ以上のカラムの夫々について、前記タイトルと、前記少なくとも1つの値からのサンプル値とを抽出することと、
前記1つ以上のカラムの夫々について前記タイトル及び前記サンプル値に基づいて質問を合成することと、
回答を得るよう前記質問を言語モデルへ送信することと、
前記質問に対する前記回答から、前記少なくとも1つのカラムの夫々の前記少なくとも1つの値に対する予測された測定の単位を生成することと
を有する方法。
続きを表示(約 1,500 文字)【請求項2】
前記1つ以上のカラムの夫々について前記質問を合成する前に、前記1つ以上のカラムの夫々から前記タイトルを展開することを更に有する、
請求項1に記載の方法。
【請求項3】
合成された前記質問は、機械学習タスク記述を含む、
請求項1に記載の方法。
【請求項4】
複数のサンプル値が前記1つ以上のカラムの夫々について抽出され、複数の質問が合成され、合成された前記質問の数は、予め定義された最小閾値に基づき決定される、
請求項1に記載の方法。
【請求項5】
前記質問を言語モデルへ送信する前に、少なくとも1つの質問-回答対を前記言語モデルへ送信することによって前記言語モデルを訓練することを更に有し、
前記少なくとも1つの質問-回答対は、
測定の単位の例を含む回答例を引き出すよう作成された質問例と、
前記測定の単位の例を含む前記回答例と
を含む、
請求項1に記載の方法。
【請求項6】
少なくとも3つの質問が合成され、
前記予測された測定の単位は、前記言語モデルから受け取られた少なくとも3つの回答から過半数の回答を選択することによって生成される、
請求項1に記載の方法。
【請求項7】
前記予測された測定の単位に基づいて前記データセットの前記1つ以上のカラムの間の類似度値を決定することと、
前記類似度値が閾値よりも大きい場合に、前記データセットの前記1つ以上のカラムを含むクラスタを生成することと、
特徴量エンジニアリング関数を用いて、前記クラスタに加えるべき、新しいタイトル及び少なくとも1つの新しい値を含む新しいカラムを生成することと、
前記新しいタイトル及び前記少なくとも1つの新しい値を含む前記新しいカラムを前記データセットに加えることと、
前記新しいカラムを含む前記データセットを用いて機械学習モデルを訓練することと
を更に有する、
請求項1に記載の方法。
【請求項8】
命令を記憶するよう構成される1つ以上の非一時的なコンピュータ可読記憶媒体であって、
前記命令は、実行されることに応答して、システムに、
1つ以上のカラムを有し、前記1つ以上のカラムの夫々がタイトル及び少なくとも1つの値を含むデータセットを取得することと、
前記1つ以上のカラムの夫々について、前記タイトルと、前記少なくとも1つの値からのサンプル値とを抽出することと、
前記1つ以上のカラムの夫々について前記タイトル及び前記サンプル値に基づいて質問を合成することと、
回答を得るよう前記質問を言語モデルへ送信することと、
前記質問に対する前記回答から、前記少なくとも1つのカラムの夫々の前記少なくとも1つの値に対する予測された測定の単位を生成することと
を有する動作を実行させる、
1つ以上の非一時的なコンピュータ可読記憶媒体。
【請求項9】
前記動作は、前記1つ以上のカラムの夫々について前記質問を合成する前に、前記1つ以上のカラムの夫々から前記タイトルを展開することを更に有する、
請求項8に記載の非一時的なコンピュータ可読記憶媒体。
【請求項10】
合成された前記質問は、機械学習タスク記述に基づく、
請求項8に記載の非一時的なコンピュータ可読記憶媒体。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示で議論される実施形態は、カスタム特徴量エンジニアリング(Feature Engineering,FE)のための単位予測に関係がある。
続きを表示(約 2,200 文字)【背景技術】
【0002】
本願で別段示されない限りは、本開示で記載される題材は、本願の特許請求の範囲に対する先行技術ではなく、このセクションに含まれることによって先行技術であると認められるものではない。
【0003】
機械学習システムは、金融技術、Eコマース、ソーシャルメディア、ゲーム、顔認識、及び自動運転を含むがこれらに限られない多数の技術分野で使用される可能性がある。これらの機械学習システムは、システムが様々な状況を学習して適応することを可能にし得る入力を受け取ることができる。多くの場合、機械学習システムが受け取ることができる入力は、ひと組以上のデータであり得る。
【0004】
本開示で請求されている主題は、上述されている環境でしか動作しない実施形態又は上述された如何なる欠点も解決する実施形態に限られない。むしろ、この背景は、本開示で記載されるいくつかの実施形態が実施される可能性がある技術の一例を説明するためにのみ与えられている。
【発明の概要】
【0005】
この概要は、詳細な説明において以下で更に記載される概念の一部を簡潔な形で紹介するために与えられている。この概要は、請求されている主題の重要な特徴又は必須の特徴を特定するよう意図されたものでも、請求されている主題の範囲を決定する目的で使用されるものではない。
【0006】
本開示の1つ以上の実施形態は方法を含んでよい。方法は、少なくとも第1カラム及び第2カラムを含み得るデータセットを取得することを含んでよく、第1カラムには、第1タイトル及び第1値が含まれてよく、第2カラムには、第2タイトル及び第2値が含まれてよい。更に、方法は、第1カラムと第2カラムとの間の総類似度値を決定することを含んでよく、総類似度値は、メタデータ類似度値、意味的類似度値、及び測定単位類似度値のうちの少なくとも1つに基づき得る。方法は、総類似度値が閾値よりも小さい場合に第1カラム及び第2カラムをクラスタに加えることを更に含んでもよい。更に、方法は、特徴量エンジニアリング関数を使用することによって行われる可能性がある、クラスタに加えるべき新しいカラムを生成することを含んでもよく、新しいカラムには、新しいタイトル及び新しい値が含まれてよく、新しい値は、第1カラムの第1値及び第2カラムの第2値の少なくとも1つに作用することによって特徴量エンジニアリング関数を用いて決定され得る。更に、方法は、新しいカラムをデータセットに加えることを含んでもよい。
【0007】
本開示の1つ以上の実施形態は方法を含んでもよい。方法は、1つ以上のカラムを有するデータセットを取得することを含んでよく、1つ以上のカラムの夫々には、タイトル及び少なくとも1つの値が含まれ得る。方法は、1つ以上のカラムの夫々について、タイトルと、少なくとも1つの値からのサンプル値とを抽出することを更に含んでもよい。更に、方法は、1つ以上のカラムの夫々についてタイトル及びサンプル値に基づいて質問を合成することを含んでよい。方法は、回答を得るよう質問を言語モデルへ送信することを更に含んでもよく、更には、方法は、質問に対する前記回答から、少なくとも1つのカラムの夫々の少なくとも1つの値に対する予測された測定の単位を生成することを含んでもよい。
【0008】
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に指摘されている要素、特徴、及び組み合わせによって、実現及び達成される。前述の概要及び以下の詳細な説明はいずれも例示及び説明であり、請求されている発明の限定ではないことが理解されるべきである。
【図面の簡単な説明】
【0009】
例となる実施形態が、添付の図面の使用を通じて、追加の特定及び詳細をもって記載及び説明される。
【0010】
自動化されたカスタム特徴量エンジニアリングを利用することができるシステムの実施形態を例示する。
データセットに加えるべき複数の新しいカラムを生成するよう構成されるシステムの実施形態を例示する。
メタデータ類似度値を計算するための情報を抽出する方法の例のフローチャートを表す。
メタデータ類似度値を決定する方法の例のフローチャートを表す。
意味的類似度値を決定する方法の例のフローチャートを表す。
データセット内の値について予測された測定の単位を生成する方法の例のフローチャートを表す。
予測された2つの単位の間の単位類似度値を決定する方法の例のフローチャートを表す。
言語モデルに対する複数の質問を生成する方法の例のフローチャートを表す。
多数決投票により予測された測定の単位を決定する方法の例のフローチャートを表す。
データセットに加えるべき新しい値を含む新しいカラムを生成する方法の例のフローチャートを表す。
本開示のいくつかの実施形態に従って全て配置されているコンピューティングシステムの例のブロック図を表す。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
電子装置及び改竄検知方法
6日前
富士通株式会社
情報処理プログラムおよび情報処理装置
今日
富士通株式会社
情報処理方法および情報処理プログラム
8日前
富士通株式会社
プログラム、算出方法および情報処理装置
1日前
富士通株式会社
スイッチング電源、増幅装置及び通信装置
8日前
富士通株式会社
車両経路選択問題及びその変形例の経路生成
6日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
今日
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
今日
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
今日
富士通株式会社
画像処理プログラム、画像処理方法および画像処理装置
6日前
富士通株式会社
データベース管理プログラム、データベース管理方法、および情報処理装置
1日前
富士通株式会社
ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体
2日前
富士通株式会社
ブロックチェーン管理プログラム、ブロックチェーン管理装置及びブロックチェーン管理方法
2日前
個人
暗号化記憶媒体
27日前
個人
プロジェクター
1か月前
個人
管理装置
1か月前
個人
求人支援システム
16日前
キヤノン電子株式会社
周辺機器
1か月前
個人
求人マッチングサーバ
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
株式会社ワコム
電子ペン
2日前
シャープ株式会社
情報出力装置
14日前
トヨタ自動車株式会社
検査装置
1か月前
株式会社ワコム
電子ペン
28日前
アスエネ株式会社
水管理の方法
1か月前
株式会社ワコム
電子ペン
1か月前
株式会社寺岡精工
システム
1か月前
東洋電装株式会社
操作装置
2日前
東洋電装株式会社
操作装置
2日前
大日本印刷株式会社
作業台
1か月前
東洋電装株式会社
操作装置
2日前
CKD株式会社
遠隔支援システム
1か月前
株式会社NGA
画像投稿システム
1か月前
続きを見る