TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025130695
公報種別
公開特許公報(A)
公開日
2025-09-08
出願番号
2025019689
出願日
2025-02-10
発明の名称
生成人工知能を使用したデータセット符号化
出願人
富士通株式会社
代理人
弁理士法人ITOH
主分類
G06N
20/00 20190101AFI20250901BHJP(計算;計数)
要約
【課題】生成人工知能を使用したデータセット符号化の方法等を提供する。
【解決手段】動作は、データセットに対応する特徴を特定することを含み得る。各特徴の埋め込みは、予め訓練された生成人工知能モデルを用いて取得され得る。埋め込みのペア比較が生成され得る。予め訓練された生成人工知能モデル生成人工知能モデルを用いて計算された重みをペア比較に適用することによって、符号化されたデータセットが生成され得る。重みは、ペア比較における特徴間の相関を示し得る。
【選択図】図2A
特許請求の範囲
【請求項1】
データセットに対応する複数の特徴を特定することと、
予め訓練された生成人工知能モデルを用いて前記複数の特徴の各々の特徴ごとに各々の埋め込みを取得することと、
前記各々の埋め込みのペア比較を生成することと、
前記予め訓練された生成人工知能モデルを用いて計算された重みを前記ペア比較に適用することによって、符号化されたデータセットを生成することであり、前記重みは前記ペア比較における特徴間の相関を示す、ことと
を有する方法。
続きを表示(約 1,200 文字)
【請求項2】
前記複数の特徴は、前記データセットに関係がある1つ以上のヘッダに含まれているテキストを含む、
請求項1に記載の方法。
【請求項3】
前記複数の特徴の各々の特徴ごとの前記各々の埋め込みは、単語埋め込み又は文脈埋め込みのうちの1つ以上を含む、
請求項1に記載の方法。
【請求項4】
前記重みは、コサイン類似度を用いて計算される、
請求項1に記載の方法。
【請求項5】
機械学習(ML)モデルを訓練するために前記符号化されたデータセットを使用することと、
前記MLモデルを用いて1つ以上の動作を実行することと
を更に有する、請求項1に記載の方法。
【請求項6】
前記MLモデルを訓練するために前記符号化されたデータセットを使用することは、前記重みの中のある重みが前もってセットされた条件を満足したことに応答して当該重みをゼロにセットする少なくとも1つのハイパーパラメータを使用することを更に含む、
請求項5に記載の方法。
【請求項7】
前記MLモデルを用いて1つ以上の動作を実行することは、前記データセットに関係がある1つ以上の入力と第1閾ハイパーパラメータとを用いて1つ以上のターゲット変数の予測を取得することを有する、
請求項5に記載の方法。
【請求項8】
前記複数の特徴が前記データセットを記述しないことに応答して、前記方法は、
前記1つ以上のターゲット変数の前記予測を取得した後、第2閾ハイパーパラメータを用いて前記1つ以上のターゲット変数の前記予測を改善することを更に含み、
前記第2閾ハイパーパラメータは前記第1閾ハイパーパラメータよりも低い、
請求項7に記載の方法。
【請求項9】
1つ以上のプロセッサによって実行されるとき、システムに動作を実行させる命令を記憶している1つ以上の非一時的なコンピュータ可読媒体であって、
前記動作は、
データセットに対応する複数の特徴を特定することと、
予め訓練された生成人工知能モデルを用いて前記複数の特徴の各々の特徴ごとに各々の埋め込みを取得することと、
前記各々の埋め込みのペア比較を生成することと、
前記予め訓練された生成人工知能モデルを用いて計算された重みを前記ペア比較に適用することによって、符号化されたデータセットを生成することであり、前記重みは前記ペア比較における特徴間の相関を示す、ことと
を有する、1つ以上の非一時的なコンピュータ可読媒体。
【請求項10】
前記複数の特徴は、前記データセットに関係がある1つ以上のヘッダに含まれているテキストを含む、
請求項9に記載の1つ以上の非一時的なコンピュータ可読媒体。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、概して、機械学習モデルのためのデータセットを符号化するために生成人工知能を使用することに関係がある。
続きを表示(約 2,300 文字)
【背景技術】
【0002】
機械学習(Machine Learning,ML)は、一般に、訓練が進むにつれて正確になる予測を行うように訓練データセットを用いて訓練されたMLモデルを採用している。訓練データセットの数量及び次元は、MLモデルによって行われる予測の精度及び信頼性に影響を与える。MLは、住宅市場予測、ウェブ検索、オンライン不正検出、医療診断、発話認識、電子メールフィルタリング、画像認識、バーチャル・パーソナル・アシスタント、及び自動翻訳を含むがこれらに限られない幅広い様々な用途で使用される可能性がある。
【0003】
本開示で請求されている主題は、上述されたような環境でしか動作しない実施形態又は上述されたようなあらゆる欠点を解決する実施形態に制限されない。むしろ、この背景は、本開示で記載されているいくつかの実施形態が実施される可能性がある技術範囲を例として示すためにのみ与えられている。
【発明の概要】
【0004】
実施形態の側面に従って、動作は、データセットに対応する特徴を特定することを含み得る。予め訓練された生成人工知能モデルが、特徴の夫々について埋め込み(例えば、特徴埋め込み)を取得し得る。また、埋め込みのペア比較が生成され得る。予め訓練された生成人工知能モデルを用いて計算された重みを、データセット内で特定された特徴の夫々についての埋め込みのペア比較に適用することによって、符号化されたデータセットが生成され得る。
【0005】
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に挙げられている要素、特徴、及び組み合わせによって、実現及び達成されるだろう。上記の概要及び下記の詳細な説明は両方とも例示であって、請求されている本発明を限定するものではない、ことが理解されるべきである。
【図面の簡単な説明】
【0006】
データセットを符号化するプロセスの例を表す。
データセットを符号化するシステムの例を表す。
符号化されたデータセットの例を表す。
機械学習モデルを訓練するために使用されるデータセットを符号化するプロセスの例を表す。
生成人工知能を用いてデータセットを符号化する方法の例のフローチャートを表す。
例となるコンピューティングシステムである。
【発明を実施するための形態】
【0007】
図面に表されているものは全て、本開示の1つ以上の実施形態に従う。添付の図面の使用により、例となる実施形態は、更なる特定及び詳細を用いて記載及び説明されるだろう。
【0008】
機械学習(ML)モデルは、予測を行うために訓練データセットを用いて訓練され得る。訓練データセットは、MLモデルを訓練するために使用される訓練インスタンス又は個別的なデータポイントを含み得る。個別的なデータポイントは、MLモデルが予測するよう設計され得る特徴及び1つ以上のターゲット変数に対応し得る。特徴は、MLモデルが予測を行うために使用できるデータの特性を定義し得る。特徴は、とりわけ、数値、カテゴリ、及び/又はテキストベースなどの様々なデータタイプを含み得る。特徴は、表形式のデータセットのカラムヘッダ内など、データセットに関係がある1つ以上のヘッダに含まれ得る。
【0009】
いくつかの実施形態で、生成人工知能(Artificial Intelligence,AI)を用いて訓練データセットを符号化することは、1人以上の人間(例えば、データサイエンティスト/特徴エンジニア/ドメインエキスパート)が手動でデータセットを符号化していた従来のアプローチと比較して、表形式のデータセット内の特徴を特定すること及び/又は特徴のペア比較を生成することの精度及び/又は効率を向上させ得る。例えば、訓練データセットを符号化するために生成AIを使用することは、ヒューマンバイアス/エラーを減らし得る。
【0010】
いくつかの事例では、訓練データセットを符号化することは、訓練データセットがMLモデルに適した追加的特徴の組で表現される状況においてなど、正確な予測を行うためのMLモデル及びMLモデルの能力の訓練を改善し得る。例えば、訓練データセットは、複数の行及び列を持った表形式で表現され得る。かような事例で、列は、訓練データセットの特徴を表すことができ、行は、特徴の個別的なインスタンス又はデータポイントを表すことができる。幅広い範囲の既知の表現及び予め訓練されたモデルが利用可能であり得るので、MLモデル(例えば、ディープMLモデル)は、一般に、画像データなどの構造化されていないデータの方がパフォーマンスが良い。しかし、画像データとは異なり、表形式のデータの場合は、よく知られている表現や予め訓練されたモデルが存在しない。よく知られている表現及び/又は予め訓練されたモデルのこのような不存在を引き起こす可能性があるいくつかの問題は、局所性の欠如、データのスパース性、特徴タイプの混在、及び/又はデータセット構造の知識の欠如などの、表形式のデータに付随した課題である場合がある。表形式のデータセットである訓練データセットを符号化することは、表形式のデータセットに関係があるターゲット変数の正確な予測を行うために表形式のデータセットに対するMLモデルの訓練及び/又はMLモデルの能力を改善し得る。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
医用画像処理方法
1か月前
富士通株式会社
ハイブリッド光増幅器
9日前
富士通株式会社
転倒検出方法及び装置
27日前
富士通株式会社
量子デバイスの製造方法
21日前
富士通株式会社
データセット特徴タイプ推論
2か月前
富士通株式会社
制御装置及び基地局制御方法
1か月前
富士通株式会社
信号相関量の確定装置と方法
2か月前
富士通株式会社
量子ビットデバイスの製造方法
1か月前
富士通株式会社
マーキング方法及びプログラム
1か月前
富士通株式会社
ポイントクラウドレジストレーション
21日前
富士通株式会社
バイアスのための生成人工知能の検査
2か月前
富士通株式会社
データ転送制御装置および情報処理装置
27日前
富士通株式会社
視線誘導方法および視線誘導プログラム
16日前
富士通株式会社
データ転送制御装置および情報処理装置
27日前
富士通株式会社
制御プログラム、制御方法及び決済装置
2か月前
富士通株式会社
量子デバイス及び量子デバイスの制御方法
1か月前
富士通株式会社
生成人工知能を使用したデータセット符号化
2日前
富士通株式会社
無線アクセスネットワークプロビジョニング
2か月前
富士通株式会社
描画プログラム、描画方法および情報処理装置
1か月前
富士通株式会社
学習プログラム、学習方法および情報処理装置
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
20日前
富士通株式会社
画像を記述する構造化テキストを生成する方法
15日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
14日前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
26日前
富士通株式会社
電源制御回路,情報処理装置および電源制御方法
23日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
1か月前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
29日前
富士通株式会社
表示制御プログラム、表示制御方法及び情報処理装置
1か月前
富士通株式会社
レース内容再現方法およびレース内容再現プログラム
1日前
富士通株式会社
光送信機アナログ特性の監視装置と方法及び光送信機
2日前
富士通株式会社
情報処理プログラム,情報処理方法および情報処理装置
今日
富士通株式会社
調達管理プログラム,調達管理方法,及び情報処理装置
29日前
富士通株式会社
行動予測プログラム、行動予測装置および行動予測方法
21日前
富士通株式会社
予測制御プログラム、情報処理装置および予測制御方法
8日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
1か月前
続きを見る
他の特許を見る