TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024120169
公報種別公開特許公報(A)
公開日2024-09-04
出願番号2024024572
出願日2024-02-21
発明の名称自動探索的データ解析(EDA)
出願人富士通株式会社
代理人個人,個人
主分類G06N 20/00 20190101AFI20240828BHJP(計算;計数)
要約【課題】自動探索的データ解析(EDA)のための方法等を提供する、
【解決手段】実施形態で、データセットに関連した第1変数に関する第1のデータポイントの組に対して統計解析ツールが適用される。統計解析ツールの適用に基づき、第1変数に関する統計情報が決定される。決定された統計情報に基づき、第1のデータポイントの組に関連したパターンの組が決定される。その後、決定されたパターンの組に関連した第1の事前定義されたテンプレートの組が決定される。更に、読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対して自然言語モデルが適用される。読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対する自然言語モデルの適用に基づき、決定されたパターンの組の第1テキスト説明が決定される。更に、決定された第1テキスト説明は表示デバイスでレンダリングされる。
【選択図】図6
特許請求の範囲【請求項1】
プロセッサが実行する方法であって、
変数の組に関連するデータポイントを含むデータセットを受け取ることと、
受け取られた前記データセットを自動的に解析するよう統計解析ツールの組から統計解析ツールを選択することと、
前記変数の組の中の第1変数を選択することと、
選択された前記第1変数に関連する第1のデータポイントの組に対して、選択された前記統計解析ツールを適用することと、
前記第1のデータポイントの組に対する前記選択された統計解析ツールの適用に基づいて、前記選択された第1変数に関連する統計情報を決定することと、
前記選択された第1変数に関連する決定された前記統計情報に基づいて、前記第1のデータポイントの組に関連したパターンの組を自動的に決定することと、
決定された前記パターンの組に関連した第1の事前定義されたテンプレートの組を読み出すことと、
読み出された前記第1の事前定義されたテンプレートの組及び前記決定された統計情報に対して自然言語モデルを適用することと、
前記読み出された第1の事前定義されたテンプレートの組及び前記決定された統計情報に対する前記自然言語モデルの適用に基づいて、前記決定されたパターンの組の第1テキスト説明を自動的に決定することと、
決定された前記第1テキスト説明をレンダリングするよう表示デバイスを制御することと
を有する方法。
続きを表示(約 2,200 文字)【請求項2】
前記統計解析ツールの組は、順序値、歪度、尖度、データ整合性、興味ある値、外れ値、カテゴリ的無順序一変量解析、一変量解析、二変量解析、多変量解析、又は目標値、のうちの少なくとも1つを決定又は説明するためのツールの組に対応する、
請求項1に記載の方法。
【請求項3】
前記決定された統計情報に基づいて、前記第1のデータポイントの組が事前定義された条件を満足するかどうかを決定することを更に有し、
前記第1のデータポイントの組に関連した前記パターンの組の決定は、前記第1のデータポイントの組が前記事前定義された条件を満足するとの決定に更に基づく、
請求項1に記載の方法。
【請求項4】
前記第1のデータポイントの組が、前記選択された第1変数に関連した第1データタイプに関連した事前定義された条件を満足するかどうかを決定することと、
前記第1のデータポイントの組が前記事前定義された条件を満足するとの決定に基づいて、前記第1のデータポイントの組の中の1つ以上の第2データタイプを前記第1データタイプに自動的に更新することと、
前記第1データタイプへの前記第1のデータポイントの組のうちの前記1つ以上の前記第2データタイプの更新に基づいて、更新されたデータセットを取得することと
を更に有する、請求項1に記載の方法。
【請求項5】
前記事前定義された条件に関連した第2の事前定義されたテンプレートの組を読み出すことと、
読み出された前記第2の事前定義されたテンプレートの組及び前記第1のデータポイントの組の中の前記1つ以上の前記第2データタイプに対して前記自然言語モデルを適用することと、
前記読み出された第2の事前定義されたテンプレートの組及び前記第1のデータポイントの組の中の前記1つ以上の前記第2データタイプに対する前記自然言語モデルの適用に基づいて、取得された前記更新されたデータセットの第2テキスト説明を自動的に決定することと、
決定された前記第2テキスト説明をレンダリングするよう前記表示デバイスを制御することと
更に有する、請求項4に記載の方法。
【請求項6】
機械言語(ML)パイプラインに関連した機械生成コードを受け取ることと、
受け取られた前記機械生成コードを前記取得された更新されたデータセットに対して適用することと、
前記取得された更新されたデータセットに対する前記受け取られた機械生成コードの適用に基づいて、MLモデルを生成することと
を更に有する、請求項5に記載の方法。
【請求項7】
前記第1のデータポイントの組から、前記選択された第1変数に関連した固有値の組を決定することと、
決定された前記固有値の組が順序値に対応するかどうかを決定することであり、前記第1のデータポイントの組に関連した前記パターンの組の決定は、前記決定された固有値の組が前記順序値に対応するとの決定に更に基づく、ことと、
前記決定された固有値の組が前記順序値に対応するとの前記決定に基づいて、前記受け取られたデータセットを更新するよう前記順序値を正規化することと
を更に有する、請求項1に記載の方法。
【請求項8】
前記選択された第1変数に関連する前記第1のデータポイントの組が事前定義されたカテゴリの組に対応するかどうかを決定することと、
前記第1のデータポイントの組が前記事前定義されたカテゴリの組に対応するとの決定に基づいて、前記第1のデータポイントの組を符号化することと、
符号化された前記第1のデータポイントの組に基づいて、前記事前定義されたカテゴリの組の中の夫々に関連した値を決定することと、
前記事前定義されたカテゴリの組の中の夫々に関連した決定された前記値の平均を決定することと、
決定された前記平均に基づいて、前記事前定義されたカテゴリの組から外れカテゴリを特定することと
を更に有し、
前記第1のデータポイントの組に関連した前記パターンの組の決定は、前記外れカテゴリの特定に更に基づく、
請求項1に記載の方法。
【請求項9】
前記第1のデータポイントの組に対して変換関数を適用することと、
前記第1のデータポイントの組に対する前記変換関数の適用に基づいて、更新されたデータセットを取得するよう前記第1のデータポイントの組を変換することと
を更に有し、
前記第1のデータポイントの組に関連した前記パターンの組の決定は、前記第1のデータポイントの組の前記変換に更に基づく、
請求項1に記載の方法。
【請求項10】
前記第1のデータポイントの組に関連した歪度を決定することと、
決定された前記歪度を、事前定義された閾値の組と比較することと
を更に有し、
前記第1のデータポイントの組に関連した前記パターンの組の決定は、前記決定された歪度と前記事前定義された閾値の組との前記比較に更に基づく、
請求項1に記載の方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示で議論されている実施形態は、自動探索的データ解析(Exploratory Data Analysis,EDA)に関係がある。
続きを表示(約 3,700 文字)【背景技術】
【0002】
データ解析の分野における進歩は、様々な機械学習モデルの発展をもたらしてきた。機械学習モデルは、未見データを事前定義されたクラスに分類したり、未見データから特定の変数を予測したりするために、データセットに対して訓練され得る。しかし、データセットに関する機械学習モデルの訓練の前に、通常は、データセットは前処理、構造化、及び解析され得る必要があり得る。データセットの前処理には、データクレンジングが含まれることがあり、一方、データセットの構造化には、データ編成及びデータ正規化が含まれることがある。データセットの解析には、前処理及び構造化されたデータセットからの傾向の決定が含まれることがある。傾向の決定に基づき、データセットに関する機械学習モデルの訓練のためにデータセットから特徴を選択するように、データセットに対して特徴エンジニアリングが実行されることがある。通常は、傾向の決定のためのデータセットの解析は、データサイエンティスト、ドメイン専門家、又はデータエンジニアなどの専門家ユーザからの複数のユーザ入力と必要とし得る。傾向を決定するために、専門家ユーザは、1つ以上の解析ツールを使用することによって、ヒューリスティックにデータセットを手動で検査する必要があり得る。データセットのそのような手動検査は非自明的でありかつ時間がかかるタスクであり、特に、大規模である可能性がありかついくつかの特徴により複雑性が高い可能性がある現実世界のデータセットの場合に、専門家ユーザによる多大な労力を必要とすることがある。
【0003】
本開示で請求される対象は、上述されたような環境でしか動作しない実施形態又は如何なる欠点も解消する実施形態に限定されない。むしろ、この背景は、本開示で記載されているいくつかの実施形態が実施され得る技術分野の一例を説明するためにのみ与えられている。
【発明の概要】
【0004】
実施形態の側面に従って、方法は動作の組を含んでもよく、動作の組には、変数の組に関連するデータポイントを含むデータセットを受け取ることが含まれ得る。動作の組は、受け取られたデータセットを解析するよう統計解析ツールの組から統計解析ツールを選択することを更に含んでもよい。動作の組は、変数の組の中の第1変数を選択することを更に含んでもよい。動作の組は、選択された第1変数に関連する第1のデータポイントの組に対して、選択された前記統計解析ツールを適用することを更に含んでもよい。動作の組は、第1のデータポイントの組に対する選択された統計解析ツールの適用に基づいて、選択された第1変数に関連する統計情報を決定することを更に含んでもよい。動作の組は、選択された第1変数に関連する決定された統計情報に基づいて、第1のデータポイントの組に関連したパターンの組を決定することを更に含んでもよい。動作の組は、決定されたパターンの組に関連した第1の事前定義されたテンプレートの組を読み出すことを更に含んでもよい。動作の組は、読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対して自然言語モデルを適用することを更に含んでもよい。動作の組は、読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対する自然言語モデルの適用に基づいて、決定されたパターンの組の第1テキスト説明を決定することを更に含んでもよい。動作の組は、決定された第1テキスト説明をレンダリングするよう表示デバイスを制御することを更に含んでもよい。
【0005】
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせによって、実現及び達成されるだろう。
【0006】
上記の概要及び下記の詳細な説明はいずれも、例として与えられており、請求されている発明の実例であって、限定ではない。
【0007】
例となる実施形態は、添付の図面の使用により、更なる特定及び詳細を持って記載及び説明されるだろう。
【図面の簡単な説明】
【0008】
自動探索的データ解析(EDA)に関する例示的な環境を表す図である。
自動探索的データ解析(EDA)のための例示的な電子デバイスを表すブロック図である。
自動探索的データ解析(EDA)のための実行パイプラインを表す図である。
自動のデータセット修正及びテキスト説明生成のための実行パイプラインを表す図である。
自動のデータセット修正及び機械生成コードに基づいた機械学習モデル生成のための実行パイプラインを表す図である。
自動探索的データ解析のための例示的な方法のフローチャートを表す図である。
自動のデータセット修正、テキスト説明生成、及び機械学習モデル生成のための例示的な方法のフローチャートを表す図である。
カテゴリ変数の順序符号化及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
カテゴリ変数の外れ値の特定及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
データセットの変数に対する変換関数の適用及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
変数のデータポイントの歪度の決定及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
変数のデータポイントの尖度の決定及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
自動のデータタイプ整合性チェック及び不整合データに対する自動のデータセット修正のための例示的な方法のフローチャートを表す図である。
自動のデータタイプ整合性チェック及び不整合データに対する自動のデータセット修正のテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
外れ検出及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
データセットの変数に関連した分布における異常値の決定及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
データセットの変数に関連した異常値の決定及び関連するテキスト説明の生成のための例示的な方法のフローチャートを表す図である。
変数について決定されたパターンの組のテキスト説明及びグラフ表現を含むサマリー結果の生成のための例示的な方法のフローチャートを表す図である。
変数について決定されたパターンの組に関連したテキスト説明の表示のための例示的なシナリオを表す図である。
データセットから決定されたパターンの組に関連したグラフ表現及びテキスト説明を含むサマリー結果の表示のための例示的なシナリオを表す図である。
データセットからのパターンの組の決定及び決定されたパターンの組のテキスト説明の表示のための例示的なシナリオを表す図である。
機械生成コードのテキスト説明の決定のための例示的なシナリオを表す図である。
【発明を実施するための形態】
【0009】
図面は全て、本開示で記載される少なくとも1つの実施形態に係る。
【0010】
本開示で記載されるいくつかの実施形態は、自動探索的データ解析(EDA)のための方法及びシステムに関係がある。本開示では、変数の組に関するデータポイントを含むデータセットが受け取られ得る。受け取られたデータセットを解析するよう、統計解析ツールの組から統計解析ツールが選択され得る。更に、変数の組から、第1変数が選択され得る。その後、選択された第1変数に関連する第1のデータポイントの組に対して、選択された統計解析ツールが適用され得る。更に、第1のデータポイントの組に対する選択された統計解析ツールの適用に基づいて、選択された第1変数に関連する統計情報が決定され得る。その後、選択された第1変数に関連する決定された統計情報に基づいて、第1のデータポイントの組に関連したパターンの組が決定され得る。決定されたパターンの組に関連した第1の事前定義されたテンプレートの組が読み出され得る。更に、読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対して、自然言語モデルが適用され得る。その後、読み出された第1の事前定義されたテンプレートの組及び決定された統計情報に対する自然言語モデルの適用に基づいて、決定されたパターンの組の第1テキスト説明が決定され得る。表示デバイスは、決定された第1テキスト説明をレンダリングするよう制御され得る。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
ラック装置
5日前
富士通株式会社
リスクと診断
6日前
富士通株式会社
目標確定方法と装置
24日前
富士通株式会社
光受信機及び光受信方法
20日前
富士通株式会社
試験装置および試験方法
20日前
富士通株式会社
光伝送装置及び光伝送方法
28日前
富士通株式会社
信号処理装置及び信号処理方法
4日前
富士通株式会社
探索プログラムおよび探索方法
25日前
富士通株式会社
時系列カテゴリデータの動的分類
28日前
富士通株式会社
光センサ及び光センサの製造方法
4日前
富士通株式会社
運転者上下車状態判断方法と装置
24日前
富士通株式会社
動作認識装置と方法及び電子機器
24日前
富士通株式会社
動作認識装置と方法及び電子機器
24日前
富士通株式会社
物品認識装置、方法及び電子機器
24日前
富士通株式会社
光送信器およびタイミング調整方法
11日前
富士通株式会社
表示制御プログラム、方法、及び装置
20日前
富士通株式会社
3点サポートイベント検出方法と装置
24日前
富士通株式会社
ネットワーク装置及びモデル学習方法
20日前
富士通株式会社
機械学習プログラム、方法、及び装置
4日前
富士通株式会社
機械学習プログラム、方法、及び装置
4日前
富士通株式会社
評価プログラム、評価装置及び評価方法
25日前
富士通株式会社
化合物半導体増幅器及び回路モジュール
25日前
富士通株式会社
フォークリフト状態の検出装置及び方法
24日前
富士通株式会社
制御プログラム、制御方法及び情報処理装置
20日前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
10日前
富士通株式会社
評価プログラム,評価方法及び情報処理装置
25日前
富士通株式会社
基板集積導波管アンテナ及びアレイアンテナ
24日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
10日前
富士通株式会社
多層基板および多層基板の配線設計プログラム
25日前
富士通株式会社
光送信装置、遅延制御回路、及び遅延制御方法
24日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
10日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
10日前
富士通株式会社
機械学習のためのグラフセット分析及び可視化
20日前
富士通株式会社
撮影角度決定方法および撮影角度決定プログラム
24日前
富士通株式会社
撮影角度決定方法および撮影角度決定プログラム
24日前
富士通株式会社
検証プログラム、検証方法、および情報処理装置
25日前
続きを見る