TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025168309
公報種別公開特許公報(A)
公開日2025-11-07
出願番号2025071962
出願日2025-04-24
発明の名称データ異常検出システム
出願人イーベイ インク.,EBAY INC.
代理人個人,個人,個人,個人
主分類G06F 11/34 20060101AFI20251030BHJP(計算;計数)
要約【課題】データ異常を検出する改良されたシステム及び方法を提供する。
【解決手段】データ分析システムは、データプラットフォーム上で生成されたデータにアクセスし、データを分析して、データ異常を検出する。分析することは、主成分分析(PCA)を使用して、次元の数を低減することなく最適座標系を生成することと、次元の数を低減することなくデータを最適座標系に変換することと、最適座標系上で変換されたデータに対してシグマルールを適用することと、を含む。シグマルールは、3シグマルールとすることができる。データ分析システムはまた、データ異常に関する通知又はアラートを生成し、ユーザ又はダウンストリームコンポーネントに送信することと、データ異常を除去して、更新されたデータを導出し、更新されたデータを使用のためにダウンストリームシステムに提供することと、を含む。
【選択図】図5
特許請求の範囲【請求項1】
方法であって、
サーバが、データプラットフォーム上で生成されたデータにアクセスするステップと、
前記サーバが、アクセスされた前記データにおける1つ又は複数のデータ異常を検出するステップであって、
主成分分析(PCA)を使用して、次元の数を低減することなく最適座標系を生成することと、
次元の数を低減することなく、前記データを前記最適座標系に変換することと、
前記最適座標系上の変換された前記データにシグマルールを適用することと、を含む前記1つ又は複数のデータ異常を検出するステップと、
前記サーバが、前記1つ又は複数のデータ異常の通知を生成して送信するステップと、を含む方法。
続きを表示(約 1,000 文字)【請求項2】
前記シグマルールは、3シグマルールを含む、請求項1に記載の方法。
【請求項3】
前記シグマルールが、2シグマルール、4シグマルール、又は5シグマルールのうちの1つを含む、請求項1に記載の方法。
【請求項4】
前記通知を生成して送信するステップは、前記1つ又は複数のデータ異常の表示を異常解析システムに提供することを含み、前記異常解析システムは、前記1つ又は複数のデータ異常に対してさらなる解析を実行する、請求項1に記載の方法。
【請求項5】
前記1つ又は複数のデータ異常を自動的に除去して、修正されたデータを生成するステップをさらに含む請求項1に記載の方法。
【請求項6】
前記1つ又は複数のデータ異常が自動的に除去された前記修正されたデータを使用して機械学習モデルをトレーニングするステップをさらに含む請求項5に記載の方法。
【請求項7】
前記機械学習モデルをトレーニングするステップは、推奨情報を提供するために推奨モデルをトレーニングすることを含む、請求項6に記載の方法。
【請求項8】
前記最適座標系を生成することは、分散を最大化することに基づいて行われる、請求項1に記載の方法。
【請求項9】
前記最適座標系を生成することは、線形回帰に基づいて行われる、請求項1に記載の方法。
【請求項10】
システムであって、
1つ又は複数のプロセッサと、
命令を保存するメモリと、を備え、前記命令は、前記1つ又は複数のプロセッサによる実行時に、前記1つ又は複数のプロセッサに、
データプラットフォーム上で生成されたデータにアクセスするステップと、
アクセスされた前記データにおける1つ又は複数のデータ異常を検出するステップであって、
主成分分析(PCA)を使用して、次元の数を低減することなく最適座標系を生成することと、
次元の数を低減することなく、前記データを前記最適座標系に変換することと、
前記最適座標系上の変換された前記データにシグマルールを適用することと、を含む前記1つ又は複数のデータ異常を検出するステップと、
前記1つ又は複数のデータ異常の通知を生成して送信するステップと、を含む処理を実行させる、システム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本明細書に開示される主題は、概して、データ異常検出に関する。具体的には、本開示は、新たな座標系を生成し、データを新たな座標系に変換し、シグマ統計ルールを適用することによって、データ異常を検出するシステム及び方法に対処する。
続きを表示(約 3,300 文字)【背景技術】
【0002】
データプラットフォームには、日々実行される数万のパイプラインジョブがあり得る。これらのジョブは、大量のデータを生成する。これは、いかにしてデータを効率的に監視し、異常なデータ又はデータ異常を正確に検出するかという問題につながる。データ異常が検出及び修正されない場合、データ異常は、ダウンストリームのプロセス又はシステムにおいて不正確な結果を引き起こす可能性がある。
【図面の簡単な説明】
【0003】
データ異常検出のための3シグマルールを示す図である。
シグマルールを使用して検出できないデータ異常を示す例示的なプロットを示す図である。
主成分分析を使用して生成された最適座標系上の例示的なプロットを示す図である。
例示的な実施形態による、シグマルールを使用してデータ異常を検出するのに適した例示的なネットワーク環境を示す図である。
例示的な実施形態による、データ分析システム及び例示的なダウンストリームシステムのコンポーネントを示す図である。
例示的な実施形態による、シグマルールを使用してデータ異常を検出するための方法の処理を示すフローチャートである。
いくつかの例による、機械記憶媒体から複数の命令を読み取り、本明細書において説明される複数の方法のうちの任意の1つ又は複数を実行することが可能である機械の複数のコンポーネントを示すブロック図である。
【発明を実施するための形態】
【0004】
以下の説明では、本主題の複数の例を示すシステム、方法、技法、命令シーケンス、及びコンピューティングマシンプログラム製品について説明する。以下の説明では、本主題の様々な例の理解を提供するために、説明の目的で多数の具体的な詳細が記載されている。しかしながら、本主題の様々な例がこれらの具体的な詳細のうちのいくつか又は他のもの無しに実施され得ることは、当業者には明らかであろう。複数の例は、単に可能である変形を代表するものである。別段に明記されていない限り、複数の構造(例えば、複数の構造的コンポーネント)は、任意選択的であり、組み合わせられるか、又は細分化され得、(例えば、プロシージャ、アルゴリズム、又は他の機能における)複数の動作は、シーケンスが変化するか、あるいは組み合わせられるか、又は細分化され得る。
【0005】
例示的な実施形態は、データプラットフォーム上で生成されたデータにおける異常を効率的かつ正確に検出するという技術的課題に対処する。シグマ統計ルール(「シグマルール」とも呼ばれる)は、異常データを検出するための一般的な手法である。特に、3シグマルールは、データ異常を検出するために使用されることができ、それによって、正常データは、図1Aに示されるように、μ-3σとμ+3σとの間(例えば、3シグマの正常範囲)にある。ここで、μは、分布の平均値であり、σは、その標準偏差である。これらの2つのパラメータは、統計に基づいて取得され、3シグマの正常範囲(点線で示される)外の任意の外れ値(例えば、データ点102)を識別するために使用され得る。例示的な実施形態は、3シグマルールを参照して本明細書で説明されるが、他のシグマルールも使用され得る。例えば、3シグマルールに代えて、2シグマルール、4シグマルール、5シグマルール等を用いることができる。
【0006】
しかしながら、シグマルールではデータ異常を正確に検出できない状況がある。統計において、相関は、2つのランダム変数間の任意の統計的関係であり、通常、一対の変数が線形に関連する程度を指す。図1Bを参照すると、シグマルールを使用して検出できないデータ異常を示す例示的なプロットが示されている。図1Bを観察している人間には、データ点Aが外れ値であることは明らかであるが、コンピュータは、既知のシグマルールを使用して外れ値を検出することができない。プロットは、変数Xと変数Yとの関係を示す。例えば、Xを検出するために3シグマルールが使用される場合、正常範囲は7~9である。Yについては、正常範囲は0.9~1.15である。従って、データ点Aは、そのX値及びY値がそれぞれの正常範囲の間にあるため、外れ値とは見なされない。しかしながら、「実際の」正常範囲は、実線104に沿ったものである。
【0007】
3シグマルール又は一般的なシグマルールの欠点に対処するために、例示的な実施形態は、主成分分析(principal component analysis : PCA)を使用して新たな最適座標系を生成する。1つの例示的な実施形態では、最適座標系は、2つ以上の次元データの分散を最大化することに基づいて生成される。代替実施形態では、最適座標系は、2次元データに対する線形回帰に基づいて生成される。ここで図2を参照すると、主成分分析を使用して生成された最適座標系上の例示的なプロットが示されている。新たなX軸及びY軸を用い、かつシグマルール(例えば、破線として示される)を適用した結果、点Aは、明らかにシグマルールの範囲内になく、外れ値である。図1A、図1B、及び図2の例は、2次元データ点を示すが、例示的な実施形態は、任意の多次元データ点(例えば、3次元データ点)にも適用される。最適座標系を生成するためのプロセスは、以下でより詳細に説明される。
【0008】
従って、例示的な実施形態は、データプラットフォーム上で生成された大規模なデータ群についてデータ異常を効率的かつ正確に検出するという技術的課題に対処する。一般的なPCA技術とは異なり、次元の数を低減することなく、PCAを使用して新たな座標系が最初に構築される。次に、分析対象のデータは、新たな座標系に変換される。変換後、シグマルールが適用され、データ異常が検出され出力される。いくつかの実施形態では、データ異常は、さらなる動作のために修正されたデータをダウンストリームのシステムに送信する前に除去され得る。従って、例示的な実施形態は、データ異常を正確に検出し、ダウンストリームのコンポーネント、処理、及び結果に悪影響を及ぼさないようにこれらの異常を訂正することによって、コンピュータ機能及び動作を改善する技術的な解決手段を提供する。
【0009】
図3は、例示的な実施形態による、シグマ(統計)ルールを使用してデータ異常を検出するのに適した例示的なネットワーク環境300を示す図である。ネットワークシステム302は、通信ネットワーク304(例えば、インターネット、無線ネットワーク、セルラーネットワーク、又は広域ネットワーク(WAN))を介して、サーバ側の機能を複数のユーザデバイス306に提供する。ネットワークシステム302は、大量のデータを生成するデータプラットフォームを有する任意のエンティティを備えることができる。例えば、ネットワークシステム302は、銀行サイト、電子商取引サイト、旅行関連サイト、ソーシャルネットワーキングサイトなどに関連付けることができる。
【0010】
様々な場合において、ユーザデバイス306は、ネットワークシステム302のユーザのユーザアカウントに関連付けられたデバイスである。いくつかの場合において、ユーザデバイス306は、検索、トランザクション、又は他のプロセスを実行するためにネットワークシステム302を使用する個人のデバイスであり、従って、ネットワークシステム302においてデータの生成をトリガする。他の場合には、ユーザデバイス306は、ネットワークシステム302のオペレータ又は管理者である個人に関連付けられたデバイスであり、そのユーザデバイス306を使用して、データを監視及び分析し、かつ/又はデータ異常を修正(例えば、除去)する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

イーベイ インク.
データ異常検出システム
3日前
イーベイ インク.
コンポーネントの取り扱いおよび取り付けのための自律型技術者システム
2か月前
個人
詐欺保険
27日前
個人
縁伊達ポイン
27日前
個人
RFタグシート
14日前
個人
5掛けポイント
3日前
個人
QRコードの彩色
1か月前
個人
ペルソナ認証方式
11日前
個人
地球保全システム
1か月前
個人
情報処理装置
6日前
個人
自動調理装置
13日前
個人
為替ポイント伊達夢貯
2か月前
個人
冷凍食品輸出支援構造
2か月前
個人
表変換編集支援システム
2か月前
個人
農作物用途分配システム
26日前
個人
残土処理システム
1か月前
個人
知財出願支援AIシステム
2か月前
個人
知的財産出願支援システム
1か月前
個人
タッチパネル操作指代替具
20日前
個人
インターネットの利用構造
10日前
個人
AIによる情報の売買の仲介
2か月前
個人
携帯端末障害問合せシステム
19日前
個人
スケジュール調整プログラム
19日前
個人
行動時間管理システム
2か月前
個人
パスワード管理支援システム
2か月前
株式会社キーエンス
受発注システム
1か月前
個人
システム及びプログラム
1か月前
株式会社アジラ
進入判定装置
2か月前
個人
パスポートレス入出国システム
2か月前
個人
海外支援型農作物活用システム
1か月前
日本精機株式会社
施工管理システム
2か月前
個人
食品レシピ生成システム
1か月前
個人
エリアガイドナビAIシステム
11日前
個人
AIキャラクター制御システム
2か月前
株式会社キーエンス
受発注システム
1か月前
株式会社キーエンス
受発注システム
1か月前
続きを見る