TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025099969
公報種別
公開特許公報(A)
公開日
2025-07-03
出願番号
2023217006
出願日
2023-12-22
発明の名称
データ間の依存性判定システム、データ間の依存性判定プログラム、及び、データ間の依存性判定方法
出願人
合同会社ふうたシステムサービス
代理人
弁理士法人上野特許事務所
主分類
G06F
17/18 20060101AFI20250626BHJP(計算;計数)
要約
【課題】データ間の依存関係をより効率的に、高速に、判定可能とする。
【解決手段】互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備える、データ間の依存性判定システムによりこれを解決する。
【選択図】図6
特許請求の範囲
【請求項1】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備える、
データ間の依存性判定システム。
続きを表示(約 2,400 文字)
【請求項2】
前記偏り評価手段は、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数(Gini Coefficient)で前記偏りを定量化する、
請求項1に記載のデータ間の依存性判定システム。
【請求項3】
前記偏り又はその平均値が大きいほど、前記第2データの増減が前記第1データの増減に依存している可能性が高く、前記偏りが小さいほど、その可能性が低いと評価する、依存可能性評価手段をさらに備える、
請求項1に記載のデータ間の依存性判定システム。
【請求項4】
前記第1データとなるデータセットには複数の候補があり、
前記複数の候補のうち、前記偏り評価手段により定量化された、前記第2データの階級間における前記出現数の偏り又はその平均値が、所定の大きさ以上となった候補を抽出する、第1フィルタ手段をさらに備える、
請求項1に記載のデータ間の依存性判定システム。
【請求項5】
前記分布取得手段は、前記第1データの複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、
前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの階級間における前記出現数の偏りを定量化し、
前記第1データの階級ごとの、前記第2データの各階級の前記出現数の総数を重みとして、前記偏りの加重平均を求める平均化手段をさらに備える、
請求項1に記載のデータ間の依存性判定システム。
【請求項6】
前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で前記偏りを定量化し、
前記平均化手段は、次式により前記加重平均を求める、
請求項5に記載のデータ間の依存性判定システム。
JPEG
2025099969000006.jpg
21
116
An:第1データの各階級
Gini
B
|
An
:第1データの階級ごとの第2データのジニ係数
numAn:第1データの階級ごとの前記出現数の総数
totalGini
A→B
:第2データの前記偏りの加重平均
【請求項7】
前記分布取得手段はさらに、前記第2データのその全体におけるいずれかの階級について、その階級に含まれる前記第2データ値に紐付く前記第1データ値から、これら第1データ値が属する各階級の出現数を取得し、
前記偏り評価手段はさらに、前記第1データの階級間における前記出現数の偏りを定量化する、
請求項1に記載のデータ間の依存性判定システム。
【請求項8】
前記偏り評価手段が定量化した、前記第2データの階級間における前記出現数の偏りと、前記第1データの階級間における前記出現数の偏りとから、これら第1データ及び第2データ間の依存の向き及び程度を評価する、非対称性判定手段をさらに備える、
請求項7に記載のデータ間の依存性判定システム。
【請求項9】
前記第1データとなるデータセットには複数の候補があり、
前記複数の候補のうち、前記非対称性判定手段により、前記第2データが依存していること、又は、前記第2データの依存度が所定の程度以上であることが特定された候補を抽出する、第2フィルタ手段をさらに有する、
請求項8に記載のデータ間の依存性判定システム。
【請求項10】
前記分布取得手段は、前記第1データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、
前記偏り評価手段は、前記第1データの前記複数の階級のそれぞれについて、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第2データの階級間における前記出現数の偏りを定量化し、
前記第1データの前記複数の階級における階級ごとの、前記第2データの各階級の前記出願数の総数を重みとして、前記第2データの前記偏りの加重平均を求める平均化手段をさらに備え、
前記分布取得手段はさらに、前記第2データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第2データ値に紐付く前記第1データ値の各階級の前記出現数を取得し、
前記偏り評価手段はさらに、前記第2データの前記複数の階級のそれぞれについて、前記第1データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第1データの階級間における前記出現数の偏りを定量化し、
前記平均化手段はさらに、前記第2データの前記複数の階級における階級ごとの、前記第1データの各階級の前記出現数の総数を重みとして、前記第1データの前記偏りの加重平均を求め、
前記非対称性判定手段は、次式により、前記第1データ及び前記第2データ間の依存の向き及び程度を求める、
請求項8に記載のデータ間の依存性判定システム。
JPEG
2025099969000007.jpg
16
80
totalGini
A→B
:第2データの前記偏りの加重平均
totalGini
B→A
:第1データの前記偏りの加重平均
Dependency:第1データ及び第2データ間の依存の向き及び程度
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明はデータ解析技術に関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
下記特許文献1には、変数間の依存関係を示すベイジアンネットモデルの作成方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
特開2005-107747号
【発明の概要】
【発明が解決しようとする課題】
【0004】
データ間の依存関係の解析手法として、ベイズ推定(ベイジアンネット)が広く利用されている。ベイズ推定は、事後確率の計算に多次元積分が必要になることがあり、多数のパラメータを含む複雑な依存関係のモデルでは、その積分計算が長時間に及ぶことがある。また、ベイズ推定の計算には通常、マルコフ連鎖モンテカルロ(MCMC)法やその他のサンプリング手法が用いられるが、これらは多くの反復計算を必要とするため、計算量が膨大になりやすい。さらに、多くの特徴や観測点を持つ高次元データセットでは、いわゆる「次元の呪い」と呼ばれる現象が発生し、計算の効率が悪化するという課題もある。
【0005】
ベイズ推定を用いた依存関係の解析は、このような高い計算コストにより、これをリアルタイムでのデータ分析やオンライン学習等に適用することは困難である。また、ベイズ推定は計算リソース(CPU、メモリ、場合によってはGPU)を多く消費するため、リソースに制限がある環境ではその処理に著しく長い時間がかかってしまうことがある。
【0006】
このような問題に鑑み、本発明が解決しようとする課題は、データ間の依存関係をより効率的に、高速に、判定可能とすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明におけるデータ間の依存性判定システムは、互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備えることを要旨とする。
【0008】
互いに紐付けられたデータセットをそれぞれ階級に分け、一方のデータセットのある階級における他方のデータの各階級の出現数の偏りからデータ間の依存性を判定することにより、変数やデータ数の増加に対する計算量の指数関数的な増加を抑え、速やかに判定結果を得ることができる。
【0009】
より具体的には、例えば仮に第1データと第2データとの間に依存関係が存在する場合、すなわち、第1データの増減や変化に連動して第2データが増減・変化している場合、第1データのある階級に含まれる第1データ値に紐付く第2データ値は、比較的近い値に集中するはずである。つまり第2データの全ての階級のうち、その特定の階級に属する第2データ値が、他の階級に属する第2データ値よりも多く観測されるはずである。逆に、第1データと第2データとが無関係なのであれば、そのような傾向は表れず、よりランダムな結果となる可能性が高い。この考え方に基づき、階級化されたデータセットから依存性を判定することにより、より少ない計算量で効率的にデータ間の依存性を判定することが可能となる。
【0010】
このとき、前記偏り評価手段は、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数(Gini Coefficient)で前記偏りを定量化することが好ましい。本発明では、第1データのいずれかの階級における第2データの各階級の出現数を集計することから、結果的にヒストグラム形式のデータが生じる。そこで、経済学において世帯数と累積所得額のヒストグラムから所得分配の不平等(偏り)を測るために用いられているジニ係数を、本システムにおける偏りの定量化に応用することで、簡易かつ実績のある方法で第2データの各階級の出願数の偏りを定量化することが可能となる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
対話装置
25日前
個人
情報処理装置
25日前
個人
政治のAI化
1か月前
個人
物品給付年金
1か月前
個人
記入設定プラグイン
13日前
個人
情報処理装置
21日前
個人
プラグインホームページ
1か月前
個人
不動産売買システム
5日前
個人
情報入力装置
25日前
個人
物価スライド機能付生命保険
25日前
個人
マイホーム非電子入札システム
25日前
株式会社BONNOU
管理装置
18日前
キヤノン株式会社
画像処理装置
1か月前
個人
全アルゴリズム対応型プログラム
1か月前
株式会社ワコム
電子消去具
5日前
サクサ株式会社
カードの制動構造
27日前
個人
決済手数料0%のクレジットカード
28日前
株式会社東芝
電子機器
6日前
ホシデン株式会社
タッチ入力装置
5日前
大同特殊鋼株式会社
輝線検出方法
1か月前
シャープ株式会社
電子機器
1か月前
パテントフレア株式会社
交差型バーコード
1か月前
ミサワホーム株式会社
宅配ロッカー
1か月前
株式会社ライト
情報処理装置
18日前
株式会社アジラ
データ転送システム
1か月前
トヨタ自動車株式会社
欠け検査装置
1か月前
村田機械株式会社
割当補助システム
1か月前
個人
パターン抽出方法及び通信多重化方法
4日前
トヨタ自動車株式会社
情報処理装置
1か月前
住友重機械工業株式会社
力覚伝達装置
20日前
トヨタ自動車株式会社
管理装置
1か月前
オベック実業株式会社
端末用スタンド
1か月前
Sansan株式会社
組織図生成装置
1か月前
株式会社CBE-A
情報処理システム
4日前
応研株式会社
業務支援システム
1か月前
大王製紙株式会社
RFIDタグ
4日前
続きを見る
他の特許を見る