TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024171902
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023089184
出願日2023-05-30
発明の名称情報処理装置、情報処理方法、及びプログラム
出願人日本電信電話株式会社
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 17/18 20060101AFI20241205BHJP(計算;計数)
要約【課題】プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供する。
【解決手段】連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置において、前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部を備える。
【選択図】図1
特許請求の範囲【請求項1】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部
を備える情報処理装置。
続きを表示(約 610 文字)【請求項2】
前記比率をαとすると、αは0<α≦1を満たす値である
請求項1に記載の情報処理装置。
【請求項3】
前記演算部は、前記ノイズの大きさとして、データ合成モデルに入力するデータと、前記データ合成モデルから出力されるデータとから算出した、ノイズの絶対値の期待値に基づく推定値を用いる
請求項1に記載の情報処理装置。
【請求項4】
連続変数のデータを離散化して得られたデータを入力するデータ合成モデルとして、差分プライベートなデータ合成モデルを使用する場合において、
プライバシーバジェットをεとし、定数をCとした場合に、前記演算部は、前記ノイズの大きさとして、C・log(d/ε)を使用する
請求項1に記載の情報処理装置。
【請求項5】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置による情報処理方法であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する
情報処理方法。
【請求項6】
コンピュータを、請求項1ないし4のうちいずれか1項に記載の情報処理装置における演算部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、プライバシー保護技術に関連するものである。
続きを表示(約 2,000 文字)【背景技術】
【0002】
プライバシー保護を行うデータ合成モデルとして、様々なモデルが提案されている。その中の多くは以下のCont(連続)とDisc(離散)の2つに分類できる。
【0003】
(Cont)モデルの内部では連続変数からなるデータ(数値データ)のみを入出力とするもの。
【0004】
(Disc)モデルの内部では離散変数からなるデータ(カテゴリカルデータ)のみを入出力とするもの。なお、Discに属する従来技術の例として、非特許文献1~3に開示された技術がある。
【0005】
Contに属するデータ合成モデルに離散変数を入力したい場合には、当該離散変数のデータをエンコードして連続変数にしてから入力する。エンコードには例えばA、B、Cという全3種類のラベルを(1,0,0)、(0,1,0)、(0,0,1)に変換するOnehot encodingがよく用いられる。
【0006】
Discのデータ合成モデルに連続変数を入力したい場合には、当該連続変数のデータを離散化してから入力する。離散化とは、変数の範囲を分割して実区間(ビン)の列を作り、連続変数のそれぞれのデータがどの区間に属すのかによって、データを離散的なラベルに置き換える処理のことである。どのように実区間(ビン)の列を作るかによって離散化の結果が大きく変わる。
【0007】
調査によると、Discに分類される技術の中には出力される合成データが、Contに分類される技術のいずれが出力するものよりも良いものがある。したがって、プライバシーを保護したデータ合成を行いたい場合には、(必要があれば)連続変数を離散化したデータをDiscに属するデータ合成モデルに入力すると良い。
【先行技術文献】
【非特許文献】
【0008】
Ryan Mckenna, Daniel Sheldon, and Gerome Miklau, "Graphical-Model Based Estimation and Inference for Differential Privacy," In: Proceedings of the 36th International Conference on Machine Learning. International Conference on Machine Learning. PMLR, May 24, 2019, pp. 4435-4444. url:https://proceedings.mlr.press/v97/mckenna19a.html (visited on 08/04/2022).
Ryan McKenna et al, "AIM: An Adaptive and Iterative Mechanism for Differentially Private Synthetic Data," Jan. 29, 2022. doi: 10.48550/arXiv.2201.12677. arXiv: 2201.12677 [cs]. url: http://arxiv.org/abs/2201.12677 (visited on 07/25/2022).
Jun Zhang et al, "PrivBayes: Private Data Release via Bayesian Networks," In: ACM Transactions on Database Systems 42.4 (Oct. 27, 2017), 25:1-25:41. issn: 0362-5915. doi: 10.1145/3134428. url:https://doi.org/10.1145/3134428 (visited on 05/18/2021).
【発明の概要】
【発明が解決しようとする課題】
【0009】
Discに属するデータ合成モデルは、それと組み合わせる離散化の方法によって出力されるデータの品質が大きく変わる。しかし、非特許文献1~3に開示された技術などでは根拠なく離散化処理を選んでいる。また、離散化手法を決める方法としてはSturges' ruleなどが広く知られているが、これら既存の離散化手法はプライバシー保護のために後に加えられるノイズを考慮していない。そのため、ノイズが大きくなると、既存の離散化手法は必ずしも最適なものではなくなってしまう。
【0010】
本発明は上記の点に鑑みてなされたものであり、プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
非正規コート
12日前
個人
人物再現システム
9日前
個人
AI飲食最適化プラグイン
2日前
個人
電話管理システム及び管理方法
3日前
有限会社ノア
データ読取装置
10日前
個人
広告提供システムおよびその方法
12日前
株式会社ザメディア
出席管理システム
17日前
個人
日誌作成支援システム
9日前
トヨタ自動車株式会社
作業判定方法
18日前
ミサワホーム株式会社
情報処理装置
16日前
個人
ポイント還元付き配送システム
10日前
トヨタ自動車株式会社
工程計画装置
17日前
株式会社タクテック
商品取出集品システム
16日前
オベック実業株式会社
接続構造
9日前
トヨタ自動車株式会社
情報処理システム
18日前
ゼネラル株式会社
RFIDタグ付き物品
19日前
株式会社村田製作所
動き検知装置
16日前
個人
コンテンツ配信システム
16日前
株式会社実身美
ワーキングシェアリングシステム
10日前
トヨタ自動車株式会社
情報処理方法
18日前
株式会社ドクター中松創研
生成AIの適切使用法
9日前
株式会社国際電気
支援システム
19日前
株式会社エスシーシー
置き配システム
10日前
ブラザー工業株式会社
ラベルプリンタ
18日前
個人
プラットフォームシステム
16日前
富士通株式会社
画像生成方法
22日前
株式会社K-model
運用設計資料作成装置
12日前
株式会社 喜・扇
緊急事態対応円滑化システム
9日前
個人
注文管理システム及び注文管理プログラム
9日前
甍エンジニアリング株式会社
屋根材買い取りシステム
22日前
トヨタ自動車株式会社
作業支援システム
16日前
株式会社知財事業研究所
運行計画作成システム
16日前
株式会社半導体エネルギー研究所
文章校正支援システム
2日前
日立建機株式会社
作業機械の管理装置
19日前
トヨタ自動車株式会社
情報処理装置
9日前
日立建機株式会社
潤滑油診断システム
17日前
続きを見る