TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024171902
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023089184
出願日2023-05-30
発明の名称情報処理装置、情報処理方法、及びプログラム
出願人日本電信電話株式会社
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 17/18 20060101AFI20241205BHJP(計算;計数)
要約【課題】プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供する。
【解決手段】連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置において、前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部を備える。
【選択図】図1
特許請求の範囲【請求項1】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部
を備える情報処理装置。
続きを表示(約 610 文字)【請求項2】
前記比率をαとすると、αは0<α≦1を満たす値である
請求項1に記載の情報処理装置。
【請求項3】
前記演算部は、前記ノイズの大きさとして、データ合成モデルに入力するデータと、前記データ合成モデルから出力されるデータとから算出した、ノイズの絶対値の期待値に基づく推定値を用いる
請求項1に記載の情報処理装置。
【請求項4】
連続変数のデータを離散化して得られたデータを入力するデータ合成モデルとして、差分プライベートなデータ合成モデルを使用する場合において、
プライバシーバジェットをεとし、定数をCとした場合に、前記演算部は、前記ノイズの大きさとして、C・log(d/ε)を使用する
請求項1に記載の情報処理装置。
【請求項5】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置による情報処理方法であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する
情報処理方法。
【請求項6】
コンピュータを、請求項1ないし4のうちいずれか1項に記載の情報処理装置における演算部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、プライバシー保護技術に関連するものである。
続きを表示(約 2,000 文字)【背景技術】
【0002】
プライバシー保護を行うデータ合成モデルとして、様々なモデルが提案されている。その中の多くは以下のCont(連続)とDisc(離散)の2つに分類できる。
【0003】
(Cont)モデルの内部では連続変数からなるデータ(数値データ)のみを入出力とするもの。
【0004】
(Disc)モデルの内部では離散変数からなるデータ(カテゴリカルデータ)のみを入出力とするもの。なお、Discに属する従来技術の例として、非特許文献1~3に開示された技術がある。
【0005】
Contに属するデータ合成モデルに離散変数を入力したい場合には、当該離散変数のデータをエンコードして連続変数にしてから入力する。エンコードには例えばA、B、Cという全3種類のラベルを(1,0,0)、(0,1,0)、(0,0,1)に変換するOnehot encodingがよく用いられる。
【0006】
Discのデータ合成モデルに連続変数を入力したい場合には、当該連続変数のデータを離散化してから入力する。離散化とは、変数の範囲を分割して実区間(ビン)の列を作り、連続変数のそれぞれのデータがどの区間に属すのかによって、データを離散的なラベルに置き換える処理のことである。どのように実区間(ビン)の列を作るかによって離散化の結果が大きく変わる。
【0007】
調査によると、Discに分類される技術の中には出力される合成データが、Contに分類される技術のいずれが出力するものよりも良いものがある。したがって、プライバシーを保護したデータ合成を行いたい場合には、(必要があれば)連続変数を離散化したデータをDiscに属するデータ合成モデルに入力すると良い。
【先行技術文献】
【非特許文献】
【0008】
Ryan Mckenna, Daniel Sheldon, and Gerome Miklau, "Graphical-Model Based Estimation and Inference for Differential Privacy," In: Proceedings of the 36th International Conference on Machine Learning. International Conference on Machine Learning. PMLR, May 24, 2019, pp. 4435-4444. url:https://proceedings.mlr.press/v97/mckenna19a.html (visited on 08/04/2022).
Ryan McKenna et al, "AIM: An Adaptive and Iterative Mechanism for Differentially Private Synthetic Data," Jan. 29, 2022. doi: 10.48550/arXiv.2201.12677. arXiv: 2201.12677 [cs]. url: http://arxiv.org/abs/2201.12677 (visited on 07/25/2022).
Jun Zhang et al, "PrivBayes: Private Data Release via Bayesian Networks," In: ACM Transactions on Database Systems 42.4 (Oct. 27, 2017), 25:1-25:41. issn: 0362-5915. doi: 10.1145/3134428. url:https://doi.org/10.1145/3134428 (visited on 05/18/2021).
【発明の概要】
【発明が解決しようとする課題】
【0009】
Discに属するデータ合成モデルは、それと組み合わせる離散化の方法によって出力されるデータの品質が大きく変わる。しかし、非特許文献1~3に開示された技術などでは根拠なく離散化処理を選んでいる。また、離散化手法を決める方法としてはSturges' ruleなどが広く知られているが、これら既存の離散化手法はプライバシー保護のために後に加えられるノイズを考慮していない。そのため、ノイズが大きくなると、既存の離散化手法は必ずしも最適なものではなくなってしまう。
【0010】
本発明は上記の点に鑑みてなされたものであり、プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
情報検索システム
10日前
キヤノン株式会社
電子機器
9日前
キヤノン株式会社
電子機器
9日前
キヤノン株式会社
電子機器
9日前
キヤノン電子株式会社
通信システム
2日前
トヨタ自動車株式会社
作業評価装置
2日前
トヨタ自動車株式会社
管理システム
4日前
TDK株式会社
等価回路
4日前
株式会社NURSY
再就職の支援装置
3日前
西松建設株式会社
計測システム
8日前
個人
公益寄付インタラクティブシステム
2日前
株式会社インテック
触覚ディスプレイ装置
3日前
キオクシア株式会社
電子機器
8日前
ジャペル株式会社
登録管理システム
8日前
富士フイルム株式会社
タッチセンサ
2日前
大王製紙株式会社
作業管理システム
3日前
富士通株式会社
画像生成方法
1日前
株式会社デンソー
情報処理方法
10日前
個人
チャットボットを用いたシステム
8日前
株式会社デンソー
情報処理方法
2日前
株式会社鷺宮製作所
制御システム
8日前
アスエネ株式会社
温室効果ガス排出量管理方法
8日前
株式会社鷺宮製作所
制御システム
8日前
株式会社鷺宮製作所
制御システム
8日前
アスエネ株式会社
温室効果ガス排出量管理方法
8日前
甍エンジニアリング株式会社
屋根材買い取りシステム
1日前
アスエネ株式会社
温室効果ガス排出量管理方法
8日前
アスエネ株式会社
温室効果ガス排出量管理方法
8日前
トヨタ自動車株式会社
作業支援システム
10日前
トヨタ自動車株式会社
車載コンピュータ
11日前
日立建機株式会社
作業支援システム
4日前
アスエネ株式会社
温室効果ガス排出量管理方法
8日前
株式会社マーケットヴィジョン
情報処理システム
2日前
株式会社コロプラ
プログラム、情報処理システム
8日前
株式会社日立製作所
故障確率評価装置
10日前
株式会社USEN-ALMEX
サービスロボット
5日前
続きを見る