発明の詳細な説明【技術分野】 【0001】 本発明は、プライバシー保護技術に関連するものである。 続きを表示(約 2,000 文字)【背景技術】 【0002】 プライバシー保護を行うデータ合成モデルとして、様々なモデルが提案されている。その中の多くは以下のCont(連続)とDisc(離散)の2つに分類できる。 【0003】 (Cont)モデルの内部では連続変数からなるデータ(数値データ)のみを入出力とするもの。 【0004】 (Disc)モデルの内部では離散変数からなるデータ(カテゴリカルデータ)のみを入出力とするもの。なお、Discに属する従来技術の例として、非特許文献1~3に開示された技術がある。 【0005】 Contに属するデータ合成モデルに離散変数を入力したい場合には、当該離散変数のデータをエンコードして連続変数にしてから入力する。エンコードには例えばA、B、Cという全3種類のラベルを(1,0,0)、(0,1,0)、(0,0,1)に変換するOnehot encodingがよく用いられる。 【0006】 Discのデータ合成モデルに連続変数を入力したい場合には、当該連続変数のデータを離散化してから入力する。離散化とは、変数の範囲を分割して実区間(ビン)の列を作り、連続変数のそれぞれのデータがどの区間に属すのかによって、データを離散的なラベルに置き換える処理のことである。どのように実区間(ビン)の列を作るかによって離散化の結果が大きく変わる。 【0007】 調査によると、Discに分類される技術の中には出力される合成データが、Contに分類される技術のいずれが出力するものよりも良いものがある。したがって、プライバシーを保護したデータ合成を行いたい場合には、(必要があれば)連続変数を離散化したデータをDiscに属するデータ合成モデルに入力すると良い。 【先行技術文献】 【非特許文献】 【0008】 Ryan Mckenna, Daniel Sheldon, and Gerome Miklau, "Graphical-Model Based Estimation and Inference for Differential Privacy," In: Proceedings of the 36th International Conference on Machine Learning. International Conference on Machine Learning. PMLR, May 24, 2019, pp. 4435-4444. url:https://proceedings.mlr.press/v97/mckenna19a.html (visited on 08/04/2022). Ryan McKenna et al, "AIM: An Adaptive and Iterative Mechanism for Differentially Private Synthetic Data," Jan. 29, 2022. doi: 10.48550/arXiv.2201.12677. arXiv: 2201.12677 [cs]. url: http://arxiv.org/abs/2201.12677 (visited on 07/25/2022). Jun Zhang et al, "PrivBayes: Private Data Release via Bayesian Networks," In: ACM Transactions on Database Systems 42.4 (Oct. 27, 2017), 25:1-25:41. issn: 0362-5915. doi: 10.1145/3134428. url:https://doi.org/10.1145/3134428 (visited on 05/18/2021). 【発明の概要】 【発明が解決しようとする課題】 【0009】 Discに属するデータ合成モデルは、それと組み合わせる離散化の方法によって出力されるデータの品質が大きく変わる。しかし、非特許文献1~3に開示された技術などでは根拠なく離散化処理を選んでいる。また、離散化手法を決める方法としてはSturges' ruleなどが広く知られているが、これら既存の離散化手法はプライバシー保護のために後に加えられるノイズを考慮していない。そのため、ノイズが大きくなると、既存の離散化手法は必ずしも最適なものではなくなってしまう。 【0010】 本発明は上記の点に鑑みてなされたものであり、プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供することを目的とする。 【課題を解決するための手段】 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する