TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024171902
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023089184
出願日2023-05-30
発明の名称情報処理装置、情報処理方法、及びプログラム
出願人日本電信電話株式会社
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 17/18 20060101AFI20241205BHJP(計算;計数)
要約【課題】プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供する。
【解決手段】連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置において、前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部を備える。
【選択図】図1
特許請求の範囲【請求項1】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する演算部
を備える情報処理装置。
続きを表示(約 610 文字)【請求項2】
前記比率をαとすると、αは0<α≦1を満たす値である
請求項1に記載の情報処理装置。
【請求項3】
前記演算部は、前記ノイズの大きさとして、データ合成モデルに入力するデータと、前記データ合成モデルから出力されるデータとから算出した、ノイズの絶対値の期待値に基づく推定値を用いる
請求項1に記載の情報処理装置。
【請求項4】
連続変数のデータを離散化して得られたデータを入力するデータ合成モデルとして、差分プライベートなデータ合成モデルを使用する場合において、
プライバシーバジェットをεとし、定数をCとした場合に、前記演算部は、前記ノイズの大きさとして、C・log(d/ε)を使用する
請求項1に記載の情報処理装置。
【請求項5】
連続変数のデータを離散化するために、連続変数の範囲を等分する区間の個数を決定する情報処理装置による情報処理方法であって、
前記データのデータ数に基づいて、一つの区間に該当するデータ数の平均値と、一つの区間に該当するデータ数へ加えられるノイズの大きさとが、予め定めた比率になるように区間の個数を決定する
情報処理方法。
【請求項6】
コンピュータを、請求項1ないし4のうちいずれか1項に記載の情報処理装置における演算部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、プライバシー保護技術に関連するものである。
続きを表示(約 2,000 文字)【背景技術】
【0002】
プライバシー保護を行うデータ合成モデルとして、様々なモデルが提案されている。その中の多くは以下のCont(連続)とDisc(離散)の2つに分類できる。
【0003】
(Cont)モデルの内部では連続変数からなるデータ(数値データ)のみを入出力とするもの。
【0004】
(Disc)モデルの内部では離散変数からなるデータ(カテゴリカルデータ)のみを入出力とするもの。なお、Discに属する従来技術の例として、非特許文献1~3に開示された技術がある。
【0005】
Contに属するデータ合成モデルに離散変数を入力したい場合には、当該離散変数のデータをエンコードして連続変数にしてから入力する。エンコードには例えばA、B、Cという全3種類のラベルを(1,0,0)、(0,1,0)、(0,0,1)に変換するOnehot encodingがよく用いられる。
【0006】
Discのデータ合成モデルに連続変数を入力したい場合には、当該連続変数のデータを離散化してから入力する。離散化とは、変数の範囲を分割して実区間(ビン)の列を作り、連続変数のそれぞれのデータがどの区間に属すのかによって、データを離散的なラベルに置き換える処理のことである。どのように実区間(ビン)の列を作るかによって離散化の結果が大きく変わる。
【0007】
調査によると、Discに分類される技術の中には出力される合成データが、Contに分類される技術のいずれが出力するものよりも良いものがある。したがって、プライバシーを保護したデータ合成を行いたい場合には、(必要があれば)連続変数を離散化したデータをDiscに属するデータ合成モデルに入力すると良い。
【先行技術文献】
【非特許文献】
【0008】
Ryan Mckenna, Daniel Sheldon, and Gerome Miklau, "Graphical-Model Based Estimation and Inference for Differential Privacy," In: Proceedings of the 36th International Conference on Machine Learning. International Conference on Machine Learning. PMLR, May 24, 2019, pp. 4435-4444. url:https://proceedings.mlr.press/v97/mckenna19a.html (visited on 08/04/2022).
Ryan McKenna et al, "AIM: An Adaptive and Iterative Mechanism for Differentially Private Synthetic Data," Jan. 29, 2022. doi: 10.48550/arXiv.2201.12677. arXiv: 2201.12677 [cs]. url: http://arxiv.org/abs/2201.12677 (visited on 07/25/2022).
Jun Zhang et al, "PrivBayes: Private Data Release via Bayesian Networks," In: ACM Transactions on Database Systems 42.4 (Oct. 27, 2017), 25:1-25:41. issn: 0362-5915. doi: 10.1145/3134428. url:https://doi.org/10.1145/3134428 (visited on 05/18/2021).
【発明の概要】
【発明が解決しようとする課題】
【0009】
Discに属するデータ合成モデルは、それと組み合わせる離散化の方法によって出力されるデータの品質が大きく変わる。しかし、非特許文献1~3に開示された技術などでは根拠なく離散化処理を選んでいる。また、離散化手法を決める方法としてはSturges' ruleなどが広く知られているが、これら既存の離散化手法はプライバシー保護のために後に加えられるノイズを考慮していない。そのため、ノイズが大きくなると、既存の離散化手法は必ずしも最適なものではなくなってしまう。
【0010】
本発明は上記の点に鑑みてなされたものであり、プライバシー保護を行うデータ合成モデルの出力の品質を向上させるための離散化の技術を提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
14日前
個人
認証システム
28日前
個人
自動精算システム
7日前
個人
保証金管理システム
22日前
個人
鑑定証明システム
28日前
個人
救急搬送システム
14日前
個人
人的価値発掘システム
1か月前
キヤノン株式会社
印刷装置
7日前
個人
業界地図作成システム
1か月前
株式会社MRC
集客システム
22日前
個人
生成AIとの常時接続システム
14日前
個人
技術マッチングシステム
1か月前
キヤノン電子株式会社
情報処理装置
1か月前
株式会社宗建
SNSサーバー
2か月前
トヨタ自動車株式会社
推定装置
今日
個人
未来型家系図構築システム
2日前
トヨタ自動車株式会社
分析装置
22日前
キヤノン株式会社
印刷管理装置
20日前
株式会社SEKT
文字認識装置
3日前
株式会社ネットブリッジ
展示販売装置
29日前
ミサワホーム株式会社
管理装置
1か月前
個人
コンテンツ開示順位判定システム
9日前
キヤノン株式会社
印刷制御装置
1か月前
ミサワホーム株式会社
システム
1か月前
個人
配送システムおよび同包箱
1か月前
株式会社COLORS
表示装置
8日前
個人
文字入力方法、文字入力プログラム
1か月前
キヤノン電子株式会社
業務管理システム
7日前
トヨタ自動車株式会社
表認識装置
2日前
大同特殊鋼株式会社
棒材計数装置
2か月前
ミサワホーム株式会社
プログラム
28日前
個人
動作のデザイン評価の方法及び装置
2か月前
オムロン株式会社
認証中継サーバ
2か月前
ローム株式会社
ソース機器
14日前
株式会社八咲
イベント管理システム
2か月前
トヨタ自動車株式会社
作業評価装置
今日
続きを見る