特許ウォッチ

公開番号2024058663
公報種別公開特許公報(A)
公開日2024-04-25
出願番号2023177925
出願日2023-10-14
発明の名称匿名化装置、匿名化方法、機械学習モデル構築方法、機械学習推論方法、及び、プログラム
出願人国立大学法人大阪大学
代理人個人
主分類G06F 21/62 20130101AFI20240418BHJP(計算;計数)
要約【課題】個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置等を提供する。
【解決手段】匿名化装置10は、個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う装置であって、属性データが離散データである場合に、離散データを順序付き離散データに変換する第1変換部12aと、属性データが連続データである場合には、属性データを弱匿名化し、属性データが離散データである場合には、第1変換部12aで変換された属性データを弱匿名化する第2変換部12bと、第2変換部12bで弱匿名化された属性データに対して、ノイズを付加する変換を行う第3変換部12cとを備える。
【選択図】図1
特許請求の範囲【請求項１】
個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う匿名化装置であって、
前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換部と、
前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換部で変換された前記属性データを弱匿名化する第２変換部と、
前記第２変換部で弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換部とを備える、
匿名化装置。
続きを表示（約 2,100 文字）【請求項２】
前記第１変換部は、前記属性データが離散データである場合に、前記属性データがとり得る全離散値を並べた列において前記属性データに対応するインデックスを、前記順序付き離散データとして、出力する、
請求項１記載の匿名化装置。
【請求項３】
前記第２変換部は、前記属性データがとり得る最大値と最小値との差である範囲を用いた所定演算により、前記属性データを弱匿名化する、
請求項１記載の匿名化装置。
【請求項４】
前記第３変換部は、弱匿名化された前記属性データに対して、局所差分プライバシーを適用することで、前記ノイズを付加する、
請求項１記載の匿名化装置。
【請求項５】
前記匿名化装置は、個人に関連するｍ個の属性データを含むデータレコードを対象として匿名化を行う装置であり、
前記第３変換部は、前記ノイズの付加では、与えられたプライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度、又は、前記個人の特定あるいはプライバシー漏洩への危険度に依存する配分率で、前記ｍ個の属性データのそれぞれに配分し、配分したプライバシーバジェットが小さい属性データほど大きなノイズを付加する、
請求項４記載の匿名化装置。
【請求項６】
前記第３変換部は、与えられた前記プライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度が大きいほど大きな配分率で、前記ｍ個の属性データのそれぞれに配分する、
請求項５記載の匿名化装置。
【請求項７】
前記第３変換部は、与えられた前記プライバシーバジェットを、前記個人の特定あるいはプライバシー漏洩への危険度が大きいほど小さな配分率で、前記ｍ個の属性データのそれぞれに配分する、
請求項５記載の匿名化装置。
【請求項８】
さらに、ｍ個の属性データを含むデータレコードから、ユーザの指示に従って、Ｋ（＜ｍ）個の属性データをランダムに選択する属性データ選択部を備え、
前記第１変換部、前記第２変換部及び前記第３変換部は、前記属性データ選択部で選択された属性データを対象として変換を行い、
前記匿名化装置は、前記第１変換部、前記第２変換部及び前記第３変換部によって変換されたＫ個の属性データを機械学習モデル構築サーバ又は機械学習モデル運用サーバに送信する、
請求項１記載の匿名化装置。
【請求項９】
個人の属性データをプライバシーが保護されるデータに変換する装置による匿名化方法であって、
前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換ステップと、
前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換ステップで変換された前記属性データを弱匿名化する第２変換ステップと、
前記第２変換ステップで弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換ステップとを含む、
匿名化方法。
【請求項１０】
ユーザ端末及び機械学習モデル構築サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルを構築する機械学習モデル構築方法であって、
前記機械学習モデル構築サーバが前記ユーザ端末に属性数Ｋを通知するステップと、
前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル構築サーバに送信するステップと、
前記機械学習モデル構築サーバが、前記ユーザ端末から受け取った匿名化した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った関係性データに基づいて、前記機械学習モデルの機械学習に用いるＫ個の属性を決定し、決定したＫ個の属性を前記ユーザ端末に通知する属性決定ステップと、
前記ユーザ端末において、前記機械学習モデル構築サーバから通知されたＫ個の属性に対応するＫ個の属性データについて、請求項１に記載の匿名化装置を用いた匿名化を行い、し、匿名化した前記Ｋ個の属性データを前記機械学習モデル構築サーバに送信するステップと、
前記機械学習モデル構築サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルの機械学習を行う機械学習ステップとを含む、
機械学習モデル構築方法。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、匿名化装置及びその方法、機械学習モデル構築方法及び機械学習推論方法等に関し、特に、個人の属性データをプライバシーが保護されるデータに変換する匿名化装置に関する。
続きを表示（約 5,200 文字）【背景技術】
【０００２】
心拍数、運動量、歩数、脈拍、酸素摂取量、消費カロリーなど、私たちの生活に関するさまざまな属性データが収集されている。これらの属性データを、機械学習モデル等を用いて、プライバシーを保護しながら解析できれば、様々な問題の解決が可能になる。
【０００３】
この問題を解決するために、従来、暗号化を用いた技術（非特許文献１参照）、及び、機械学習モデルへの攻撃の複雑さを鑑みて（非特許文献２参照）、データに局所的なノイズをランダムに加える手法である局所差分プライバシー（Ｌｏｃａｌｄｉｆｆｅｒｅｎｔｉａｌｐｒｉｖａｃｙ（以下、単に「ＬＤＰ」とも呼ぶ））が提案されている（非特許文献３参照）。
【先行技術文献】
【非特許文献】
【０００４】
P. Xie, M. Bilenko, and e. Finley, "Crypto-nets: Neural networks over encrypted data," arXiv preprint arXiv:1412.6181, 2014.
H. Hu, Z. Salcic, L. Sun, and e. Dobbie, "Membership inference attacks on machine learning: A survey," ACM Computing Surveys (CSUR),2021.
C. Dwork, "Differential privacy," in Proc. of ICALP 2006, LNCS, vol.4052, 2006, pp. 1-12.
P. Kairouz, K. Bonawitz, and D. Ramage, "Discrete distribution estimation under local privacy," in International Conference on Machine Learning. PMLR, 2016, pp. 2436-2444.
T. Wang, J. Blocki, and e. Li, "Locally differentially private protocols for frequency estimation," in USENIX Security 17, 2017, pp. 729-745.
M. Gaboardi and R. Rogers, "Local private hypothesis testing: Chisquare tests," in International Conference on Machine Learning, 2018,pp. 1626-1635.
B. Ding, H. Nori, and e. Li, "Comparing population means under local differential privacy: with significance and power," in Proceedings of the AAAI, vol. 32, no. 1, 2018.
K. Wei, J. Li, M. Ding, C. Ma, H. H. Yang, F. Farokhi, S. Jin, T. Q. Quek, and H. V. Poor, "Federated learning with differential privacy: Algorithms and performance analysis," IEEE Transactions on Information Forensics and Security, vol. 15, pp. 3454-3469, 2020.
M. Yang, L. Lyu, and e. Zhao, "Local differential privacy and its applications: A comprehensive survey," arXiv preprint arXiv:2008.03686,2020.
N. Holohan, D. J. Leith, and O. Mason, "Optimal differentially private mechanisms for randomised response," IEEE Transactions on Information Forensics and Security, vol. 12, no. 11, pp. 2726-2735, 2017.
N. Wang, X. Xiao, and e. Yang, "Collecting and analyzing multidimensional data with local differential privacy," in IEEE ICDE, 2019, pp. 638-649.
F. Pedregosa, G. Varoquaux, and e. Gramfort, A., "Scikit-learn: Machine learning in Python," Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
J. C. Duchi and e. Jordan, "Local privacy and statistical minimax rates," in 54th Annual Symposium on Foundations of Computer Science. IEEE, 2013, pp. 429-438.
P. Kairouz, S. Oh, and P. Viswanath, "Extremal mechanisms for local differential privacy," in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Weinberger, Eds. Curran Associates, Inc.
B. I. Rubinstein, P. L. Bartlett, and e. Huang, "Learning in a large function space: Privacy-preserving mechanisms for svm learning," arXiv preprint arXiv:0911.5708, 2009.
"Breast cancer wisconsin (diagnostic) data set," UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic).
"Ionosphere data set," UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/ionosphere.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記非特許文献１の技術では、準同形暗号を用いるため、処理に非常に時間がかかる問題とともに、準同形暗号の鍵を持っている機関にはデータが漏洩するという問題がある。また、上記非特許文献３の技術では、ノイズが付加されたデータの解析の有用性が低下してしまうという問題がある。
【０００６】
そこで、本開示は、個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置、匿名化方法、機械学習モデル構築方法及び機械学習推論方法等を提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記目的を達成するために、本開示の一形態に係る匿名化装置は、個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う匿名化装置であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換部と、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換部で変換された前記属性データを弱匿名化する第２変換部と、前記第２変換部で弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換部とを備える。
【０００８】
上記目的を達成するために、本開示の一形態に係る匿名化方法は、個人の属性データをプライバシーが保護されるデータに変換する装置による匿名化方法であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換ステップと、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換ステップで変換された前記属性データを弱匿名化する第２変換ステップと、前記第２変換ステップで弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換ステップとを含む。
【０００９】
上記目的を達成するために、本開示の一形態に係る機械学習モデル構築方法は、ユーザ端末及び機械学習モデル構築サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルを構築する機械学習モデル構築方法であって、前記機械学習モデル構築サーバが前記ユーザ端末に属性数Ｋ（≦ｍ）を通知するステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から受け取った匿名化与した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った関係性データに基づいて、前記機械学習モデルの機械学習に用いるＫ個の属性を決定し、決定したＫ個の属性を前記ユーザ端末に通知する属性決定ステップと、前記ユーザ端末において、前記機械学習モデル構築サーバから通知されたＫ個の属性に対応するＫ個の属性データについて、上記匿名化装置を用いた匿名化を行い、し、匿名化した前記Ｋ個の属性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルの機械学習を行う機械学習ステップとを含む。
【００１０】
上記目的を達成するために、本開示の一形態に係る機械学習推論方法は、ユーザ端末及び機械学習モデル運用サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルによる推論を行う機械学習推論方法であって、前記機械学習モデル運用サーバが前記ユーザ端末にＫ個の属性を通知する通知ステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データのそれぞれについて、上記匿名化装置を用いた匿名化を行い、匿名化されたＫ個の属性データを、前記機械学習モデルによる推論のために、前記機械学習モデル運用サーバに送信するステップと、前記機械学習モデル運用サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルによる推論を行う推論ステップとを含む。
【発明の効果】
（【００１１】以降は省略されています）

関連特許