TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025040688
公報種別公開特許公報(A)
公開日2025-03-25
出願番号2023147631
出願日2023-09-12
発明の名称テキスト匿名化装置及びテキスト匿名化方法
出願人株式会社日立製作所
代理人弁理士法人サンネクスト国際特許事務所
主分類G06F 21/62 20130101AFI20250317BHJP(計算;計数)
要約【課題】処理対象のテキストデータに応じた柔軟かつ効率的な匿名化を実現すること。
【解決手段】処理対象のテキストデータを格納する記憶部と、前記テキストデータに含まれる所定の文字列を秘匿する加工を行って前記処理対象のテキストデータを匿名化する処理部とを備え、前記処理部は、秘匿対象の文字列について利用者からの選択を受け付けた場合に、秘匿対象として選択された文字列に関連する文字列を提示し、前記関連する文字列の秘匿の要否について選択を受け付け、前記秘匿対象として選択された文字列と、前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化する。
【選択図】図1

特許請求の範囲【請求項1】
処理対象のテキストデータを格納する記憶部と、
前記テキストデータに含まれる所定の文字列を秘匿する加工を行って前記処理対象のテキストデータを匿名化する処理部とを備え、
前記処理部は、
秘匿対象の文字列について利用者からの選択を受け付けた場合に、
秘匿対象として選択された文字列に関連する文字列を提示し、
前記関連する文字列の秘匿の要否について選択を受け付け、
前記秘匿対象として選択された文字列と、前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とするテキスト匿名化装置。
続きを表示(約 1,500 文字)【請求項2】
請求項1に記載のテキスト匿名化装置であって、
前記処理部は、
秘匿対象の単語について利用者からの選択を受け付けた場合に、
秘匿対象として選択された単語の類義語及び/又は共起語を関連単語として提示し、
前記関連単語の秘匿の要否について選択を受け付け、
前記秘匿対象として選択された単語と、前記関連単語の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とするテキスト匿名化装置。
【請求項3】
請求項1に記載のテキスト匿名化装置であって、
前記処理対象のテキストデータは特定の個人について記述された文章であり、
前記処理部は、
前記個人についての他のテキストデータの匿名化に際して秘匿対象とした実績のある文字列を実績文字列として提示し、
前記実績文字列の秘匿の要否について選択を受け付け、
前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とするテキスト匿名化装置。
【請求項4】
請求項1に記載のテキスト匿名化装置であって、
前記処理対象のテキストデータは特定の個人について記述された文章であり、
前記処理部は、
前記個人に類似する他の個人についてのテキストデータの匿名化に際して秘匿対象とした実績のある文字列を実績文字列として提示し、
前記実績文字列の秘匿の要否について選択を受け付け、
前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とするテキスト匿名化装置。
【請求項5】
請求項1に記載のテキスト匿名化装置であって、
前記処理対象のテキストデータは特定の個人について記述された文章であり、
前記記憶部は、前記特定の個人を識別する情報と、秘匿対象とした実績のある文字列である実績文字列と、前記実績文字列の重要度とを対応付けて記憶し、
前記処理部は、前記実績文字列を被告対象の候補として提示する場合に、前記重要度の高い実績文字列を優先することを特徴とするテキスト匿名化装置。
【請求項6】
請求項5に記載のテキスト匿名化装置であって、
前記重要度は、過去に秘匿対象として選択された回数が多い文字列程、大きい値となることを特徴とするテキスト匿名化装置。
【請求項7】
請求項1に記載のテキスト匿名化装置であって、
前記処理部は、前記関連する文字列の前記テキストデータにおける位置を特定し、前記関連する文字列を前記特定した位置と共に提示して、前記関連する文字列の秘匿の要否について選択を受け付けることを特徴とするテキスト匿名化装置。
【請求項8】
請求項1に記載のテキスト匿名化装置であって、
前記処理部は、所定の固有名詞を秘匿する加工を行った上で、前記秘匿対象の文字列について利用者からの選択を受け付けることを特徴とするテキスト匿名化装置。
【請求項9】
処理対象のテキストデータに含まれる所定の文字列を秘匿する加工を行って前記処理対象のテキストデータを匿名化するテキスト匿名化方法であって、
テキスト匿名化装置が、
秘匿対象の文字列について利用者からの選択を受け付け、
秘匿対象として選択された文字列に関連する文字列を提示し、
前記関連する文字列の秘匿の要否について選択を受け付け、
前記秘匿対象として選択された文字列と、前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とするテキスト匿名化方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、テキスト匿名化装置及びテキスト匿名化方法に関する。
続きを表示(約 2,600 文字)【背景技術】
【0002】
構造化データに対する匿名加工情報の手法は様々な手法が提案されている。例えば、指定されたデータ項目において、同じ条件となるデータが最低k件以上存在するように、元のデータを抽象化するk-匿名化手法が知られている。一方で、個人情報を多分に含みうる福祉分野等の相談記録や介護記録、アンケート記録等のテキストデータについては、構造定義がなされておらず、含まれる情報の属性や内容、単位などが非自明である。したがって、匿名加工法の主流である構造化データに対する匿名化手法が適用できないので、前記記録等のテキストデータならではの匿名加工の手法が提案されている。
【0003】
たとえば、特許文献1では、電子文章の利用環境情報に基づいて匿名化レベルを決定し、前記匿名化レベルに従って電子文章中の固有名詞を匿名化するための匿名表現を決定し、処理対象の電子文章中の固有名詞を前記匿名表現に置き換える文章匿名化装置が提案されている。特許文献1には「匿名化レベル調整手段21は、アクセス対象文書の文書ID集合、及び電子文書の利用環境の条件を入力する。匿名化レベル調整手段21は、ユーザの属性、利用場所、及び閲覧やコピー等の利用方法の条件に従って、匿名化レベルを決定する。固有名匿名化手段22は、匿名化レベル調整手段21が決定した匿名化レベルに従って、固有名を匿名化する匿名表現を決定する。そして、文書出力手段24は、固有名匿名化手段22が決定した匿名表現で文書中の固有名を置き換えて、アクセス対象の電子文書を出力する。」との記載がある。
【先行技術文献】
【特許文献】
【0004】
特開2006-185311号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、一般に福祉分野等の相談記録や介護記録、アンケート記録等のテキストデータにおいては、固有名詞・固有表現以外の文脈から、個人または匿名化した語の類推が可能となる場合があり、固有名詞だけの匿名化では不十分である。たとえば、生活保護や児童虐待等の福祉分野の相談記録においては、個人に関する要配慮情報やプライバシーに関する情報、家族構成等を多分に含むため、個人名や住所、電話番号といった固有名や個人識別符号を秘匿化しても、文脈から個人を類推できる可能性が残る。
【0006】
また、特許文献1における匿名化手法として、予め固有名とその匿名表現を記憶した記憶手段を備え、処理対象の文章から特定した固有名を前記匿名表現に置き換える、と記述されている。しかしながら、一般にテキストデータにおいては、自由記述性が高いため、テキストデータに含まれ得る匿名化対象の固有名や情報のカテゴリ、項目等を事前に網羅的に定めておくのは困難である。たとえば、前記福祉分野の相談記録においては、記録者が記述すべき情報のカテゴリ、項目、内容等は記録者や相談者に応じて異なるため、相談事例のたびに記録内容に含まれる情報のカテゴリ等を確認または更新し続けなければならない。
【0007】
上記の課題を鑑み、本発明は、処理対象のテキストデータに応じた柔軟かつ効率的な匿名化を実現することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、代表的な本発明のテキスト匿名化装置の一つは、処理対象のテキストデータを格納する記憶部と、前記テキストデータに含まれる所定の文字列を秘匿する加工を行って前記処理対象のテキストデータを匿名化する処理部とを備え、前記処理部は、秘匿対象の文字列について利用者からの選択を受け付けた場合に、秘匿対象として選択された文字列に関連する文字列を提示し、前記関連する文字列の秘匿の要否について選択を受け付け、前記秘匿対象として選択された文字列と、前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とする。
また、代表的な本発明のテキスト匿名化方法の一つは、処理対象のテキストデータに含まれる所定の文字列を秘匿する加工を行って前記処理対象のテキストデータを匿名化するテキスト匿名化方法であって、テキスト匿名化装置が、秘匿対象の文字列について利用者からの選択を受け付け、秘匿対象として選択された文字列に関連する文字列を提示し、前記関連する文字列の秘匿の要否について選択を受け付け、前記秘匿対象として選択された文字列と、前記関連する文字列の秘匿の要否の選択結果に基づいて前記テキストデータを匿名化することを特徴とする。
【発明の効果】
【0009】
本発明の一態様によれば、処理対象のテキストデータに応じた柔軟かつ効率的な匿名化を実現できる。
【図面の簡単な説明】
【0010】
システムの全体構成を示す図。
基本情報テーブルの説明図。
相談記録テーブルの説明図。
選択単語履歴テーブルの説明図。
類義語マスターテーブルの説明図。
共起語マスターテーブルの説明図。
テキスト匿名化装置の処理フロー。
固有名詞の匿名化結果の一例。
選択単語の出現位置を示すデータ例。
更新前の選択単語履歴テーブルの例。
更新後の選択単語履歴テーブルの例。
類義語の出現位置の特定の例。
共起語の出現位置の特定の例。
過去の選択単語の位置特定の例。
選択単語履歴を更新した例。
選択単語等の匿名化結果の一例。
固有名詞のみが匿名化された相談記録において、匿名化したい単語として「うつ」を選択した場合の画面例。
固有名詞のみが匿名化された相談記録において、匿名化したい単語として「発達障害」を選択した場合の画面例。
過去の選択単語を表示する画面例。
類義語の匿名化要否を要求する画面例。
共起語の匿名化要否を要求する画面例。
過去選択単語の匿名化要否を要求する画面例。
匿名化結果の表示の画面例。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
プログラム
27日前
株式会社理研
演算装置
1か月前
個人
日本語入力支援システム
1か月前
個人
情報検索システム
7日前
個人
AI旅行最適化プラグイン
1か月前
個人
確率場データ同化演算手法
19日前
キヤノン株式会社
電子機器
6日前
個人
技術実行管理システム
21日前
個人
納骨堂システム
26日前
個人
案件管理装置および端末装置
1か月前
キヤノン株式会社
電子機器
6日前
シャープ株式会社
電子機器
20日前
キヤノン株式会社
電子機器
6日前
株式会社発明屋
電池指向の構造設計
1か月前
個人
不動産情報提供システム
16日前
株式会社イノベイト
広告装置
9日前
キヤノン株式会社
情報処理装置
1か月前
合同会社IPマネジメント
内部不正対策
14日前
個人
ダブルオークションシステム
1か月前
株式会社イズミ
総合代行システム
1か月前
個人
ネイルスキルテストシステム
20日前
トヨタ自動車株式会社
電気自動車
1か月前
富士通株式会社
プロセッサ
1か月前
トヨタ自動車株式会社
管理システム
1日前
富士通株式会社
予測
1か月前
合同会社IPマネジメント
料金収受システム
1か月前
株式会社SUBARU
車両用操作装置
1か月前
TDK株式会社
等価回路
1日前
ローム株式会社
半導体集積回路
1か月前
西松建設株式会社
計測システム
5日前
株式会社TIMEWELL
情報処理システム
27日前
キヤノン株式会社
ワークフロー制御装置
26日前
株式会社サマデイ
メンタリングシステム
21日前
株式会社ヒニアラタ
障害者支援システム
14日前
個人
外国為替証拠金取引定期自動売買システム
12日前
個人
収納装置および収納システム
1か月前
続きを見る