特許ウォッチ

公開番号2024109471
公報種別公開特許公報(A)
公開日2024-08-14
出願番号2023014281
出願日2023-02-01
発明の名称人物検索装置及びプログラム
出願人日本放送協会
代理人個人
主分類G06F 16/332 20190101AFI20240806BHJP(計算;計数)
要約【課題】人物情報を収集し、その人物情報から所望の人名を検索する際に、人物情報の収集が一層容易となり、かつユーザにとって使い勝手の良い検索を実現する。
【解決手段】人物検索装置1のテキスト人名抽出手段21は、ドキュメントを入力し、ドキュメントからテキストを抽出し、固有表現抽出技術を用いて人名を抽出し、テキスト特徴抽出手段22は、事前学習済みのBERTモデルを用いて、テキストの特徴量ベクトルC1を抽出し、登録手段23は、人名及び特徴量ベクトルC1を組としてデータベースに登録する。テキスト特徴抽出手段24は、検索クエリーを入力し、事前学習済みBERTモデルを用いて、検索クエリーの特徴量ベクトルC2を抽出する。検索手段25は、データベースの特徴量ベクトルC1と検索クエリーの特徴量ベクトルC2との間のコサイン類似度を算出し、最も高いコサイン類似度に対応する人名を特定する。
【選択図】図1
特許請求の範囲【請求項１】
ユーザの操作により検索クエリーを入力し、当該検索クエリーに関連する人名を検索する人物検索装置において、
ドキュメントを入力し、当該ドキュメントからテキストを抽出し、固有表現抽出技術を用いて、当該テキストから人名を抽出するテキスト人名抽出手段と、
前記テキスト人名抽出手段により抽出された前記テキストを複数のトークンに分割し、前記複数のトークンの先頭に先頭トークンを付加し、トークン毎に分散表現ベクトルを生成することで、ベクトル列Ｖ１を生成し、
事前学習されたＢＥＲＴモデルを用いて、前記ベクトル列Ｖ１を入力データとしたときのベクトル列Ｖ２を出力データとして推定し、
前記ベクトル列Ｖ２に基づいて、前記テキストの特徴量ベクトルＣ１を抽出する第１のテキスト特徴抽出手段と、
前記テキスト人名抽出手段により抽出された前記人名、及び前記第１のテキスト特徴抽出手段により抽出された前記テキストの特徴量ベクトルＣ１を組として、複数の組のデータをデータベースに登録する登録手段と、
前記ユーザの操作に従い、テキストからなる前記検索クエリーを入力し、前記検索クエリーを複数のトークンに分割し、前記複数のトークンの先頭に先頭トークンを付加し、トークン毎に分散表現ベクトルを生成することで、ベクトル列Ｖ３を生成し、
前記ＢＥＲＴモデルを用いて、前記ベクトル列Ｖ３を入力データとしたときのベクトル列Ｖ４を出力データとして推定し、
前記ベクトル列Ｖ４に基づいて、前記検索クエリーの特徴量ベクトルＣ２を抽出する第２のテキスト特徴抽出手段と、
前記データベースに登録された前記複数の組のデータのそれぞれを読み出し、前記複数の組のデータのそれぞれについて、当該組のデータにおける前記テキストの特徴量ベクトルＣ１と、前記第２のテキスト特徴抽出手段により抽出された前記検索クエリーの特徴量ベクトルＣ２との間の類似度を算出し、最も高い前記類似度の前記特徴量ベクトルＣ１に対応する前記人名を特定する検索手段と、
を備えたことを特徴とする人物検索装置。
続きを表示（約 1,000 文字）【請求項２】
請求項１に記載の人物検索装置において、
前記第２のテキスト特徴抽出手段により前記ユーザの操作に従い入力される前記検索クエリーを、文章のテキストとする、ことを特徴とする人物検索装置。
【請求項３】
ユーザの操作により検索クエリーを入力し、当該検索クエリーに関連する人名を検索する人物検索装置を構成するコンピュータを、
ドキュメントを入力し、当該ドキュメントからテキストを抽出し、固有表現抽出技術を用いて、当該テキストから人名を抽出するテキスト人名抽出手段、
前記テキスト人名抽出手段により抽出された前記テキストを複数のトークンに分割し、前記複数のトークンの先頭に先頭トークンを付加し、トークン毎に分散表現ベクトルを生成することで、ベクトル列Ｖ１を生成し、
事前学習されたＢＥＲＴモデルを用いて、前記ベクトル列Ｖ１を入力データとしたときのベクトル列Ｖ２を出力データとして推定し、
前記ベクトル列Ｖ２に基づいて、前記テキストの特徴量ベクトルＣ１を抽出する第１のテキスト特徴抽出手段、
前記テキスト人名抽出手段により抽出された前記人名、及び前記第１のテキスト特徴抽出手段により抽出された前記テキストの特徴量ベクトルＣ１を組として、複数の組のデータをデータベースに登録する登録手段、
前記ユーザの操作に従い、テキストからなる前記検索クエリーを入力し、前記検索クエリーを複数のトークンに分割し、前記複数のトークンの先頭に先頭トークンを付加し、トークン毎に分散表現ベクトルを生成することで、ベクトル列Ｖ３を生成し、
前記ＢＥＲＴモデルを用いて、前記ベクトル列Ｖ３を入力データとしたときのベクトル列Ｖ４を出力データとして推定し、
前記ベクトル列Ｖ４に基づいて、前記検索クエリーの特徴量ベクトルＣ２を抽出する第２のテキスト特徴抽出手段、及び、
前記データベースに登録された前記複数の組のデータのそれぞれを読み出し、前記複数の組のデータのそれぞれについて、当該組のデータにおける前記テキストの特徴量ベクトルＣ１と、前記第２のテキスト特徴抽出手段により抽出された前記検索クエリーの特徴量ベクトルＣ２との間の類似度を算出し、最も高い前記類似度の前記特徴量ベクトルＣ１に対応する前記人名を特定する検索手段として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、固有表現抽出技術及び学習モデルを用いて人物の名前を検索する人物検索装置に関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
従来、例えば会社内でプロジェクトを立ち上げるときの人員を選定したり、業務を遂行するときの手助けとなる人員を選定したりするために、人物検索装置が使用されることがある。この人物検索装置は、人物情報を収集し、多様な業務経験、スキル等を有する人物の中から、目的に適した人物を検索する装置である。
【０００３】
このような人物検索装置として、情報の機密性の低下を抑制し、人物情報及び文書情報の共有化を促進する装置が提案されている（例えば特許文献１を参照）。この人物検索装置は、人物の名前（人名）、専門分野、所属、連絡先等からなる人物情報が格納された第１記憶部、ユーザの権限及び人物情報の開示範囲の情報が格納された第２記憶部を備え、ユーザ操作に従って文字列を入力すると、第１記憶部から当該文字列に対応する人物情報を読み出し、第２記憶部に格納された情報に基づき、ユーザの権限に応じた表示対象の人物情報の範囲を決定し、その範囲に応じて一部を伏せて人物情報を画面表示するものである。
【０００４】
また、この人物検索装置は、文書が格納された第３記憶部を備え、第３記憶部から文書を読み出し、文書から人名を抽出すると共に、技術用語、機器等の名称等の用語を抽出し、用語に重みを付与し、人名、用語及び重みからなる人物情報を生成して第１記憶部に格納する。
【０００５】
一方で、例えば文書から人名、用語等を抽出するための固有表現抽出技術が知られている（例えば非特許文献１を参照）。この固有表現抽出技術は、文書から固有表現を抽出し、これを人名、組織名、地名等の固有名詞、日付、時間、数量、金額、パーセンテージ等の予め定義された固有表現分類へと分類する手法である。
【０００６】
また、自然言語処理技術の一つとして、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）が知られている。このＢＥＲＴにはTransformer Encoderの構造が組み込まれており、文章を文頭及び文末の双方向から学習することにより、文脈を反映した文章の特徴量ベクトルを得ることができる（例えば非特許文献２を参照）。
【先行技術文献】
【特許文献】
【０００７】
特開２０１９－１６８７３８号公報
【非特許文献】
【０００８】
松田寛、外４名、“UD Japanese GSDの再整備と固有表現情報付与”、［online］、２０２０年３月、言語処理学会、［令和４年１２月２３日検索］、インターネット＜ＵＲＬ：https://anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P1-34.pdf＞
“cl-tohoku/bert-base-japanese”、［online］、東北大学乾研究室、［令和４年１２月２３日検索］、インターネット＜ＵＲＬ：https://huggingface.co/cl-tohoku/bert-base-japanese＞
【発明の概要】
【発明が解決しようとする課題】
【０００９】
一般に、人物情報が格納された記憶部から人名を検索するためには、予め人物情報を収集して記憶部に格納しておき、ユーザ操作により入力された検索クエリーに対応する人名を、当該記憶部から抽出する技術が必要となる。
【００１０】
前述の特許文献１の人物検索装置では、ユーザ操作により入力されたキーワード（単語、例えば「冬季」「凍結」（特許文献１の図５～図７を参照））に対応する人物情報を、記憶部から読み出す処理を行う。しかし、記憶部には、予め人名、専門分野、所属、連絡先等からなる基本的な人物情報を格納しておく必要がある。このような基本的な人物情報の格納作業は、ユーザ操作等によるのが一般的であるため、手間がかかるという問題があった。
（【００１１】以降は省略されています）

関連特許