TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024084447
公報種別公開特許公報(A)
公開日2024-06-25
出願番号2022198728
出願日2022-12-13
発明の名称情報処理装置、情報処理方法、及びプログラム
出願人キヤノン株式会社
代理人弁理士法人谷・阿部特許事務所
主分類G06F 40/295 20200101AFI20240618BHJP(計算;計数)
要約【課題】 文書の特徴を表す固有表現の抽出精度を向上する。
【解決手段】 自然言語処理モデルを用いて文書データから固有表現を抽出する情報処理装置100であって、情報処理装置100は、文書データからテキストのデータを取得し、テキストをトークン単位に分解する処理を行ってトークン列を生成する。また、情報処理装置100は、トークン列を自然言語処理モデルによる処理が可能な単位のブロックに分割して複数の入力ブロックを生成し、複数の入力ブロックのそれぞれを自然言語処理モデルに入力して、入力ブロックごとに固有表現を推定する。更に、情報処理装置100は、推定の結果に基づいて、複数の入力ブロックのそれぞれが文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定し、推定の結果と判定の結果とに基づいて、文書データの特徴を表す固有表現を出力する。
【選択図】 図2
特許請求の範囲【請求項1】
自然言語処理モデルを用いて文書データから固有表現を抽出する情報処理装置であって、
前記文書データからテキストのデータを取得するテキスト取得手段と、
前記テキストをトークン単位に分解する処理を行ってトークン列を生成するトークン列生成手段と、
前記トークン列を前記自然言語処理モデルによる処理が可能な単位のブロックに分割して複数の入力ブロックを生成するブロック生成手段と、
前記複数の入力ブロックのそれぞれを前記自然言語処理モデルに入力して、前記入力ブロックごとに固有表現を推定する推定手段と、
前記推定の結果に基づいて、前記複数の入力ブロックのそれぞれが前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定する判定手段と、
前記推定の結果と前記判定の結果とに基づいて、前記文書データの特徴を表す固有表現を出力する出力手段と、
を有することを特徴とする情報処理装置。
続きを表示(約 1,500 文字)【請求項2】
前記推定の結果に基づいて、前記複数の入力ブロックのそれぞれに対応する特徴量ベクトルを生成するベクトル生成手段、
を更に有し、
前記判定手段は、前記推定の結果に基づく前記特徴量ベクトルに基づいて、前記複数の入力ブロックのそれぞれが前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定すること
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記推定の結果には、トークンに対応する固有表現の固有表現タグの推定結果が含まれ、
前記ベクトル生成手段は、前記固有表現タグの推定結果に基づいて前記入力ブロックに対応する前記特徴量ベクトルを生成すること
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記ベクトル生成手段は、前記固有表現タグの推定結果に基づいて、前記固有表現タグの個数に基づく前記特徴量ベクトルを生成すること
を特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記判定手段は、前記特徴量ベクトルを説明変数として用いた学習の結果として得られる学習済モデルを用いて、前記複数の入力ブロックのそれぞれが前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定すること
を特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記特徴量ベクトルを前記学習済モデルに入力することにより、前記学習済モデルに対して追加の学習を行う学習手段、
を更に有し、
前記判定手段は、前記追加の学習を行った後の前記学習済モデルを用いて、前記複数の入力ブロックのそれぞれが前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定すること
を特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記学習手段は、前記学習済モデルに入力する前記特徴量ベクトルに対応する、固有表現の抽出に有効であるか否かを示す教師データを用いて、前記学習済モデルに対して教師あり学習による前記追加の学習を行うこと
を特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記推定の結果には、所定の文字列に対応する固有表現の尤もらしさを表すスコアが含まれ、
前記出力手段は、前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であると判定された1以上の前記入力ブロックに対応する前記スコアに基づいて、前記文書データの特徴を表す固有表現を出力すること
を特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記推定の結果には、所定の文字列に対応する固有表現の尤もらしさを表すスコアが含まれ、
前記判定手段は、前記推定の結果に含まれる前記スコアに基づいて、前記複数の入力ブロックのそれぞれが前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定し、
前記出力手段は、前記文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であると判定された1以上の前記入力ブロックに対応する前記スコアに基づいて、前記文書データの特徴を表す固有表現を出力すること
を特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記文書データは、文書を読み取った文書画像のデータであって、
前記テキスト取得手段は、前記文書画像に含まれる前記テキストのデータを取得すること
を特徴とする請求項1に記載の情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本開示は、文書から固有表現を抽出する技術に関する。
続きを表示(約 2,500 文字)【背景技術】
【0002】
文書から予め定義した文字列(固有表現)を抽出する技術として、一般的にNER(Named Entity Recognition)が知られている。このNERによれば、「請求書」及び「納品書」等の文字列を予め定義しておくことにより、これらのそれぞれに該当する文字列を、文書内のテキストから抽出することができる。自然言語処理において主流となっているSeq2Seq又はTransformer等に代表される自然言語処理モデルは、文書内のテキストをトークンと呼ばれる単位に分割したトークン列を入力として、文書内のテキストに含まれる固有表現の推定を行う。このような自然言語処理モデルを固有表現抽出に用いることにより、文書内のテキストに含まれる固有表現を効率的に推定できる。その一方、自然言語処理モデルに一度に入力できるトークン数には上限があるため、長いテキストに含まれる固有表現の推定を行う場合には、テキストに対応するトークン列を複数のブロックに分割してから自然言語処理モデルに入力する必要があった。この点、特許文献1には、文書における章、節、又は段落ごとに、当該文書を複数のブロックに分割し、ブロックごとに固有表現の抽出を行う技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
特開2021-64143号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数のブロックのそれぞれに対応するトークン列を、ブロックごとに自然言語処理モデルに入力すると、入力したブロックごとに固有表現が抽出される。そのため、ブロックごとに抽出された固有表現の一部が、文書種別等の文書の特徴を表す固有表現として相応しくないことがあり、結果として、文書全体から文書の特徴を表す固有表現を抽出する精度が低下してしまうことがある。
【課題を解決するための手段】
【0005】
本開示に係る情報処理装置は、自然言語処理モデルを用いて文書データから固有表現を抽出する情報処理装置であって、文書データからテキストのデータを取得するテキスト取得手段と、テキストをトークン単位に分解する処理を行ってトークン列を生成するトークン列生成手段と、トークン列を自然言語処理モデルによる処理が可能な単位のブロックに分割して複数の入力ブロックを生成するブロック生成手段と、複数の入力ブロックのそれぞれを自然言語処理モデルに入力して、入力ブロックごとに固有表現を推定する推定手段と、推定の結果に基づいて、複数の入力ブロックのそれぞれが文書データの特徴を表す固有表現の抽出に用いる入力ブロックとして有効であるか否かを判定する判定手段と、推定の結果と判定の結果とに基づいて、文書データの特徴を表す固有表現を出力する出力手段と、を有する。
【発明の効果】
【0006】
本開示によれば、文書の特徴を表す固有表現の抽出精度を向上することができる。
【図面の簡単な説明】
【0007】
情報処理装置のハードウェア構成の一例を示すブロック図である。
実施形態1に係る情報処理装置の機能構成の一例を示すブロック図である。
実施形態1に係る情報処理装置の処理フローの一例を示すフローチャートである。
実施形態1に係る情報処理装置の処理の一例を説明するための説明図である。
実施形態1に係る判定モデルの追加学習に用いる学習用データの一例を示す図である。
実施形態1の変形例に係る判定モデルの追加学習に用いる学習用データの一例を示す図である。
【発明を実施するための形態】
【0008】
以下、本開示を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。
【0009】
[実施形態1]
<ハードウェア構成>
まず、図1を参照して、各実施形態に係る情報処理装置100のハードウェア構成について説明する。図1は、各実施形態に係る情報処理装置100のハードウェア構成の一例を示すブロック図である。図1において、CPU101は、システムバス109に接続された各種デバイスの制御を行う。ROM102、BIOS(Basic Input / Output System)のプログラム又はブートプログラム等を記憶する。RAM103は、CPU101の主記憶装置として使用される。外部メモリ104は、情報処理装置100が処理するプログラムを格納する。
【0010】
入力部105は、タッチパネル、キーボード、マウス、又はロボットコントローラ等により構成され、情報等の入力に用いる各種デバイスである。表示部106は、液晶モニタ、プロジェクタ、又はLEDインジケータ等により構成され、CPU101からの指示に従って、ユーザインタフェース(UI)画面又は情報処理装置100の演算結果等を表示する。CPU101は、入力部105を制御する入力制御部、及び表示部106を制御する表示制御部としても動作する。本開示では、入力部105及び表示部106は、情報処理装置100の内部に存在するものとして説明するが、入力部105及び表示部106の少なくとも一方は、情報処理装置100の外部に別の装置として存在していてもよい。通信I/F107は、イーサネット(登録商標)、USB、又はWiFi(登録商標)等の通信規格に従って、LAN又はインターネット等のネットワークを介して外部装置と情報通信を行う。I/O108は、例えば不図示のスキャナが接続されて、スキャナを制御するためのコマンド、又は文書のスキャン画像(以下、「文書画像」と呼ぶ。)のデータ等を送受信する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

キヤノン株式会社
基板
9日前
キヤノン株式会社
トナー
2日前
キヤノン株式会社
記録装置
19日前
キヤノン株式会社
記録装置
2日前
キヤノン株式会社
電子機器
3日前
キヤノン株式会社
清掃装置
4日前
キヤノン株式会社
撮像装置
3日前
キヤノン株式会社
記録装置
9日前
キヤノン株式会社
電子機器
2日前
キヤノン株式会社
撮像装置
2日前
キヤノン株式会社
電子機器
2日前
キヤノン株式会社
光学機器
16日前
キヤノン株式会社
記録装置
18日前
キヤノン株式会社
記録装置
18日前
キヤノン株式会社
撮像装置
2日前
キヤノン株式会社
撮像装置
11日前
キヤノン株式会社
有機発光素子
4日前
キヤノン株式会社
画像形成装置
11日前
キヤノン株式会社
画像形成装置
3日前
キヤノン株式会社
画像形成装置
3日前
キヤノン株式会社
液体吐出装置
19日前
キヤノン株式会社
画像形成装置
5日前
キヤノン株式会社
画像形成装置
5日前
キヤノン株式会社
信号処理装置
19日前
キヤノン株式会社
光電変換装置
19日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
組成識別装置
2日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
ヘッド用基板
11日前
キヤノン株式会社
有機発光素子
4日前
キヤノン株式会社
画像形成装置
10日前
キヤノン株式会社
光電変換装置
18日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像形成装置
18日前
続きを見る