TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025002396
公報種別
公開特許公報(A)
公開日
2025-01-09
出願番号
2023102556
出願日
2023-06-22
発明の名称
情報処理装置、情報処理方法、およびプログラム
出願人
キヤノン株式会社
代理人
弁理士法人谷・阿部特許事務所
主分類
G06F
40/295 20200101AFI20241226BHJP(計算;計数)
要約
【課題】文書データから抽出した固有表現に対するラベル付けを適切に行うこと。
【解決手段】
第2の固有表現ラベル付与部は、取得した文書種別と変換マップに基づいて、第1の固有表現ラベルに対応する第2の固有表現ラベルもしくは不定ラベルを導出する。付与された不定ラベルは、所定のルールに基づき第2の固有表現ラベル群S2に属する固有表現ラベルに置き換える。また第2の固有表現ラベル付与部は、第1の固有表現ラベル群S1における固有表現ラベル間の優先順位に基づいて、第2の固有表現ラベル群S2に属する固有表現ラベルの一部をOラベルに変換する。第2の固有表現ラベル付与部は、各固有表現に対して、ユーザに提示するために用いる変換先の固有表現ラベルである第2の固有表現ラベル群S2の固有表現ラベルの情報を付与する。
【選択図】図7
特許請求の範囲
【請求項1】
入力された文書画像データに含まれる文字列を分割して得られたトークンに対して第1の固有表現ラベルを付与する第1付与手段と、
前記第1付与手段によって付与された前記第1の固有表現ラベルに基づき固有表現を抽出する抽出手段と、
前記文書画像データの文書種別を示す情報を少なくとも含む属性情報を、前記文書画像データに含まれる所定の文字列に基づき取得する取得手段と、
前記属性情報に応じて前記第1の固有表現ラベルと対応付けがなされた第2の固有表現ラベルであって、前記属性情報に対応する第2の固有表現ラベルを、当該第2の固有表現ラベルに対応する前記第1の固有表現ラベルが付与された前記固有表現に付与する第2付与手段と、
を備え、
前記第2の固有表現ラベルは、前記第1の固有表現ラベルとは異なる、
ことを特徴とする情報処理装置。
続きを表示(約 1,300 文字)
【請求項2】
前記所定の文字列は、所定の第1の固有表現ラベルが付与された前記固有表現に含まれる、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記所定の第1の固有表現ラベルは、前記文書画像データにおけるタイトルに付与される第1の固有表現ラベルである、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記取得手段は、前記第1の固有表現ラベルに対して前記属性情報に応じて付与された優先順位情報を取得し、
前記第2付与手段は、異なる複数の前記第1の固有表現ラベルが付与された固有表現に対して同一の前記第2の固有表現ラベルを付与した場合、同一の前記第2の固有表現ラベルを付与した異なる複数の前記第1の固有表現ラベルが付与された固有表現のうち、前記優先順位情報における優先順位が最も高い第1の固有表現ラベルを除く他の第1の固有表現ラベルが付与された固有表現に付与する前記第2の固有表現ラベルを不定ラベルに置き換える、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記第2付与手段は、前記不定ラベル以外の前記第2の固有表現ラベルが付与された固有表現の中に前記不定ラベルが付与された固有表現と類似する固有表現がある場合、前記不定ラベルを前記類似する固有表現に付与された前記第2の固有表現ラベルに置き換える、
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記第2付与手段は、前記類似する固有表現がない固有表現に付与された前記不定ラベルを所定のルールに従って前記不定ラベル以外の固有表現ラベルに置き換える、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記第2付与手段は、前記類似する固有表現がない固有表現に付与された前記不定ラベルを、当該不定ラベルが付与された固有表現に付与された前記第1の固有表現ラベルに置き換える、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記第2の固有表現ラベルに対応する文字列と、前記第2の固有表現ラベルを付与した前記固有表現とを表示装置に表示する表示制御手段、
をさらに備えたことを特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記第2付与手段は、前記属性情報に応じて前記第1の固有表現ラベルに対応付けられた前記第2の固有表現ラベルを、前記第1の固有表現ラベルと前記第2の固有表現ラベルとを対応付ける変換マップに基づき導出する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記第2付与手段は、前記属性情報に応じて前記第1の固有表現ラベルに対応付けられた前記第2の固有表現ラベルを、前記固有表現、前記第1の固有表現ラベル、および前記属性情報を入力とする推論モデルを用いて導出する、
ことを特徴とする請求項1に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、文書データから抽出した固有表現にラベル付与を行うための情報処理技術に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
従来、文書画像内の文字を読み取って電子ファイルに変換し、適切なファイル名を自動付与する技術がある。自動付与されるファイル名を構成する要素には、ファイル作成日時等に加えて、文書内の組織名や人名、文書番号、文書発行日などがあり、これらは自然言語処理分野の応用技術である固有表現抽出技術により抽出することができる。特許文献1では、入力された文書データから、階層構造が予め定義された拡張固有表現のラベルが付与された固有表現を階層別の複数の識別モデルを用いて抽出し、各階層のラベルが固有表現に付与された文書データを出力する固有表現抽出装置が開示されている。
【0003】
ところで、固有表現に付与されるラベルは、文書種別などの文書の属性に応じて付与対象の固有表現が変化する場合がある。例えば、発行された文書を受け取る側を意味する「文書発行先」を表すラベルは、請求書では発注者や納品先がこの「文書発行先」にあたるが、発注書では受注者や納品元が「文書発行先」となる。
【先行技術文献】
【特許文献】
【0004】
特開2013-246795号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の技術では、階層別の複数の識別モデルは、固有表現のテキスト情報のみを用いて固有表現のラベル付けを行うため、文書の属性に応じて意味合いが変化する固有表現に対して適切なラベルを精度良く付与することができない。
【課題を解決するための手段】
【0006】
本発明は、情報処理装置であって、入力された文書画像データに含まれる文字列を分割して得られたトークンに対して第1の固有表現ラベルを付与する第1付与手段と、前記第1付与手段によって付与された前記第1の固有表現ラベルに基づき固有表現を抽出する抽出手段と、前記文書画像データの文書種別を示す情報を少なくとも含む属性情報を、前記文書画像データに含まれる所定の文字列に基づき取得する取得手段と、前記属性情報に応じて前記第1の固有表現ラベルと対応付けがなされた第2の固有表現ラベルであって、前記属性情報に対応する第2の固有表現ラベルを、当該第2の固有表現ラベルに対応する前記第1の固有表現ラベルが付与された前記固有表現に付与する第2付与手段と、を備え、前記第2の固有表現ラベルは、前記第1の固有表現ラベルとは異なる、ことを特徴とする。
【発明の効果】
【0007】
本発明によれば、文書データから抽出した固有表現に対するラベル付けを適切に行うことができる。
【図面の簡単な説明】
【0008】
情報処理装置のハードウェアの構成を表すブロック図
情報処理装置の機能の構成の主要部分を表すブロック図
実施形態1に係る情報処理装置の機能の構成の全体を表すブロック図
情報処理装置の処理に関するフローチャート
固有表現抽出手段が実行する固有表現抽出処理に関するフローチャート
固有表現抽出手段による固有表現抽出処理結果の具体例の模式図
実施形態1に係る第2の固有表現ラベル付与部が実行する第2の固有表現ラベル付与処理に関するフローチャート
第2の固有表現ラベル付与部が使用する変換マップの具体例の模式図
第2の固有表現ラベル付与部が変換マップを用いて処理した結果の具体例の模式図
第2の固有表現ラベル付与部が使用する優先順位マップの具体例の模式図
第2の固有表現ラベル付与部が優先順位マップを用いて処理した結果の具体例の模式図
第2の固有表現ラベル付与部が実行する第2の固有表現ラベル付与処理の結果の具体例の模式図
表示手段が表示する固有表現の抽出結果の具体例
保存するファイルの階層構造の具体例の模式図
実施形態2に係る情報処理装置の機能の構成の全体を表すブロック図
実施形態2に係る第2の固有表現ラベル付与部が実行する第2の固有表現ラベル付与処理に関するフローチャート
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を用いて説明する。尚、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
【0010】
[実施形態1]
図1は、情報処理装置100のハードウェアの構成を表すブロック図である。図2は、情報処理装置100の機能の構成の主要部分を表すブロック図である。図3は、情報処理装置100の機能の構成の全体を表すブロック図である。図4は、情報処理装置100の処理に関するフローチャートである。以降述べる情報処理装置100の処理は、文書画像内の文字から所望の画像領域を抽出して、文書画像データに適切なファイル名として自動転記することを目的とする。以降、図1~14を用いて本実施例の動作について説明する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン株式会社
撮像装置
1日前
キヤノン株式会社
電子機器
2日前
キヤノン株式会社
撮像装置
1日前
キヤノン株式会社
定着装置
1日前
キヤノン株式会社
記録装置
1日前
キヤノン株式会社
記録装置
1日前
キヤノン株式会社
撮像装置
1日前
キヤノン株式会社
操作装置
2日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
光電変換装置
1日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
液体吐出装置
1日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
シート給送装置
1日前
キヤノン株式会社
シート給送装置
1日前
キヤノン株式会社
インク収容容器
1日前
キヤノン株式会社
シート給送装置
1日前
キヤノン株式会社
液体吐出ヘッド
1日前
キヤノン株式会社
シート搬送装置
1日前
キヤノン株式会社
画像形成システム
1日前
キヤノン株式会社
トナーの製造方法
2日前
キヤノン株式会社
光学系および撮像装置
2日前
キヤノン株式会社
撮像装置及び制御方法
2日前
キヤノン株式会社
液体吐出ヘッドの製造方法
1日前
キヤノン株式会社
レンズ装置および撮像装置
1日前
キヤノン株式会社
制御システム及び制御方法
1日前
キヤノン株式会社
定着装置及び画像形成装置
1日前
キヤノン株式会社
液体吐出ヘッドの製造方法
2日前
キヤノン株式会社
受信装置及び通信システム
1日前
キヤノン株式会社
液体吐出ヘッド及び記録装置
2日前
キヤノン株式会社
露光装置および画像形成装置
1日前
キヤノン株式会社
画像形成装置及びプログラム
1日前
キヤノン株式会社
ズームレンズおよび撮像装置
1日前
キヤノン株式会社
システム、管理装置及び方法
1日前
続きを見る
他の特許を見る