TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024165402
公報種別
公開特許公報(A)
公開日
2024-11-28
出願番号
2023081574
出願日
2023-05-17
発明の名称
文字認識装置及びプログラム
出願人
大日本印刷株式会社
代理人
個人
,
個人
,
個人
主分類
G06V
30/26 20220101AFI20241121BHJP(計算;計数)
要約
【課題】文書画像に含まれる文字列から必要項目を適切に抽出することを可能にした文字認識装置及びプログラムを提供する。
【解決手段】文字取得処理サーバ1は、文書画像から文字認識処理によって得られたテキストから予め設定された抽出対象項目名に該当する文字列を探索し、探索した文字列に対応する項目値をテキストから取得し、取得した項目値の妥当性を判断する項目値抽出処理部17と、妥当性の判断結果を含んで、項目値と項目値に対応する抽出対象項目名とを出力する処理結果出力部18と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
文書画像から文字認識処理によって得られたテキストから予め設定された抽出対象項目名に該当する文字列を探索する項目名探索手段と、
前記項目名探索手段が探索した前記文字列に対応する項目値を、前記テキストから取得する項目値取得手段と、
前記項目値取得手段が取得した前記項目値の妥当性を判断する妥当性判断手段と、
前記妥当性判断手段による妥当性の判断結果を含んで、前記項目値と、前記項目値に対応する前記抽出対象項目名とを出力する項目値出力手段と、
を備える、文字認識装置。
続きを表示(約 1,100 文字)
【請求項2】
請求項1に記載の文字認識装置において、
前記妥当性判断手段は、前記抽出対象項目名ごとに予め決められた判断ルールに基づいて、前記項目値取得手段が取得した前記項目値の妥当性を判断する、文字認識装置。
【請求項3】
請求項1に記載の文字認識装置において、
前記項目値取得手段は、前記項目名探索手段が探索した前記文字列に続くテキストを、前記項目値として取得する、文字認識装置。
【請求項4】
請求項1から請求項3までのいずれかに記載の文字認識装置において、
前記項目値出力手段は、前記妥当性判断手段により妥当性が低いと判断された前記項目値に対してアラートを出力する、文字認識装置。
【請求項5】
請求項1から請求項3までのいずれかに記載の文字認識装置において、
文書画像から文字を検出する文字検出手段と、
検出した前記文字の文字間隔に応じて文字列とする文字列取得手段と、
前記文字列取得手段が取得した前記文字列の位置情報及び前記文字列の文字サイズを含む文字列情報を取得する文字列情報取得手段と、
前記文字列取得手段が取得した前記文字列について、文字の読み方向における先頭の前記文字列から前記読み方向の順に、前記文字列と前記文字列に続く他の前記文字列との間の距離及び前記文字列情報の差分を算出する差分算出手段と、
前記差分算出手段が算出した前記距離及び前記差分と予め設定された閾値とに基づき、前記文字列と前記文字列に続く他の前記文字列とをグループ化するか否かを判定するグループ判定手段と、
前記文字列を前記テキストに変換するテキスト変換手段と、
を備え、
前記テキスト変換手段は、前記グループ判定手段によりグループ化すると判定した各文字列の間に区切り文字を挿入して前記テキストに変換し、
前記項目名探索手段は、前記テキスト変換手段により変換された前記テキストから前記抽出対象項目名に該当する文字列を探索する、文字認識装置。
【請求項6】
コンピュータを、
文書画像から文字認識処理によって得られたテキストから予め設定された抽出対象項目名に該当する文字列を探索する項目名探索手段と、
前記項目名探索手段が探索した前記文字列に対応する項目値を、前記テキストから取得する項目値取得手段と、
前記項目値取得手段が取得した前記項目値の妥当性を判断する妥当性判断手段と、
前記妥当性判断手段による妥当性の判断結果を含んで、前記項目値と、前記項目値に対応する前記抽出対象項目名とを出力する項目値出力手段と、
として機能させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、文字認識装置及びプログラムに関する。
続きを表示(約 3,000 文字)
【背景技術】
【0002】
従来、見積書や請求書等の発行元によってフォーマットが異なる書類を、データとしてシステムに登録する際に、文字入力を手作業で行っており、時間及び人的なコストがかかっている。
そのため、コストの削減のために、文字入力を自動的に行う様々な取り組みが検討されている。OCR(Optical Character Recognition/Reader)の使用は、その一例である。しかし、OCRでは、情報がバラバラに取得されてしまい、テキストの意味を理解することができない。
そこで、例えば、書類に含まれる文字画像集合のテキストデータに対応する特徴ベクトルを生成して使用するもの(例えば、特許文献1)がある。
【先行技術文献】
【特許文献】
【0003】
特開2022-178723号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、テキストデータの特徴ベクトルに基づいて属性ラベル候補と属性値候補とのペアをペア候補として検出し、特徴ベクトルに基づいてペアを特定する。しかしより近いものがペアとして特定されるにすぎず、ペアとしての妥当性が判断できなかった。
【0005】
そこで、本発明は、文書画像に含まれる文字列から必要項目を適切に抽出することを可能にした文字認識装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文書画像から文字認識処理によって得られたテキストから予め設定された抽出対象項目名に該当する文字列を探索する項目名探索手段と、前記項目名探索手段が探索した前記文字列に対応する項目値を、前記テキストから取得する項目値取得手段と、前記項目値取得手段が取得した前記項目値の妥当性を判断する妥当性判断手段と、前記妥当性判断手段による妥当性の判断結果を含んで、前記項目値と、前記項目値に対応する前記抽出対象項目名とを出力する項目値出力手段と、を備える、文字認識装置である。
第2の発明は、第1の発明の文字認識装置において、前記妥当性判断手段は、前記抽出対象項目名ごとに予め決められた判断ルールに基づいて、前記項目値取得手段が取得した前記項目値の妥当性を判断する、文字認識装置である。
第3の発明は、第1の発明又は第2の発明の文字認識装置において、前記項目値取得手段は、前記項目名探索手段が探索した前記文字列に続くテキストを、前記項目値として取得する、文字認識装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの文字認識装置において、前記項目値出力手段は、前記妥当性判断手段により妥当性が低いと判断された前記項目値に対してアラートを出力する、文字認識装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの文字認識装置において、文書画像から文字を検出する文字検出手段と、検出した前記文字の文字間隔に応じて文字列とする文字列取得手段と、前記文字列取得手段が取得した前記文字列の位置情報及び前記文字列の文字サイズを含む文字列情報を取得する文字列情報取得手段と、前記文字列取得手段が取得した前記文字列について、文字の読み方向における先頭の前記文字列から前記読み方向の順に、前記文字列と前記文字列に続く他の前記文字列との間の距離及び前記文字列情報の差分を算出する差分算出手段と、前記差分算出手段が算出した前記距離及び前記差分と予め設定された閾値とに基づき、前記文字列と前記文字列に続く他の前記文字列とをグループ化するか否かを判定するグループ判定手段と、前記文字列を前記テキストに変換するテキスト変換手段と、を備え、前記テキスト変換手段は、前記グループ判定手段によりグループ化すると判定した各文字列の間に区切り文字を挿入して前記テキストに変換し、前記項目名探索手段は、前記テキスト変換手段により変換された前記テキストから前記抽出対象項目名に該当する文字列を探索する、文字認識装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの文字認識装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、文書画像に含まれる文字列から必要項目を適切に抽出することを可能にした文字認識装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
本実施形態に係る文字取得処理システムの全体構成図及び文字取得処理サーバの機能ブロック図である。
本実施形態に係る文字取得処理サーバの制御部の一部についての機能ブロック図である。
本実施形態に係る文字取得処理サーバの妥当性判断ルール記憶部及び正規表現パターン定義ファイルの例を示す図である。
本実施形態に係る文字取得処理サーバにおける処理の概要を説明するための図である。
本実施形態に係る文字取得処理サーバの文字取得処理を示すフローチャートである。
本実施形態に係る文字取得処理サーバの矩形外処理を示すフローチャートである。
本実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
本実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
本実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
本実施形態に係る文字取得処理サーバの項目値抽出処理を示すフローチャートである。
変形形態に係る文字取得処理サーバにおける処理を説明するための図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<文字取得処理システム100の全体構成>
図1は、本実施形態に係る文字取得処理システム100の全体構成図及び文字取得処理サーバ1の機能ブロック図である。
図2は、本実施形態に係る文字取得処理サーバ1の制御部10の一部についての機能ブロック図である。
図3は、本実施形態に係る文字取得処理サーバ1の妥当性判断ルール記憶部23及び正規表現パターン定義ファイル31の例を示す図である。
【0010】
図1に示すように、文字取得処理システム100は、文字取得処理サーバ1(文字認識装置)と、ユーザ端末5と、OCR装置6とを備える。文字取得処理サーバ1と、ユーザ端末5と、OCR装置6とは、通信ネットワークNを介して接続されている。
文字取得処理システム100は、文書画像データに対して文字認識処理を行って得たテキストから、予め決められた抽出対象項目名と抽出対象項目名に対する項目値とを抽出して出力する処理を行うシステムである。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
大日本印刷株式会社
包装袋
4日前
大日本印刷株式会社
導電体
4日前
大日本印刷株式会社
積層体
3日前
大日本印刷株式会社
空中映像表示装置
10日前
大日本印刷株式会社
保護層転写シート
2日前
大日本印刷株式会社
保護層転写シート
2日前
大日本印刷株式会社
撮影画像表示システム
9日前
大日本印刷株式会社
特典付与装置及びシステム
10日前
大日本印刷株式会社
頂部検査装置及び充填装置
16日前
大日本印刷株式会社
文字認識装置及びプログラム
3日前
大日本印刷株式会社
文字認識装置及びプログラム
3日前
大日本印刷株式会社
光学フィルム及び画像表示装置
2日前
大日本印刷株式会社
顔写真作成装置およびプログラム
4日前
大日本印刷株式会社
導光板、面光源装置および表示装置
10日前
大日本印刷株式会社
光学部材、面光源装置、及び表示装置
3日前
大日本印刷株式会社
光学部材、面光源装置、及び表示装置
3日前
大日本印刷株式会社
光学部材、面光源装置、及び表示装置
3日前
大日本印刷株式会社
光学シート、面光源装置および表示装置
2日前
大日本印刷株式会社
発泡性接着シートおよび物品の製造方法
9日前
大日本印刷株式会社
積層体、チューブ容器本体およびチューブ容器
16日前
大日本印刷株式会社
購買支援システム、プログラム及び購買支援方法
9日前
大日本印刷株式会社
問題作成支援装置、問題作成支援方法及びプログラム
10日前
大日本印刷株式会社
化粧材
16日前
大日本印刷株式会社
認知機能検査装置、プログラム及び認知機能検査システム
2日前
大日本印刷株式会社
画像表示装置
10日前
大日本印刷株式会社
プログラム、モデル生成方法、画像処理方法、及び画像処理装置
9日前
大日本印刷株式会社
積層体およびチューブ容器
2日前
大日本印刷株式会社
検出装置及び放射線特定装置
12日前
大日本印刷株式会社
防眩フィルム及び画像表示装置
10日前
大日本印刷株式会社
樹脂フィルム、積層体および袋
5日前
大日本印刷株式会社
ICチップ付き物品及びその製造方法
5日前
大日本印刷株式会社
光学シート、面光源装置および表示装置
2日前
大日本印刷株式会社
伸縮包装材および伸縮包装体の製造方法
16日前
大日本印刷株式会社
蓄電デバイス用樹脂フィルム及び蓄電デバイス
16日前
大日本印刷株式会社
加飾積層体、転写シート、加飾部材、及び移動体
5日前
大日本印刷株式会社
積層体、包装材料、包装袋およびスタンドパウチ
16日前
続きを見る
他の特許を見る