TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025008714
公報種別公開特許公報(A)
公開日2025-01-20
出願番号2023111127
出願日2023-07-06
発明の名称文字認識装置及びプログラム
出願人大日本印刷株式会社
代理人個人,個人,個人
主分類G06V 30/412 20220101AFI20250109BHJP(計算;計数)
要約【課題】文書画像に含まれる文字列から項目名と項目値とを適切に組み合わせることができる文字認識装置及びプログラムを提供する。
【解決手段】文字取得処理サーバ1は、文書画像から文字を検出して文字列を取得する文字列取得部12と、文字列取得部12が取得した文字列を、項目名と項目値とに分類する項目分類部13と、項目分類部13が分類した文字列から項目名と項目値との組み合わせを推定する組合せ推定部14と、組合せ推定部14が推定した項目名と項目値との組み合わせのうち項目名と項目値との位置情報に基づいて、出力対象にする項目名と項目値との組み合わせを決定する組合せ決定部15と、組合せ決定部15が決定した項目名と項目値との組み合わせを出力する処理結果出力部16と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
文書画像から文字を検出して文字列を取得する文字列取得手段と、
前記文字列取得手段が取得した前記文字列を、項目名と項目値とに分類する項目分類手段と、
前記項目分類手段が分類した前記文字列から前記項目名と前記項目値との組み合わせを推定する組合せ推定手段と、
前記組合せ推定手段が推定した前記項目名と前記項目値との組み合わせのうち前記項目名と前記項目値との位置情報に基づいて、出力対象にする前記項目名と前記項目値との組み合わせを決定する組合せ決定手段と、
前記組合せ決定手段が決定した前記項目名と前記項目値との組み合わせを出力する項目組合せ出力手段と、
を備える、文字認識装置。
続きを表示(約 1,500 文字)【請求項2】
請求項1に記載の文字認識装置において、
前記項目分類手段は、各項目の項目名を記憶した項目名リストを参照し、前記項目名リストに含まれる前記文字列を前記項目名に分類し、前記項目名リストに含まれない前記文字列を前記項目値に分類する、文字認識装置。
【請求項3】
請求項1に記載の文字認識装置において、
前記組合せ推定手段は、項目名に対する項目値の条件を記憶した項目値条件記憶部を参照し、前記項目分類手段が分類した前記項目値の前記文字列に組み合わせる前記項目名を推定する、文字認識装置。
【請求項4】
請求項1に記載の文字認識装置において、
前記組合せ推定手段は、項目名と項目値との組み合わせを学習した学習モデルを用いて、前記項目分類手段が分類した前記項目値の前記文字列に組み合わせる前記項目名を取得する、文字認識装置。
【請求項5】
請求項3又は請求項4に記載の文字認識装置において、
前記組合せ推定手段は、前記項目分類手段が分類した前記項目名の前記文字列から閾値以下の距離にある前記項目値の前記文字列を取得し、取得した前記項目値の前記文字列と前記項目名とを組み合わせる、文字認識装置。
【請求項6】
請求項5に記載の文字認識装置において、
前記組合せ推定手段は、前記項目分類手段が分類した前記項目名の前記文字列から閾値以下の距離にある前記項目値の前記文字列として複数の前記項目値の前記文字列を取得したことに応じて、項目名に対する項目値の条件を記憶した項目値条件記憶部を参照し、複数の前記項目値の前記文字列によって前記項目値の条件を満たす場合に、複数の前記項目値の前記文字列を結合させた結合文字列と前記項目名の前記文字列とを組み合わせる、文字認識装置。
【請求項7】
請求項1に記載の文字認識装置において、
前記組合せ決定手段は、前記組合せ推定手段が推定した前記組み合わせである前記項目名と前記項目値との間の距離が閾値以下である場合に、前記組み合わせを出力対象に決定する、文字認識装置。
【請求項8】
請求項7に記載の文字認識装置において、
前記組合せ決定手段は、さらに前記項目値と前記項目名との配置位置の関係性に基づいて、前記組み合わせを出力対象に決定する、文字認識装置。
【請求項9】
請求項4に記載の文字認識装置において、
前記項目組合せ出力手段が出力した前記項目名と前記項目値との組み合わせに対してユーザからの入力により確定された、前記項目名と前記項目値との組み合わせを情報記憶部に記憶させる登録手段と、
前記情報記憶部に記憶された前記項目名と前記項目値との組み合わせを入力値として学習モデルを学習する学習手段と、
を備える、文字認識装置。
【請求項10】
コンピュータを、
文書画像から文字を検出して文字列を取得する文字列取得手段と、
前記文字列取得手段が取得した前記文字列を、項目名と項目値とに分類する項目分類手段と、
前記項目分類手段が分類した前記文字列から前記項目名と前記項目値との組み合わせを推定する組合せ推定手段と、
前記組合せ推定手段が推定した前記項目名と前記項目値との組み合わせのうち前記項目名と前記項目値との位置情報に基づいて、出力対象にする前記項目名と前記項目値との組み合わせを決定する組合せ決定手段と、
前記組合せ決定手段が決定した前記項目名と前記項目値との組み合わせを出力する項目組合せ出力手段と、
して機能させるためのプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、文字認識装置及びプログラムに関する。
続きを表示(約 3,600 文字)【背景技術】
【0002】
従来、見積書や請求書等の発行元によってフォーマットが異なる書類を、データとしてシステムに登録する際に、文字入力を手作業で行っており、時間及び人的なコストがかかっている。
そのため、コストの削減のために、文字入力を自動的に行う様々な取り組みが検討されている。OCR(Optical Character Recognition/Reader)の使用は、その一例である。しかし、OCRでは、情報がバラバラに取得されてしまい、テキストの意味を理解することができない。
そこで、例えば、書類における特定の属性の記述位置を指定するテンプレートを使用するものがある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
特開2019-86984号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、フォーマットを書類ごとに準備する必要があり煩雑であった。特に、見積書や請求書等の非定型書類には、項目名とその内容とが記載されているものであるが、罫線がない場合には、罫線を手掛かりにすることができず、項目とその内容とを適切に抽出することが難しかった。
【0005】
そこで、本発明は、文書画像に含まれる文字列から項目名と項目値とを適切に組み合わせることができる文字認識装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文書画像から文字を検出して文字列を取得する文字列取得手段と、前記文字列取得手段が取得した前記文字列を、項目名と項目値とに分類する項目分類手段と、前記項目分類手段が分類した前記文字列から前記項目名と前記項目値との組み合わせを推定する組合せ推定手段と、前記組合せ推定手段が推定した前記項目名と前記項目値との組み合わせのうち前記項目名と前記項目値との位置情報に基づいて、出力対象にする前記項目名と前記項目値との組み合わせを決定する組合せ決定手段と、前記組合せ決定手段が決定した前記項目名と前記項目値との組み合わせを出力する項目組合せ出力手段と、を備える、文字認識装置である。
第2の発明は、第1の発明の文字認識装置において、前記項目分類手段は、各項目の項目名を記憶した項目名リストを参照し、前記項目名リストに含まれる前記文字列を前記項目名に分類し、前記項目名リストに含まれない前記文字列を前記項目値に分類する、文字認識装置である。
第3の発明は、第1の発明又は第2の発明の文字認識装置において、前記組合せ推定手段は、項目名に対する項目値の条件を記憶した項目値条件記憶部を参照し、前記項目分類手段が分類した前記項目値の前記文字列に組み合わせる前記項目名を推定する、文字認識装置である。
第4の発明は、第1の発明又は第2の発明の文字認識装置において、前記組合せ推定手段は、項目名と項目値との組み合わせを学習した学習モデルを用いて、前記項目分類手段が分類した前記項目値の前記文字列に組み合わせる前記項目名を取得する、文字認識装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの文字認識装置において、前記組合せ推定手段は、前記項目分類手段が分類した前記項目名の前記文字列から閾値以下の距離にある前記項目値の前記文字列を取得し、取得した前記項目値の前記文字列と前記項目名とを組み合わせる、文字認識装置である。
第6の発明は、第5の発明の文字認識装置において、前記組合せ推定手段は、前記項目分類手段が分類した前記項目名の前記文字列から閾値以下の距離にある前記項目値の前記文字列として複数の前記項目値の前記文字列を取得したことに応じて、項目名に対する項目値の条件を記憶した項目値条件記憶部を参照し、複数の前記項目値の前記文字列によって前記項目値の条件を満たす場合に、複数の前記項目値の前記文字列を結合させた結合文字列と前記項目名の前記文字列とを組み合わせる、文字認識装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの文字認識装置において、前記組合せ決定手段は、前記組合せ推定手段が推定した前記組み合わせである前記項目名と前記項目値との間の距離が閾値以下である場合に、前記組み合わせを出力対象に決定する、文字認識装置である。
第8の発明は、第7の発明の文字認識装置において、前記組合せ決定手段は、さらに前記項目値と前記項目名との配置位置の関係性に基づいて、前記組み合わせを出力対象に決定する、文字認識装置である。
第9の発明は、第4の発明の文字認識装置において、前記項目組合せ出力手段が出力した前記項目名と前記項目値との組み合わせに対してユーザからの入力により確定された、前記項目名と前記項目値との組み合わせを情報記憶部に記憶させる登録手段と、前記情報記憶部に記憶された前記項目名と前記項目値との組み合わせを入力値として学習モデルを学習する学習手段と、を備える、文字認識装置である。
第10の発明は、第1の発明から第9の発明までのいずれかの文字認識装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、文書画像に含まれる文字列から項目名と項目値とを適切に組み合わせることができる文字認識装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
第1実施形態に係る文字取得処理システムの全体構成図及び文字取得処理サーバの機能ブロック図である。
第1実施形態に係る文字取得処理サーバの項目名リスト記憶部及び項目値条件記憶部の例を示す図である。
第1実施形態に係る文字取得処理サーバの文字取得処理を示すフローチャートである。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第1実施形態に係る文字取得処理サーバの組合せ推定処理を示すフローチャートである。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第1実施形態に係る文字取得処理サーバの組合せ決定処理を示すフローチャートである。
第1実施形態に係る文字取得処理サーバにおける処理を説明するための図である。
第2実施形態に係る文字取得処理システムの全体構成図及び文字取得処理サーバの機能ブロック図である。
第2実施形態に係る文字取得処理サーバの文字取得処理を示すフローチャートである。
第2実施形態に係る文字取得処理サーバの組合せ推定処理を示すフローチャートである。
第2実施形態に係る文字取得処理サーバの学習処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(第1実施形態)
<文字取得処理システム100の全体構成>
図1は、第1実施形態に係る文字取得処理システム100の全体構成図及び文字取得処理サーバ1の機能ブロック図である。
図2は、第1実施形態に係る文字取得処理サーバ1の項目名リスト記憶部22及び項目値条件記憶部23の例を示す図である。
【0010】
図1に示すように、文字取得処理システム100は、文字取得処理サーバ1(文字認識装置)と、ユーザ端末5と、OCR装置6とを備える。文字取得処理サーバ1と、ユーザ端末5と、OCR装置6とは、通信ネットワークNを介して接続されている。
文字取得処理システム100は、文書画像データに対して文字認識処理を行って得たテキストについて、項目名と項目値とに分類する。そして、文字取得処理システム100は、項目値に対する項目名の組み合わせを推定した上で、組み合わせのうち項目名と項目値との位置情報に基づいて決定した組み合わせを出力する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

大日本印刷株式会社
光学素子
5日前
大日本印刷株式会社
調光部材
5日前
大日本印刷株式会社
加飾シート
今日
大日本印刷株式会社
加飾シート
今日
大日本印刷株式会社
ガス充填容器
2日前
大日本印刷株式会社
香りテスター
7日前
大日本印刷株式会社
情報通信システム
2日前
大日本印刷株式会社
透明吸湿用積層体
5日前
大日本印刷株式会社
紙容器、紙カップ
6日前
大日本印刷株式会社
調光部材、合わせ板
5日前
大日本印刷株式会社
積層体及び包装容器
2日前
大日本印刷株式会社
透明吸湿PTP用積層体
5日前
大日本印刷株式会社
透明吸湿ブリスターシート
5日前
大日本印刷株式会社
文字認識装置及びプログラム
2日前
大日本印刷株式会社
鍵管理システムおよび鍵管理方法
7日前
大日本印刷株式会社
リン晶析板およびリン晶析物回収方法
6日前
大日本印刷株式会社
マスク装置の製造方法及びマスク装置
13日前
大日本印刷株式会社
光学部材、面光源装置、及び表示装置
13日前
大日本印刷株式会社
配向膜、光学フィルム及び画像表示装置
5日前
大日本印刷株式会社
ポリエチレンフィルム、積層体及び包装袋
2日前
大日本印刷株式会社
内容物充填システムおよび内容物充填方法
2日前
大日本印刷株式会社
ポリエチレンフィルム、積層体及び包装袋
2日前
大日本印刷株式会社
ポリエチレンフィルム、積層体及び包装袋
2日前
大日本印刷株式会社
申請書様式提供装置および申請書様式の提供方法
13日前
大日本印刷株式会社
積層体、化粧材、転写シート及び積層体の製造方法
2日前
大日本印刷株式会社
積層体、化粧材、転写シート及び積層体の製造方法
2日前
大日本印刷株式会社
蓄電デバイス、蓋ユニット、蓄電デバイスの製造方法
5日前
大日本印刷株式会社
沈殿物回収設備、沈殿物回収板、および沈殿物回収方法
6日前
大日本印刷株式会社
構造体
8日前
大日本印刷株式会社
フレキシブル表示装置用支持体及びフレキシブル表示装置
13日前
大日本印刷株式会社
化粧シート、樹脂含浸化粧板および樹脂含浸化粧板の製造方法
7日前
大日本印刷株式会社
証明書更新システム、証明書更新方法、サーバ及びプログラム
7日前
大日本印刷株式会社
蓄電デバイス
13日前
大日本印刷株式会社
センサ素子構造体、固体量子センサモジュールおよびセンサ装置
5日前
大日本印刷株式会社
防錆性フィルム
13日前
大日本印刷株式会社
コイル部品、送電装置、受電装置、電力伝送システム、及び移動体
2日前
続きを見る