TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025032497
公報種別
公開特許公報(A)
公開日
2025-03-12
出願番号
2023137789
出願日
2023-08-28
発明の名称
情報処理装置、情報処理方法、及びプログラム
出願人
キヤノン株式会社
代理人
個人
主分類
G06F
16/55 20190101AFI20250305BHJP(計算;計数)
要約
【課題】文書画像のファイルの検索性を向上させる。
【解決手段】文書画像の文書種別を分類する分類手段を有する。また、文書画像から項目情報に対応する文字列群を抽出する抽出手段を有する。また、文書画像にファイル名を付与して格納する格納手段を有する。分類手段は、複数の文書種別を兼ねた文書(例えば、兼用帳票)の文書画像を、複数の文書種別に分類する。文書画像が複数の文書種別に分類された場合に、格納手段は、抽出手段で抽出された文字列群を用いて、同一の文書画像に対し異なる複数のファイル名を付与して格納する。
【選択図】図7
特許請求の範囲
【請求項1】
文書画像の文書種別を分類する分類手段と、
前記文書画像から項目情報に対応する文字列群を抽出する抽出手段と、
前記文書画像にファイル名を付与して格納する格納手段と、
を有し、
前記分類手段で前記文書画像が複数の文書種別に分類された場合に、前記格納手段は、前記抽出手段で抽出された文字列群を用いて、前記文書画像に異なる複数のファイル名を付与することを特徴とする情報処理装置。
続きを表示(約 1,000 文字)
【請求項2】
前記分類手段で前記文書画像が第1の種別と第2の種別に分類された場合に、前記格納手段は、前記第1の種別に対応する文字列を含む第1のファイル名と前記第2の種別に対応する文字列を含む第2のファイル名とを付与することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記格納手段は、前記第1の種別に関連する前記項目情報に対応する文字列を用いて前記第1のファイル名を生成し、前記第2の種別に関連する前記項目情報に対応する文字列を用いて前記第2のファイル名を生成することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記格納手段は、前記第1のファイル名を付与した前記文書画像のファイルと、前記ファイルへのリンクとを格納し、前記リンクには前記第2のファイル名を付与することを特徴とする請求項2に記載の情報処理装置。
【請求項5】
前記格納手段は、前記第1のファイル名を付与した前記文書画像のファイルと、前記ファイルのコピーとを格納し、前記コピーには第2のファイル名を付与することを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記分類手段は、前記文書画像から取得される文字列群を第1のモデルに入力することで出力される、各文書種別に対応する確率が閾値以上である文書種別に基づいて、前記文書画像の文書種別を分類することを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記分類手段は、前記文書画像のタイトルの文字列に含まれる特定文字列を用いて、前記文書画像の文書種別を分類することを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記抽出手段は、前記文書画像から取得される文字列群を第2のモデルに入力することで、前記項目情報に対応する文字列群を抽出することを特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記格納手段は、前記抽出手段で抽出された文字列群を用いて、複数のフォルダの中から、前記ファイル名を付与した、前記文書画像のファイル、前記ファイルへのリンク、及び前記ファイルのコピーのうちの少なくとも何れか1つを格納するフォルダを選択することを特徴とする請求項1に記載の情報処理装置。
【請求項10】
文書種別を示す正解ラベルが付与された文書画像群を用いて、前記第1のモデルを学習する学習手段を更に有することを特徴とする請求項6に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、文書画像から情報を抽出する技術に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
従来、入力された文書画像に対して、当該文書画像の文書種別(例:請求書、見積書、納品書)を判定する技術がある。また、当該文書画像に記載された所定の項目情報(例:タイトル、文書番号、発行日、会社名、金額)に対応する文字列を抽出する技術がある。
特許文献1は、文書画像の文書種別を判定し、文書画像を保管するためのフォルダが持つ特徴情報との類似度を比較した結果、類似度が閾値以上であるフォルダに対して、当該文書画像のファイルのリンクを設定する技術を開示している。特許文献1によれば、例えば、「納品書兼請求書」のように、複数の文書種別を兼ねた文書(以下、兼用帳票と呼ぶ)の文書画像のファイルについて、「納品書」フォルダと「請求書」フォルダの両方に、リンクを設定できる。
【先行技術文献】
【特許文献】
【0003】
特開2004-220347号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の技術では、ファイルとの類似度が閾値以上である複数のフォルダに分類・保管した場合に、特徴情報を持つフォルダ毎に分類されたファイル群に対して検索を行う必要があるため、当該ファイルに対する検索性が低下する課題があった。具体的には、例えば、「納品書兼請求書」を所定のフォルダに格納後、「納品書」として当該ファイルを参照する場合、「納品書」フォルダ内に存在する全ファイルから当該ファイルを見つける手間と時間を要し、検索性が低下していた。同様に、例えば、「納品書兼請求書」を所定のフォルダに格納後、「請求書」として当該ファイルを参照する場合、「請求書」フォルダ内に存在する全ファイルから当該ファイルを見つける手間と時間を要し、検索性が低下していた。また、特許文献1の技術では、フォルダが持つ特徴情報を細分化してファイルを分類・保管することも可能だが、特徴情報を細分化するほどフォルダ構造が複雑化するため、複数のフォルダを参照する手間と時間を要し、検索性が低下する課題があった。
【0005】
そこで本発明は、文書画像のファイルの検索性を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の情報処理装置は、文書画像の文書種別を分類する分類手段と、前記文書画像から項目情報に対応する文字列群を抽出する抽出手段と、前記文書画像にファイル名を付与して格納する格納手段と、を有し、前記分類手段で前記文書画像が複数の文書種別に分類された場合に、前記格納手段は、前記抽出手段で抽出された文字列群を用いて、前記文書画像に異なる複数のファイル名を付与することを特徴とする。
【発明の効果】
【0007】
本発明によれば、文書画像のファイルの検索性を向上させることができる。
【図面の簡単な説明】
【0008】
情報処理システムの全体構成例を示す図である。
各装置の構成例を示す図である。
情報処理システムの利用シーケンスを示す図である。
機械学習モデルを生成するフローチャートである。
文書画像のファイルのリンクを格納するフローチャートである。
文書画像のファイルのコピーを格納するフローチャートである。
文書画像のファイルにメタデータを付与するフローチャートである。
複数の文書種別を兼ねた文書(兼用帳票)の画像の例を示す図である。
文書種別判定結果の例を示す図である。
機械学習モデルの入出力データの例を示す図である。
文書画像のファイルを格納する方法を説明する図である。
文書画像のタイトルに含まれる文字列と文書種別の関係の説明図である。
複数の文書種別を兼ねた文書(兼用帳票)の画像の例を示す図である。
文書画像のファイルを格納する方法を説明する図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について、図面を参照して説明する。
【0010】
[実施形態1]
<情報処理システム>
図1は、情報処理システムの全体構成例を示す図である。図1に示すように、情報処理システム100は、情報処理装置101、学習装置102、及び情報処理サーバ103で構成される。情報処理装置101、学習装置102、及び情報処理サーバ103は、ネットワーク104を介して互いに接続される。情報処理システム100は、情報処理装置101、学習装置102、及び情報処理サーバ103が1台ずつで構成されてもよく、複数台ずつで構成されてもよい。例えば、情報処理サーバ103は、高速演算リソースと有する第1のサーバ装置と、大容量ストレージを有する第2のサーバ装置で構成され、ネットワーク104を介して互いに接続された構成であってもよい。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
プログラム
6日前
個人
情報提示方法
1か月前
個人
プログラム
1か月前
株式会社理研
演算装置
13日前
個人
アカウントマップ
1か月前
個人
プログラム
1か月前
個人
日本語入力支援システム
13日前
個人
AI旅行最適化プラグイン
12日前
個人
発想支援方法及びシステム
1か月前
個人
分類処理プログラム及び方法
1か月前
個人
案件管理装置および端末装置
27日前
個人
納骨堂システム
5日前
個人
学習装置及び推論装置
1か月前
個人
技術実行管理システム
今日
富士通株式会社
金融システム
1か月前
株式会社発明屋
電池指向の構造設計
1か月前
トヨタ自動車株式会社
管理装置
1か月前
キヤノン株式会社
情報処理装置
13日前
トヨタ自動車株式会社
電気自動車
19日前
株式会社イズミ
総合代行システム
23日前
株式会社プレニーズ
仲介システム
1か月前
個人
ダブルオークションシステム
23日前
富士通株式会社
プロセッサ
1か月前
富士通株式会社
予測
26日前
株式会社TIMEWELL
情報処理システム
6日前
トヨタ自動車株式会社
生成装置
1か月前
合同会社IPマネジメント
料金収受システム
26日前
株式会社SUBARU
車両用操作装置
19日前
ローム株式会社
半導体集積回路
9日前
株式会社サマデイ
メンタリングシステム
今日
個人
収納装置および収納システム
12日前
トヨタ自動車株式会社
電池評価システム
5日前
トヨタ自動車株式会社
電池性能推定方法
26日前
マクセル株式会社
リーダライタ用ホルダ
26日前
個人
生成AI向けデータ保管及び活用システム
6日前
個人
株式投資コンペティションシステム
26日前
続きを見る
他の特許を見る