TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024157784
公報種別
公開特許公報(A)
公開日
2024-11-08
出願番号
2023072361
出願日
2023-04-26
発明の名称
情報処理システム、情報処理方法及びプログラム
出願人
株式会社東芝
,
東芝デジタルソリューションズ株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06F
40/279 20200101AFI20241031BHJP(計算;計数)
要約
【課題】文字認識の結果から得られた言語特徴の品質を向上させる。
【解決手段】実施形態の情報処理システムは、入力部とトークン変換部と推定部と補助トークン列生成部と結合トークン列生成部と特徴ベクトル変換部とを備える。入力部は、入力テキストと位置情報との入力を受け付ける。トークン変換部は、入力テキストを、トークンの分割単位が定められた語彙辞書に基づきトークン列群に変換する。推定部は、位置情報に基づき、トークン列群の構造を示す構造化情報を推定する。補助トークン列生成部は、トークン列群に含まれるターゲットトークン列毎に、構造化情報に基づき補助トークン列を生成する。結合トークン列生成部は、ターゲットトークン列と補助トークン列とを結合することによって、結合トークン列を生成する。特徴ベクトル変換部は、ニューラルネットワークを用いて、結合トークン列をターゲットトークン列の文脈情報を表す特徴ベクトルに変換する。
【選択図】図2
特許請求の範囲
【請求項1】
画像に含まれる少なくとも1つの文を含む入力テキストと、前記文の位置情報との入力を受け付ける入力部と、
前記入力テキストを、トークンの分割単位が定められた語彙辞書に基づき、トークン列群に変換するトークン変換部と、
前記位置情報に基づき、前記トークン列群の構造を示す構造化情報を推定する推定部と、
前記トークン列群に含まれるターゲットトークン列毎に、前記構造化情報に基づき、前記ターゲットトークン列の文脈情報を推定する補助トークン列を生成する補助トークン列生成部と、
前記ターゲットトークン列と前記補助トークン列とを結合することによって、結合トークン列を生成する結合トークン列生成部と、
少なくとも1つのニューラルネットワークレイヤーを含むニューラルネットワークを用いて、前記結合トークン列を、前記ターゲットトークン列の文脈情報を表す特徴ベクトルに変換する特徴ベクトル変換部と、
を備える情報処理システム。
続きを表示(約 1,300 文字)
【請求項2】
前記画像は、文書構造を有する複数の文を含み、
前記ターゲットトークン列は、前記文書構造を有する複数の文の一部であり、
前記補助トークン列生成部は、所定の変換規則によって前記ターゲットトークン列の文書構造を、前記文書構造を識別するラベルトークンに変換し、前記ラベルトークンを含む補助トークン列を生成する、
請求項1に記載の情報処理システム。
【請求項3】
前記補助トークン列生成部は、前記ターゲットトークン列を、少なくとも1つのバリュー情報として生成し、前記補助トークン列を、前記少なくとも1つのバリュー情報を説明するキーとして生成する、
請求項1又は2に記載の情報処理システム。
【請求項4】
前記補助トークン列生成部は、前記補助トークン列を、少なくとも1つのバリュー情報として生成し、前記ターゲットトークン列を、前記少なくとも1つのバリュー情報を説明するキーとして生成する、
請求項1又は2に記載の情報処理システム。
【請求項5】
前記ターゲットトークン列は、表に含まれる少なくとも1つのセル内のデータの全部または一部であり、
前記補助トークン列生成部は、前記表に付与された少なくとも1つの見出しの全部または一部を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
【請求項6】
前記ターゲットトークン列は、表に付与された少なくとも1つの見出しの全部または一部の全部または一部であり、
前記補助トークン列生成部は、前記表に含まれる少なくとも1つのセル内のデータの全部または一部を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
【請求項7】
前記ターゲットトークン列は、1文の一部であり、
前記補助トークン列生成部は、前記ターゲットトークン列と同じ文に属する全部または一部のトークン列を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
【請求項8】
前記ターゲットトークン列は、図又は表を引用する文の全部または一部であり、
前記補助トークン列生成部は、前記図又は表に付与されたタイトルの全部または一部を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
【請求項9】
前記ターゲットトークン列は、図又は表に付与されたタイトルの全部または一部であり、
前記補助トークン列生成部は、前記図又は表を引用する文の全部または一部を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
【請求項10】
前記ターゲットトークン列は、帳票または章節のタイトルの全部または一部であり、
前記補助トークン列生成部は、前記帳票または章節に対応するデータの全部または一部を含む補助トークン列を生成する、
請求項1又は2に記載の情報処理システム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は情報処理システム、情報処理方法及びプログラムに関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
文を含む画像(例えば、帳票画像)に対して、読み取る項目の位置を事前に定義せずに、文字認識の結果から得られた言語特徴に基づいて、自動的に指定項目を抽出する技術が従来から知られている。
【先行技術文献】
【特許文献】
【0003】
特開2022-096748号公報
【非特許文献】
【0004】
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,[online],[令和4年4月10日検索],インターネット〈URL:https://arxiv.org/pdf/1810.04805.pdf〉
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、文字認識の結果から得られた言語特徴の品質が低下する問題があった。例えば、読み順が自明でない複数の文、または、文脈が連続しない複数の文が、画像に含まれている場合、文字認識の結果から得られた言語特徴の品質が低下する問題があった。
【課題を解決するための手段】
【0006】
実施形態の情報処理システムは、入力部とトークン変換部と推定部と補助トークン列生成部と結合トークン列生成部と特徴ベクトル変換部とを備える。入力部は、画像に含まれる少なくとも1つの文を含む入力テキストと、前記文の位置情報との入力を受け付ける。トークン変換部は、前記入力テキストを、トークンの分割単位が定められた語彙辞書に基づき、トークン列群に変換する。推定部は、前記位置情報に基づき、前記トークン列群の構造を示す構造化情報を推定する。補助トークン列生成部は、前記トークン列群に含まれるターゲットトークン列毎に、前記構造化情報に基づき、前記ターゲットトークン列の文脈情報を推定する補助トークン列を生成する。結合トークン列生成部は、前記ターゲットトークン列と前記補助トークン列とを結合することによって、結合トークン列を生成する。特徴ベクトル変換部は、少なくとも1つのニューラルネットワークレイヤーを含むニューラルネットワークを用いて、前記結合トークン列を、前記ターゲットトークン列の文脈情報を表す特徴ベクトルに変換する。
【図面の簡単な説明】
【0007】
図1は、実施形態の情報処理システムによる指定項目の抽出例を示す図である。
図2は、実施形態の情報処理システムの構成の例を示す図である。
図3は、実施形態の情報処理システムによって処理される画像の例を示す図である。
図4は、実施形態の補助トークン列生成部で使用されるニューラルネットワーク言語モデルの例を示す図である。
図5は、実施形態の特徴ベクトル変換部及び分類部の処理例を示す図である。
図6は、実施形態の言語特徴の抽出例を説明するための図である。
図7は、実施形態の情報処理方法の例を示すフローチャートである。
図8は、実施形態の言語特徴の抽出例を説明するための図である。
図9は、実施形態の情報処理システムのハードウェア構成の例を示す図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、情報処理システム、情報処理方法及びプログラムの実施形態を詳細に説明する。
【0009】
実施形態の情報処理システムは、読み取る項目の位置を事前に定義せずに、文字認識結果から自動的に指定項目を抽出する。
【0010】
図1は、実施形態の情報処理システムによる指定項目の抽出例を示す図である。図1の例は、帳票を示す文書の画像から、請求書番号の記号列と、会社名とが抽出される場合を示す。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社東芝
電池
1か月前
株式会社東芝
除去装置
20日前
株式会社東芝
電源回路
1か月前
株式会社東芝
計画装置
6日前
株式会社東芝
電解装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
コンデンサ
1か月前
株式会社東芝
真空バルブ
22日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体回路
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
ストレージ
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
アイソレータ
1か月前
株式会社東芝
電力変換装置
1か月前
株式会社東芝
アイソレータ
1か月前
株式会社東芝
静電保護回路
1か月前
株式会社東芝
ディスク装置
1か月前
株式会社東芝
ディスク装置
1か月前
株式会社東芝
ディスク装置
1か月前
株式会社東芝
電力変換装置
8日前
続きを見る
他の特許を見る