TOP特許意匠商標
特許ウォッチ DM通知 Twitter
10個以上の画像は省略されています。
公開番号2023012522
公報種別公開特許公報(A)
公開日2023-01-25
出願番号2022176330
出願日2022-11-02
発明の名称クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
出願人ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド,Beijing Baidu Netcom Science Technology Co., Ltd.
代理人個人,個人,個人
主分類G06F 16/35 20190101AFI20230118BHJP(計算;計数)
要約【課題】リッチテキスト文書を理解するモデルの能力を向上させ、人件費を節約することができるクロスモーダル情報に基づく文書読解モデルトレーニング方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】文書読解モデルトレーニング方法は、質問サンプルと、質問サンプルの実回答が含まれるリッチテキスト文書サンプルと、を取得し、リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得し、リッチテキスト文書サンプルのテキスト情報、レイアウト情報及び画像情報を予め設定された読解モデルに入力して、質問サンプルの予測回答を取得し、実回答と予測回答とに基づいて、読解モデルをトレーニングする。
【選択図】図1
特許請求の範囲【請求項1】
質問サンプルとリッチテキスト文書サンプルとを取得するステップであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれるステップと、
前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得するステップと、
前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、
前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップと、
を含む、クロスモーダル情報に基づく文書読解モデルトレーニング方法。
続きを表示(約 3,200 文字)【請求項2】
前記リッチテキストは長いリッチテキストであり、
前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップが、
前記長いリッチテキスト文書サンプルのテキスト情報を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問サンプルを各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、
を含む請求項1に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項3】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力するステップと、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得するステップと、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記長いリッチテキスト文書サンプルの文書コードを取得するステップと、
前記画像エンコーダーによって前記画像情報をエンコードして、前記長いリッチテキスト文書サンプルの視覚的特徴を取得するステップと、
前記長いリッチテキスト文書サンプルの文書コードと前記視覚的特徴とに対して融合処理を行って、前記長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問サンプルの予測回答を取得するステップと、
を含む請求項2に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項4】
前記読解モデルが分類器を備え、
前記方法が、
前記マルチモーダル融合コードと前記質問サンプルのコードとをスプライスして、スプライスコードを取得するステップと、
前記スプライスコードを前記分類器に入力して、前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の予測値を取得するステップと、
を含む請求項3に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項5】
前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップが、
前記実回答と前記予測回答とに基づいて、第1の損失値を生成するステップと、
前記類似度の予測値、及び前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の真の値に基づいて、第2の損失値を生成するステップと、
前記第1の損失値と前記第2の損失値とに基づいて、前記読解モデルをトレーニングするステップと、
を含む請求項4に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項6】
前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問サンプルの予測回答を取得するステップが、
前記マルチモーダル融合コードを前記CRFモジュールに入力するステップと、
前記CRFモジュールから出力された回答シーケンスラベルを取得するステップであって、前記回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれるステップと、
前記回答シーケンスラベルに基づいて、前記長いリッチテキスト文書サンプルから、前記質問サンプルの予測回答を抽出するステップと、
を含む請求項3に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項7】
前記回答シーケンスラベルが、回答セグメント内の非回答テキストラベルを含む請求項6に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項8】
受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得するステップと、
前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得するステップと、
前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップと、
を含む、文書の視覚的質問応答方法。
【請求項9】
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め確立された読解モデルに入力して、前記質問情報に対応する回答情報を取得するステップであって、前記読解モデルが、請求項1に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法によってトレーニングされて得られるステップを含む請求項8に記載の文書の視覚的質問応答方法。
【請求項10】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め確立された読解モデルに入力して、前記質問情報に対応する回答情報を取得するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を前記読解モデルに入力するステップと、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得するステップと、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記候補リッチテキスト文書の文書コードを取得するステップと、
前記画像エンコーダーによって前記画像情報をエンコードして、前記候補リッチテキスト文書の視覚的特徴を取得するステップと、
前記候補リッチテキスト文書の文書コードと前記視覚的特徴とに対して融合処理を行って、前記候補リッチテキスト文書のマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問情報に対応する回答情報を取得するステップと、
を含む請求項9に記載の文書の視覚的質問応答方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本願は、データ処理の分野に関し、特に自然言語処理NLP及び深層学習技術に関し、特にクロスモーダル情報に基づく文書読解モデルトレーニング方法及び文書の視覚的質問応答方法、装置、電子機器及び記憶媒体に関する。
続きを表示(約 2,100 文字)【背景技術】
【0002】
関連技術において、プレーンテキストに基づく読解技術は、文書からテキスト情報を取得するために、文書テキストに対して事前に情報抽出を実行する必要がある。ただし、文書のソースによって、異なる抽出スキームを設計する必要があるため、非常に時間と労力を要する。
【発明の概要】
【0003】
本願は、クロスモーダル情報に基づく文書読解モデルトレーニング方法、装置、電子機器及び記憶媒体を提供する。
【0004】
本願の第1の態様によれば、クロスモーダル情報に基づく文書読解モデルトレーニング方法を提供し、質問サンプルとリッチテキスト文書サンプルとを取得するステップであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれるステップと、前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得するステップと、前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップと、を含む。
【0005】
本願の第2の態様によれば、文書の視覚的質問応答方法を提供し、受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得するステップと、前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得するステップと、前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップと、を含む。
【0006】
本願の第3の態様によれば、クロスモーダル情報に基づく文書読解モデルトレーニング装置を提供し、質問サンプルとリッチテキスト文書サンプルとを取得する取得モジュールであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれる取得モジュールと、前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得する第2の処理モジュールと、前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするトレーニングモジュールと、を備える。
【0007】
本願の第4の態様によれば、文書の視覚的質問応答装置を提供し、受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得する取得モジュールと、前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する第2の処理モジュールと、前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成する生成モジュールと、を備える。
【0008】
本願の第5の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0009】
本願の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様又は第2の態様に記載の方法を実行させる。
【0010】
本願の第7の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第1の態様又は第2の態様に記載の方法が実現される。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社リコー
筆記具
12日前
個人
電子証明サービス
1か月前
個人
販売システム
18日前
個人
情報処理装置
1か月前
東レ株式会社
画像検査方法
21日前
個人
作業管理システム
1か月前
個人
特許文献集合の分析方法
19日前
コクヨ株式会社
支持台
21日前
個人
勤怠管理システム
20日前
コクヨ株式会社
支持台
21日前
コクヨ株式会社
支持台
21日前
凸版印刷株式会社
ICカード
1か月前
個人
データ管理システム
1か月前
クツワ株式会社
スタンド
7日前
個人
情報処理装置及び決済方法
1か月前
個人
巡回セールスマン問題解法
20日前
個人
アイデアマーケットの構築
21日前
アズビル株式会社
防爆装置
21日前
個人
熱画像を用いる生体認証装置
19日前
個人
広告分析システム
6日前
株式会社システック
視点位置回復装置
1か月前
トヨタ自動車株式会社
サーバー
7日前
花王株式会社
化粧料開発支援方法
18日前
キヤノン株式会社
通信装置
21日前
株式会社齋藤創造研究所
制御装置
19日前
個人
人気順位を決定するシステム
1か月前
個人
保険契約管理システム
27日前
三菱電機株式会社
計算機システム
1か月前
シヤチハタ株式会社
商品受発注システム
21日前
個人
入力方法、および指標入力プログラム
20日前
サクサ株式会社
電源制御回路
21日前
中国電力株式会社
情報提供システム
1か月前
株式会社トワール
合否予測システム
19日前
アスエネ株式会社
電力取引システム
21日前
株式会社WAGOON
情報処理装置
19日前
個人
明細書作成支援装置及び文章抽出装置
20日前
続きを見る