TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025002275
公報種別
公開特許公報(A)
公開日
2025-01-09
出願番号
2023102338
出願日
2023-06-22
発明の名称
情報処理装置、情報処理方法、およびプログラム
出願人
キヤノン株式会社
代理人
弁理士法人谷・阿部特許事務所
主分類
G06F
40/117 20200101AFI20241226BHJP(計算;計数)
要約
【課題】複数言語に対応する固有表現抽出モデルの学習を、推論精度を低下させずに低コストで可能にすること。
【解決手段】文書解析部は、文書データ取得部により取得された入力文書データから各テキストブロックに対応する入力文字列、および入力文字列に対応する教師ラベルの管理情報を取得する。機械翻訳部は、入力文書データに含まれる複数の入力文字列に対して機械翻訳処理を行い、推論対象言語に翻訳した翻訳文字列を得る。教師ラベル写像部214は、入力文書データと関連付けて記憶されている教師ラベルの管理情報に基づき、教師ラベルを推論対象言語におけるトークンの並び順に応じて翻訳文字列に付与し直した教師ラベルの管理情報を生成する。
【選択図】 図4
特許請求の範囲
【請求項1】
教師ラベル付与済み入力文書データから教師ラベルに対応する第1の文字列を抽出する抽出手段と、
前記抽出手段により抽出された第1の文字列を前記入力文書データの主要言語とは異なる対象言語に翻訳した第2の文字列を取得する取得手段と、
前記取得手段により取得された第2の文字列に対して、当該第2の文字列に対応する前記第1の文字列に付与された教師ラベルに対応する教師ラベルを付与する付与手段と、
を備え、
前記教師ラベルは、前記第1の文字列及び前記第2の文字列の所定の構成単位であるトークン毎に付与されるタグを含み、
前記付与手段は、前記第2の文字列が複数のトークンを含み、前記第1の文字列と前記第2の文字列とで対応するトークンの並び順が異なる場合、前記第2の文字列が含むトークンの少なくとも1つに対して、当該トークンに対応する前記第1の文字列のトークンに付与された前記タグとは異なるタグを付与する、
ことを特徴とする情報処理装置。
続きを表示(約 1,400 文字)
【請求項2】
前記第2の文字列のうち、所定の分類に属する固有表現を当該分類に応じて予め定めた前記対象言語の固有表現に置換する固有表現置換手段、
をさらに備えたことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第2の文字列の教師データとしての信頼度を定量的に評価するためのスコアを算出する算出手段と、
前記第2の文字列のうち前記スコアが所定の閾値以上である第2の文字列を、前記対象言語の固有表現を抽出する学習モデルを学習するための教師データとする改善手段と、
をさらに備えたことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記改善手段は、前記入力文書データの特徴語を取得し、当該特徴語を含むトークン列と類似する前記第2の文字列に含まれるトークン列を、前記特徴語を含むトークン列に置換する、
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記特徴語は、所定のトークン列である、
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記特徴語は、前記入力文書データと前記入力文書データと異なる一般文書データとに基づき算出される、前記入力文書データに含まれる各トークン列の重要度を表す統計量が、所定の閾値以上であるトークン列である、
ことを特徴とする請求項4に記載の情報処理装置。
【請求項7】
前記統計量は、TF-IDF値である、
ことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記算出手段は、前記第2の文字列における前記特徴語の出現頻度、前記第2の文字列における前記入力文書データに含まれる前記特徴語を含むトークン列の割合、及び前記入力文書データが所定の文書種別である確率を示すスコアの少なくとも1つを前記スコアに含む、
ことを特徴とする請求項4に記載の情報処理装置。
【請求項9】
前記第2の文字列を教師データとして固有表現の抽出するための学習モデルを学習する学習手段、
をさらに備えたことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。
【請求項10】
教師ラベル付与済み入力文書データから教師ラベルに対応する第1の文字列を抽出するステップと、
前記抽出するステップにより抽出された第1の文字列を前記入力文書データの主要言語とは異なる対象言語に翻訳した第2の文字列を取得するステップと、
前記取得するステップにより取得された第2の文字列に対して、当該第2の文字列に対応する前記第1の文字列に付与された教師ラベルに対応する教師ラベルを付与する付与手段と、
を備え、
前記教師ラベルは、前記第1の文字列及び前記第2の文字列の所定の構成単位であるトークン毎に付与されるタグを含み、
前記付与するステップは、前記第2の文字列が複数のトークンを含み、前記第1の文字列と前記第2の文字列とで対応するトークンの並び順が異なる場合、前記第2の文字列が含むトークンの少なくとも1つに対して、当該トークンに対応する前記第1の文字列のトークンに付与された前記タグとは異なるタグを付与する、
ことを特徴とする情報処理方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、文書データから固有表現を抽出するための情報処理技術に関する。
続きを表示(約 1,900 文字)
【背景技術】
【0002】
近年、文書データから会社名や人名といった固有名詞や日付、時間表現などの固有表現の抽出には、機械学習モデルを用いた手法が採用されている。機械学習モデルとしては、CRF(Conditional Random Field)やBERT(Bidirectional Encoder Representations from Transformers)などがある。これら機械学習モデルを用いた手法において、複数言語に対応した固有表現抽出の推論モデルを生成する場合、一般的に大きく2つの方法に分けられる。例えば、複数言語を日本語と英語とすると、1つ目の方法は、日本語の推論対象のドメイン文書の収集と教師ラベルの付与を行って教師データを生成し、生成した教師データを用いて機械学習モデルの学習を行うことで日本語の推論モデルを生成する方法である。さらに英語でも日本語同様の手順で英語用の推論モデルを生成する。2つ目の方法は、日本語と英語の両方の辞書を持った多言語に対応した機械学習モデルを用いて、生成した教師データを用いて機械学習モデルの学習を行うことで多言語に対応した推論モデルを生成する方法である。どちらの場合も、教師データを生成するためには各言語でのドメイン文書データの収集と教師ラベルの付与が必要となり、処理コストがかかる。
【0003】
特許文献1では、1つの言語(ソース言語)で学習した固有表現抽出モデルの重みパラメータから他の言語(ターゲット言語)に最適な重みパラメータを求めることで、低コストでターゲット言語の固有表現抽出モデルを生成している。
【先行技術文献】
【特許文献】
【0004】
国際公開第17/130434号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の技術における言語間での固有表現抽出モデルの重みパラメータの転移だけでは、ソース言語には無い、ターゲット言語に固有の構造を獲得することができず、ターゲット言語での推論はソース言語での推論に対して精度が低下する。
【0006】
そこで本発明は、複数言語に対応する固有表現抽出モデルの学習を、推論精度を低下させずに低コストで可能にすることを目的とする。
【課題を解決するための手段】
【0007】
本発明は、情報処理装置であって、教師ラベル付与済み入力文書データから教師ラベルに対応する第1の文字列を抽出する抽出手段と、前記抽出手段により抽出された第1の文字列を前記入力文書データの主要言語とは異なる対象言語に翻訳した第2の文字列を取得する取得手段と、前記取得手段により取得された第2の文字列に対して、当該第2の文字列に対応する前記第1の文字列に付与された教師ラベルに対応する教師ラベルを付与する付与手段と、を備え、前記教師ラベルは、前記第1の文字列及び前記第2の文字列の所定の構成単位であるトークン毎に付与されるタグを含み、前記付与手段は、前記第2の文字列が複数のトークンを含み、前記第1の文字列と前記第2の文字列とで対応するトークンの並び順が異なる場合、前記第2の文字列が含むトークンの少なくとも1つに対して、当該トークンに対応する前記第1の文字列のトークンに付与された前記タグとは異なるタグを付与する、ことを特徴とする。
【発明の効果】
【0008】
本発明によれば、複数言語に対応する固有表現抽出モデルの学習を、推論精度を低下させずに低コストで可能にすることができる。
【図面の簡単な説明】
【0009】
一実施形態に係るハードウェア構成図
一実施形態に係るシステム構成図
一実施形態に係る翻訳テキストに対する入力文書データに含まれる教師ラベルの対応付けの例を示す図
一実施形態に係る教師ラベルの付与済みドメイン文書データから教師ラベル付与済み翻訳文書データを生成する処理を説明するためのフロー図
一実施形態に係る翻訳文書データにおける固有表現の置換を説明するための図
一実施形態に係る教師データ改善の処理を説明するためのフロー図
一実施形態に係る教師データ改善の処理を説明するためのフロー図
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面に基づいて説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン株式会社
トナー
1か月前
キヤノン株式会社
トナー
1か月前
キヤノン株式会社
乾燥装置
1か月前
キヤノン株式会社
定着装置
17日前
キヤノン株式会社
測距装置
1か月前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
光学機器
1か月前
キヤノン株式会社
定着装置
1か月前
キヤノン株式会社
記録装置
22日前
キヤノン株式会社
撮像装置
22日前
キヤノン株式会社
検出装置
22日前
キヤノン株式会社
記録装置
15日前
キヤノン株式会社
送液装置
1か月前
キヤノン株式会社
乾燥装置
23日前
キヤノン株式会社
印刷装置
29日前
キヤノン株式会社
通信装置
29日前
キヤノン株式会社
記録装置
2日前
キヤノン株式会社
現像装置
29日前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
記録装置
2日前
キヤノン株式会社
測距装置
29日前
キヤノン株式会社
乾燥装置
2日前
キヤノン株式会社
電子機器
29日前
キヤノン株式会社
防水構造体
22日前
キヤノン株式会社
露光ヘッド
15日前
キヤノン株式会社
画像形成装置
2日前
キヤノン株式会社
画像形成装置
1か月前
キヤノン株式会社
画像形成装置
1か月前
キヤノン株式会社
冊子作製装置
1か月前
キヤノン株式会社
画像形成装置
1日前
キヤノン株式会社
画像形成装置
17日前
キヤノン株式会社
画像形成装置
1か月前
キヤノン株式会社
分析デバイス
16日前
キヤノン株式会社
画像形成装置
15日前
キヤノン株式会社
記録素子基板
15日前
キヤノン株式会社
分析デバイス
15日前
続きを見る
他の特許を見る