TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024094499
公報種別公開特許公報(A)
公開日2024-07-10
出願番号2022211073
出願日2022-12-28
発明の名称対訳コーパス生成プログラム、対訳コーパス生成方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06F 40/237 20200101AFI20240703BHJP(計算;計数)
要約【課題】対訳コーパスの量を増大させる。
【解決手段】情報処理装置10は、第1の言語の固有表現13aを含む第1の文と、固有表現13aに対応する第2の言語の固有表現13bを含む第2の文とを対応付けた対訳コーパス13を取得する。情報処理装置10は、第1の言語の複数の固有表現を含む辞書データ15から、固有表現13aとの類似度が閾値を超える固有表現14aを抽出する。情報処理装置10は、第1の言語の固有表現と第2の言語の固有表現との対応を示す辞書データ16を用いて、固有表現14aに対応する固有表現14bを特定する。情報処理装置10は、第1の文に含まれる固有表現13aを固有表現14aに置換し、第2の文に含まれる固有表現13bを固有表現14bに置換することで、対訳コーパス14を生成する。
【選択図】図1
特許請求の範囲【請求項1】
第1の言語の第1の固有表現を含む第1の文と、前記第1の固有表現に対応する第2の言語の第2の固有表現を含む第2の文とを対応付けた第1の対訳コーパスを取得し、
前記第1の言語の複数の固有表現を含む第1の辞書データから、前記第1の固有表現との類似度が閾値を超える前記第1の言語の第3の固有表現を抽出し、
前記第1の言語の固有表現と前記第2の言語の固有表現との対応を示す第2の辞書データを用いて、前記第3の固有表現に対応する前記第2の言語の第4の固有表現を特定し、
前記第1の文に含まれる前記第1の固有表現を前記第3の固有表現に置換し、前記第2の文に含まれる前記第2の固有表現を前記第4の固有表現に置換することで、前記第1の対訳コーパスと異なる第2の対訳コーパスを生成する、
処理をコンピュータに実行させる対訳コーパス生成プログラム。
続きを表示(約 1,400 文字)【請求項2】
訓練済みの固有表現認識モデルを用いて、前記第1の固有表現の固有表現クラスを判定し、異なる固有表現を含む前記第1の辞書データの中から、前記固有表現クラスに基づいて前記第1の辞書データを選択する処理を、前記コンピュータに更に実行させる、
請求項1記載の対訳コーパス生成プログラム。
【請求項3】
前記第3の固有表現の抽出は、前記第1の固有表現を示す文字列と前記第3の固有表現を示す文字列との間で、文字列間類似度を前記類似度として算出する処理を含む、
請求項1記載の対訳コーパス生成プログラム。
【請求項4】
前記第2の辞書データは、概念を識別する識別子と対応付けて、前記概念を表す複数の言語の固有表現を記載した多言語用語辞書データである、
請求項1記載の対訳コーパス生成プログラム。
【請求項5】
前記第4の固有表現の特定は、前記第2の辞書データが前記第3の固有表現と対応付けて複数の第4の固有表現を含む場合、前記第3の固有表現に含まれる単語の分散表現ベクトルと前記複数の第4の固有表現に含まれる単語の分散表現ベクトルとを用いて、前記複数の第4の固有表現の中から前記第4の固有表現を選択する処理を含む、
請求項1記載の対訳コーパス生成プログラム。
【請求項6】
前記第1の言語は、機械翻訳モデルに入力される原文に用いられる言語であり、前記第2の言語は、前記機械翻訳モデルから出力される翻訳文に用いられる言語である、
請求項1から5の何れか一項に記載の対訳コーパス生成プログラム。
【請求項7】
第1の言語の第1の固有表現を含む第1の文と、前記第1の固有表現に対応する第2の言語の第2の固有表現を含む第2の文とを対応付けた第1の対訳コーパスを取得し、
前記第1の言語の複数の固有表現を含む第1の辞書データから、前記第1の固有表現との類似度が閾値を超える前記第1の言語の第3の固有表現を抽出し、
前記第1の言語の固有表現と前記第2の言語の固有表現との対応を示す第2の辞書データを用いて、前記第3の固有表現に対応する前記第2の言語の第4の固有表現を特定し、
前記第1の文に含まれる前記第1の固有表現を前記第3の固有表現に置換し、前記第2の文に含まれる前記第2の固有表現を前記第4の固有表現に置換することで、前記第1の対訳コーパスと異なる第2の対訳コーパスを生成する、
処理をコンピュータが実行する対訳コーパス生成方法。
【請求項8】
第1の言語の第1の固有表現を含む第1の文と、前記第1の固有表現に対応する第2の言語の第2の固有表現を含む第2の文とを対応付けた第1の対訳コーパスと、前記第1の言語の複数の固有表現を含む第1の辞書データと、前記第1の言語の固有表現と前記第2の言語の固有表現との対応を示す第2の辞書データとを記憶する記憶部と、
前記第1の辞書データから、前記第1の固有表現との類似度が閾値を超える前記第1の言語の第3の固有表現を抽出し、前記第2の辞書データを用いて、前記第3の固有表現に対応する前記第2の言語の第4の固有表現を特定し、前記第1の文に含まれる前記第1の固有表現を前記第3の固有表現に置換し、前記第2の文に含まれる前記第2の固有表現を前記第4の固有表現に置換することで、前記第1の対訳コーパスと異なる第2の対訳コーパスを生成する処理部と、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は対訳コーパス生成プログラム、対訳コーパス生成方法および情報処理装置に関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
コンピュータによる自然言語処理には、データベースとして対訳コーパスが使用されることがある。対訳コーパスは、ある自然言語で記載された文と、別の自然言語で記載された同等の意味をもつ文とを対応付けて記憶する。一例として、コンピュータは、事前に用意された対訳コーパスを訓練データとして用いて、一方の言語のテキストを他方の言語のテキストに変換するための機械翻訳モデルを訓練することがある。使用する対訳コーパスの量や品質は、機械翻訳などの自然言語処理タスクの品質に影響を与える。
【0003】
なお、ソース言語で記載されたソーステキストの中から固有表現を認識し、ソーステキストと固有表現情報とを入力データとして用いて、アテンション機構を含む機械翻訳モデルを訓練する機械学習方法が提案されている。
【先行技術文献】
【特許文献】
【0004】
特開2022-141191号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
対訳コーパスは、複数の言語を理解する者によって人手で作成されることが多い。このため、自然言語処理に使用する対訳コーパスを大量に収集することは容易でない。例えば、自然言語処理タスクが対象とする2つの言語のうちの少なくとも一方が、話者の少ない低リソース言語である場合、対訳コーパスが不足するおそれがある。また、例えば、自然言語処理タスクが特定の専門分野を対象とする場合、その専門分野に関する対訳コーパスを少量しか収集できないおそれがある。そこで、1つの側面では、本発明は、対訳コーパスの量を増大させることを目的とする。
【課題を解決するための手段】
【0006】
1つの態様では、以下の処理をコンピュータに実行させる対訳コーパス生成プログラムが提供される。第1の言語の第1の固有表現を含む第1の文と、第1の固有表現に対応する第2の言語の第2の固有表現を含む第2の文とを対応付けた第1の対訳コーパスを取得する。第1の言語の複数の固有表現を含む第1の辞書データから、第1の固有表現との類似度が閾値を超える第1の言語の第3の固有表現を抽出する。第1の言語の固有表現と第2の言語の固有表現との対応を示す第2の辞書データを用いて、第3の固有表現に対応する第2の言語の第4の固有表現を特定する。第1の文に含まれる第1の固有表現を第3の固有表現に置換し、第2の文に含まれる第2の固有表現を第4の固有表現に置換することで、第1の対訳コーパスと異なる第2の対訳コーパスを生成する。
【0007】
また、1つの態様では、コンピュータが実行する対訳コーパス生成方法が提供される。また、1つの態様では、記憶部と処理部とを有する情報処理装置が提供される。
【発明の効果】
【0008】
1つの側面では、対訳コーパスの量が増大する。
【図面の簡単な説明】
【0009】
第1の実施の形態の情報処理装置を説明するための図である。
第2の実施の形態の情報処理装置のハードウェア例を示す図である。
対訳コーパスの第1文からの固有表現の認識例を示す図である。
固有表現認識モデルの構造例を示す図である。
対訳コーパスの第2文からの固有表現の特定例を示す図である。
多言語語句整列に用いられる類似度行列の例を示す図である。
文字列が類似する他の固有表現の抽出例を示す図である。
他の固有表現の訳語の抽出例を示す図である。
拡張対訳コーパスの例を示す図である。
機械翻訳モデルの構造例を示す図である。
情報処理装置の機能例を示すブロック図である。
コーパス拡張の手順例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
情報検索装置
28日前
個人
ノートPC寝台
1か月前
個人
ドットパターン
27日前
個人
電子文書の閲覧用電子機器
1か月前
個人
家計支援システム2
9日前
個人
モノ造りプロトコルレイヤー
19日前
コクヨ株式会社
収納ケース
7日前
個人
サービス提供システム
1か月前
ニデック株式会社
冷却装置
1か月前
キヤノン電子株式会社
携帯情報端末
29日前
中国電力株式会社
販売支援方法
今日
個人
施術スタッフ育成システム
1か月前
個人
施解錠制御システム
5日前
個人
生活困窮者相談業務支援システム
2日前
株式会社アジラ
行動推定システム
7日前
大和製衡株式会社
組合せ計数装置
1か月前
有限会社カツミ工業
管理装置
1か月前
株式会社ゼロワン
ケア支援システム
29日前
ブラザー工業株式会社
印刷制御装置
1か月前
個人
人流データ取得システム
6日前
トヨタ自動車株式会社
画像処理装置
6日前
トヨタ自動車株式会社
画像処理装置
1日前
学校法人修道学園
農地集約システム
1か月前
株式会社広島銀行
本人確認システム
29日前
トヨタ自動車株式会社
図面表示装置
12日前
株式会社SUBARU
操作制御装置
1か月前
株式会社COLORS
表示制御装置
15日前
株式会社ゼロワン
ケア支援システム
29日前
株式会社SUBARU
画像処理装置
1か月前
旭精工株式会社
管理装置および管理システム
1か月前
三菱電機株式会社
情報検索装置
20日前
geeva株式会社
ギフト贈呈システム
14日前
株式会社ベルク
製品管理システム
2日前
株式会社デンソー
表示装置
1か月前
geeva株式会社
ギフト贈呈システム
14日前
トヨタ車体株式会社
管理システム
28日前
続きを見る