特許ウォッチ

公開番号2025042128
公報種別公開特許公報(A)
公開日2025-03-27
出願番号2023148961
出願日2023-09-14
発明の名称言語処理プログラム、言語処理装置、及び言語処理方法
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 40/44 20200101AFI20250319BHJP(計算;計数)
要約【課題】異なる言語で記述された複数のテキストを精度良く対応付ける。
【解決手段】コンピュータは、第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出する。コンピュータは、第1固有表現と第2固有表現との間の類似度と、第1固有表現と第2固有表現との間のアライメント確率とに基づいて、第1テキストと第2テキストとを対応付ける。コンピュータは、第1テキストと第2テキストとを対応付けた結果を示す対応付け情報を出力する。
【選択図】図2
特許請求の範囲【請求項１】
第１言語で記述された第１テキストに含まれる第１固有表現に対応する第２固有表現を、第２言語で記述された第２テキストから抽出し、
前記第１固有表現と前記第２固有表現との間の類似度と、前記第１固有表現と前記第２固有表現との間のアライメント確率とに基づいて、前記第１テキストと前記第２テキストとを対応付け、
前記第１テキストと前記第２テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータに実行させるための言語処理プログラム。
続きを表示（約 1,100 文字）【請求項２】
前記第２固有表現を前記第２テキストから抽出する処理は、
前記第２テキストに含まれる複数の単語のうち、前記第１固有表現と類似する１つ又は複数の単語を、前記第２固有表現として抽出する処理と、
前記第１固有表現に含まれる単語と前記第２固有表現に含まれる単語との間のアライメント確率を求める処理と、
を含み、
前記第１テキストと前記第２テキストとを対応付ける処理は、前記第１固有表現に含まれる単語と前記第２固有表現に含まれる単語との間のアライメント確率の統計値を、前記第１固有表現と前記第２固有表現との間のアライメント確率として計算する処理を含むことを特徴とする請求項１記載の言語処理プログラム。
【請求項３】
前記第１テキストと前記第２テキストとを対応付ける処理は、
前記類似度と前記アライメント確率とに基づいて、前記第１テキストと前記第２テキストとの間の対応関係を評価する評価指標を計算する処理と、
前記評価指標と閾値とを比較した結果に基づいて、前記第１テキストと前記第２テキストとを対応付ける処理と、
を含むことを特徴とする請求項１記載の言語処理プログラム。
【請求項４】
前記第１言語又は前記第２言語のうち少なくとも一方は、低リソース言語であることを特徴とする請求項１乃至３の何れか１項に記載の言語処理プログラム。
【請求項５】
第１言語で記述された第１テキストに含まれる第１固有表現に対応する第２固有表現を、第２言語で記述された第２テキストから抽出する抽出部と、
前記第１固有表現と前記第２固有表現との間の類似度と、前記第１固有表現と前記第２固有表現との間のアライメント確率とに基づいて、前記第１テキストと前記第２テキストとを対応付ける対応付け部と、
前記第１テキストと前記第２テキストとを対応付けた結果を示す対応付け情報を出力する出力部と、
を備えることを特徴とする言語処理装置。
【請求項６】
第１言語で記述された第１テキストに含まれる第１固有表現に対応する第２固有表現を、第２言語で記述された第２テキストから抽出し、
前記第１固有表現と前記第２固有表現との間の類似度と、前記第１固有表現と前記第２固有表現との間のアライメント確率とに基づいて、前記第１テキストと前記第２テキストとを対応付け、
前記第１テキストと前記第２テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータが実行することを特徴とする言語処理方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、言語処理技術に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
対訳コーパスは、翻訳関係にある異なる言語の文と文が対訳の形式で対応付けられたコーパスである。一方、コンパラブルコーパスは、同じトピックに関する異なる言語の文書と文書が対応付けられたコーパスである。
【０００３】
コンパラブルコーパスの文書対は、対訳コーパスのようにきっちりとした翻訳関係を有していない。多言語で記述されるWikipedia（登録商標）の記事は、コンパラブルコーパスの一例である。
【０００４】
対訳コーパスは、機械翻訳で利用される重要なデータである。しかし、対訳コーパスを構築するためには、人間による翻訳及びチェックが行われることが多く、構築のための作業負荷が大きい。このため、対訳コーパスは、なかなか入手しにくい希少なリソースである。また、科学技術分野のような専門領域の対訳コーパスを構築するためには、専門知識が要求されるため、専門領域の対訳コーパスはさらに希少となる。
【０００５】
また、現存する対訳コーパスのリソースについては、言語間の格差が大きい。英語、フランス語等の主要なヨーロッパ言語の対訳コーパスは比較的多いが、低リソース言語の対訳コーパスは少ないか又は存在しない。低リソース言語は、バスク語、日本語、アラビア語、タミール語、タイ語、インドネシア語等のデータの少ない言語である。
【０００６】
対訳コーパスに関して、低リソース言語の機械翻訳にコンパラブルコーパスを利用する技術が知られている（例えば、非特許文献１及び非特許文献２を参照）。双方向再帰型ニューラルネットワークを用いて対訳文を抽出する技術も知られている（例えば、非特許文献３を参照）。文書単位で対応付いた非対訳コーパスの各文書又は各単語に対して、言語を横断したトピックを割り当てるトピック推定装置も知られている（例えば、特許文献１を参照）。
【先行技術文献】
【特許文献】
【０００７】
特開２０１７－１５１６７８号公報
【非特許文献】
【０００８】
A. Irvine et al., “Combining Bilingual and Comparable Corpora for Low Resource Machine Translation”, Proceedings of the Eighth Workshop on Statistical Machine Translation, pages 262-270, 2013.
S. H. Ramesh et al., “Neural Machine Translation for Low Resource Languages using Bilingual Lexicon Induced from Comparable Corpora”, Proceedings of NAACL-HLT 2018: Student Research Workshop, pages 112-119, 2018.
F. Gregoire et al., “Extracting Parallel Sentences with Bidirectional Recurrent Neural Networks to Improve Machine Translation”, Proceedings of the 27th International Conference on Computational Linguistics, pages 1442-1453, 2018.
【発明の概要】
【発明が解決しようとする課題】
【０００９】
コンパラブルコーパスから対訳コーパスを生成するために、文と文の意味的類似度に基づいて、翻訳関係にある文対を抽出する場合、抽出された文対が必ずしも同じ意味内容を表しているとは限らない。
【００１０】
なお、かかる問題は、コンパラブルコーパスから対訳コーパスを生成する場合に限らず、異なる言語で記述された様々なテキストを比較する場合において生ずるものである。
（【００１１】以降は省略されています）

関連特許