TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025042128
公報種別公開特許公報(A)
公開日2025-03-27
出願番号2023148961
出願日2023-09-14
発明の名称言語処理プログラム、言語処理装置、及び言語処理方法
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 40/44 20200101AFI20250319BHJP(計算;計数)
要約【課題】異なる言語で記述された複数のテキストを精度良く対応付ける。
【解決手段】コンピュータは、第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出する。コンピュータは、第1固有表現と第2固有表現との間の類似度と、第1固有表現と第2固有表現との間のアライメント確率とに基づいて、第1テキストと第2テキストとを対応付ける。コンピュータは、第1テキストと第2テキストとを対応付けた結果を示す対応付け情報を出力する。
【選択図】図2
特許請求の範囲【請求項1】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出し、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付け、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータに実行させるための言語処理プログラム。
続きを表示(約 1,100 文字)【請求項2】
前記第2固有表現を前記第2テキストから抽出する処理は、
前記第2テキストに含まれる複数の単語のうち、前記第1固有表現と類似する1つ又は複数の単語を、前記第2固有表現として抽出する処理と、
前記第1固有表現に含まれる単語と前記第2固有表現に含まれる単語との間のアライメント確率を求める処理と、
を含み、
前記第1テキストと前記第2テキストとを対応付ける処理は、前記第1固有表現に含まれる単語と前記第2固有表現に含まれる単語との間のアライメント確率の統計値を、前記第1固有表現と前記第2固有表現との間のアライメント確率として計算する処理を含むことを特徴とする請求項1記載の言語処理プログラム。
【請求項3】
前記第1テキストと前記第2テキストとを対応付ける処理は、
前記類似度と前記アライメント確率とに基づいて、前記第1テキストと前記第2テキストとの間の対応関係を評価する評価指標を計算する処理と、
前記評価指標と閾値とを比較した結果に基づいて、前記第1テキストと前記第2テキストとを対応付ける処理と、
を含むことを特徴とする請求項1記載の言語処理プログラム。
【請求項4】
前記第1言語又は前記第2言語のうち少なくとも一方は、低リソース言語であることを特徴とする請求項1乃至3の何れか1項に記載の言語処理プログラム。
【請求項5】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出する抽出部と、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付ける対応付け部と、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する出力部と、
を備えることを特徴とする言語処理装置。
【請求項6】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出し、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付け、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータが実行することを特徴とする言語処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、言語処理技術に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
対訳コーパスは、翻訳関係にある異なる言語の文と文が対訳の形式で対応付けられたコーパスである。一方、コンパラブルコーパスは、同じトピックに関する異なる言語の文書と文書が対応付けられたコーパスである。
【0003】
コンパラブルコーパスの文書対は、対訳コーパスのようにきっちりとした翻訳関係を有していない。多言語で記述されるWikipedia(登録商標)の記事は、コンパラブルコーパスの一例である。
【0004】
対訳コーパスは、機械翻訳で利用される重要なデータである。しかし、対訳コーパスを構築するためには、人間による翻訳及びチェックが行われることが多く、構築のための作業負荷が大きい。このため、対訳コーパスは、なかなか入手しにくい希少なリソースである。また、科学技術分野のような専門領域の対訳コーパスを構築するためには、専門知識が要求されるため、専門領域の対訳コーパスはさらに希少となる。
【0005】
また、現存する対訳コーパスのリソースについては、言語間の格差が大きい。英語、フランス語等の主要なヨーロッパ言語の対訳コーパスは比較的多いが、低リソース言語の対訳コーパスは少ないか又は存在しない。低リソース言語は、バスク語、日本語、アラビア語、タミール語、タイ語、インドネシア語等のデータの少ない言語である。
【0006】
対訳コーパスに関して、低リソース言語の機械翻訳にコンパラブルコーパスを利用する技術が知られている(例えば、非特許文献1及び非特許文献2を参照)。双方向再帰型ニューラルネットワークを用いて対訳文を抽出する技術も知られている(例えば、非特許文献3を参照)。文書単位で対応付いた非対訳コーパスの各文書又は各単語に対して、言語を横断したトピックを割り当てるトピック推定装置も知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0007】
特開2017-151678号公報
【非特許文献】
【0008】
A. Irvine et al., “Combining Bilingual and Comparable Corpora for Low Resource Machine Translation”, Proceedings of the Eighth Workshop on Statistical Machine Translation, pages 262-270, 2013.
S. H. Ramesh et al., “Neural Machine Translation for Low Resource Languages using Bilingual Lexicon Induced from Comparable Corpora”, Proceedings of NAACL-HLT 2018: Student Research Workshop, pages 112-119, 2018.
F. Gregoire et al., “Extracting Parallel Sentences with Bidirectional Recurrent Neural Networks to Improve Machine Translation”, Proceedings of the 27th International Conference on Computational Linguistics, pages 1442-1453, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0009】
コンパラブルコーパスから対訳コーパスを生成するために、文と文の意味的類似度に基づいて、翻訳関係にある文対を抽出する場合、抽出された文対が必ずしも同じ意味内容を表しているとは限らない。
【0010】
なお、かかる問題は、コンパラブルコーパスから対訳コーパスを生成する場合に限らず、異なる言語で記述された様々なテキストを比較する場合において生ずるものである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
電源装置
17日前
富士通株式会社
車線区分装置及び方法
3日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
3日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
3日前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
18日前
富士通株式会社
方策学習装置、方策学習方法及び通信システム
18日前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
3日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
4日前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
4日前
富士通株式会社
業務管理プログラム、業務管理方法、および情報処理装置
10日前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
19日前
富士通株式会社
量子計算支援プログラム、量子計算支援方法、および情報処理装置
11日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
5日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
20日前
富士通株式会社
リソース割当て装置、リソース割当て方法、およびリソース割当てプログラム
17日前
富士通株式会社
基底エネルギー算出プログラム、基底エネルギー算出装置、および基底エネルギー算出方法
12日前
富士通株式会社
サイドリンクリソースの再選択方法及び装置
4日前
富士通株式会社
基地局、移動局、通信システム、及び通信方法
16日前
富士通株式会社
ワイヤーハーネス製造図設計支援プログラム、ワイヤーハーネス製造図設計支援方法、および情報処理装置
3日前
個人
非正規コート
13日前
個人
人物再現システム
10日前
個人
AI飲食最適化プラグイン
3日前
有限会社ノア
データ読取装置
11日前
個人
電話管理システム及び管理方法
4日前
株式会社ザメディア
出席管理システム
18日前
個人
広告提供システムおよびその方法
13日前
個人
日誌作成支援システム
10日前
個人
ポイント還元付き配送システム
11日前
ミサワホーム株式会社
情報処理装置
17日前
株式会社タクテック
商品取出集品システム
17日前
トヨタ自動車株式会社
作業判定方法
19日前
トヨタ自動車株式会社
工程計画装置
18日前
オベック実業株式会社
接続構造
10日前
株式会社村田製作所
動き検知装置
17日前
トヨタ自動車株式会社
情報処理システム
19日前
続きを見る