TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025042128
公報種別公開特許公報(A)
公開日2025-03-27
出願番号2023148961
出願日2023-09-14
発明の名称言語処理プログラム、言語処理装置、及び言語処理方法
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 40/44 20200101AFI20250319BHJP(計算;計数)
要約【課題】異なる言語で記述された複数のテキストを精度良く対応付ける。
【解決手段】コンピュータは、第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出する。コンピュータは、第1固有表現と第2固有表現との間の類似度と、第1固有表現と第2固有表現との間のアライメント確率とに基づいて、第1テキストと第2テキストとを対応付ける。コンピュータは、第1テキストと第2テキストとを対応付けた結果を示す対応付け情報を出力する。
【選択図】図2
特許請求の範囲【請求項1】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出し、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付け、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータに実行させるための言語処理プログラム。
続きを表示(約 1,100 文字)【請求項2】
前記第2固有表現を前記第2テキストから抽出する処理は、
前記第2テキストに含まれる複数の単語のうち、前記第1固有表現と類似する1つ又は複数の単語を、前記第2固有表現として抽出する処理と、
前記第1固有表現に含まれる単語と前記第2固有表現に含まれる単語との間のアライメント確率を求める処理と、
を含み、
前記第1テキストと前記第2テキストとを対応付ける処理は、前記第1固有表現に含まれる単語と前記第2固有表現に含まれる単語との間のアライメント確率の統計値を、前記第1固有表現と前記第2固有表現との間のアライメント確率として計算する処理を含むことを特徴とする請求項1記載の言語処理プログラム。
【請求項3】
前記第1テキストと前記第2テキストとを対応付ける処理は、
前記類似度と前記アライメント確率とに基づいて、前記第1テキストと前記第2テキストとの間の対応関係を評価する評価指標を計算する処理と、
前記評価指標と閾値とを比較した結果に基づいて、前記第1テキストと前記第2テキストとを対応付ける処理と、
を含むことを特徴とする請求項1記載の言語処理プログラム。
【請求項4】
前記第1言語又は前記第2言語のうち少なくとも一方は、低リソース言語であることを特徴とする請求項1乃至3の何れか1項に記載の言語処理プログラム。
【請求項5】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出する抽出部と、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付ける対応付け部と、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する出力部と、
を備えることを特徴とする言語処理装置。
【請求項6】
第1言語で記述された第1テキストに含まれる第1固有表現に対応する第2固有表現を、第2言語で記述された第2テキストから抽出し、
前記第1固有表現と前記第2固有表現との間の類似度と、前記第1固有表現と前記第2固有表現との間のアライメント確率とに基づいて、前記第1テキストと前記第2テキストとを対応付け、
前記第1テキストと前記第2テキストとを対応付けた結果を示す対応付け情報を出力する、
処理をコンピュータが実行することを特徴とする言語処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、言語処理技術に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
対訳コーパスは、翻訳関係にある異なる言語の文と文が対訳の形式で対応付けられたコーパスである。一方、コンパラブルコーパスは、同じトピックに関する異なる言語の文書と文書が対応付けられたコーパスである。
【0003】
コンパラブルコーパスの文書対は、対訳コーパスのようにきっちりとした翻訳関係を有していない。多言語で記述されるWikipedia(登録商標)の記事は、コンパラブルコーパスの一例である。
【0004】
対訳コーパスは、機械翻訳で利用される重要なデータである。しかし、対訳コーパスを構築するためには、人間による翻訳及びチェックが行われることが多く、構築のための作業負荷が大きい。このため、対訳コーパスは、なかなか入手しにくい希少なリソースである。また、科学技術分野のような専門領域の対訳コーパスを構築するためには、専門知識が要求されるため、専門領域の対訳コーパスはさらに希少となる。
【0005】
また、現存する対訳コーパスのリソースについては、言語間の格差が大きい。英語、フランス語等の主要なヨーロッパ言語の対訳コーパスは比較的多いが、低リソース言語の対訳コーパスは少ないか又は存在しない。低リソース言語は、バスク語、日本語、アラビア語、タミール語、タイ語、インドネシア語等のデータの少ない言語である。
【0006】
対訳コーパスに関して、低リソース言語の機械翻訳にコンパラブルコーパスを利用する技術が知られている(例えば、非特許文献1及び非特許文献2を参照)。双方向再帰型ニューラルネットワークを用いて対訳文を抽出する技術も知られている(例えば、非特許文献3を参照)。文書単位で対応付いた非対訳コーパスの各文書又は各単語に対して、言語を横断したトピックを割り当てるトピック推定装置も知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0007】
特開2017-151678号公報
【非特許文献】
【0008】
A. Irvine et al., “Combining Bilingual and Comparable Corpora for Low Resource Machine Translation”, Proceedings of the Eighth Workshop on Statistical Machine Translation, pages 262-270, 2013.
S. H. Ramesh et al., “Neural Machine Translation for Low Resource Languages using Bilingual Lexicon Induced from Comparable Corpora”, Proceedings of NAACL-HLT 2018: Student Research Workshop, pages 112-119, 2018.
F. Gregoire et al., “Extracting Parallel Sentences with Bidirectional Recurrent Neural Networks to Improve Machine Translation”, Proceedings of the 27th International Conference on Computational Linguistics, pages 1442-1453, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0009】
コンパラブルコーパスから対訳コーパスを生成するために、文と文の意味的類似度に基づいて、翻訳関係にある文対を抽出する場合、抽出された文対が必ずしも同じ意味内容を表しているとは限らない。
【0010】
なお、かかる問題は、コンパラブルコーパスから対訳コーパスを生成する場合に限らず、異なる言語で記述された様々なテキストを比較する場合において生ずるものである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
プロセッサ
10日前
富士通株式会社
画像生成方法
2日前
富士通株式会社
量子デバイス
10日前
富士通株式会社
アンテナ装置
24日前
富士通株式会社
冷却モジュール
4日前
富士通株式会社
無線アクセス・ネットワーク調整
6日前
富士通株式会社
評価プログラム、方法、及び装置
2日前
富士通株式会社
情報処理プログラム、方法、及び装置
16日前
富士通株式会社
病変検出方法および病変検出プログラム
11日前
富士通株式会社
病変検出方法および病変検出プログラム
11日前
富士通株式会社
人体のキーポイントの検出方法及び装置
9日前
富士通株式会社
制御プログラム、システムおよび制御方法
13日前
富士通株式会社
タスク特有のグラフセット解析及び視覚化
10日前
富士通株式会社
リソースサーバおよびサービス提供システム
18日前
富士通株式会社
演算処理装置および演算処理装置の動作方法
9日前
富士通株式会社
車両の管理施設情報提供方法及びプログラム
12日前
富士通株式会社
学習プログラム、情報処理装置および学習方法
23日前
富士通株式会社
推定方法、推定プログラム、及び通信処理装置
19日前
富士通株式会社
修正候補特定方法及び修正候補特定プログラム
12日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
2日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
4日前
富士通株式会社
ハイブリッド古典‐量子教師なしマルチクラス分類
9日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
3日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
3日前
富士通株式会社
言語処理プログラム、言語処理装置、及び言語処理方法
10日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
12日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
9日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
9日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
2日前
富士通株式会社
半導体装置、無線通信装置、及び、半導体装置の製造方法
9日前
富士通株式会社
情報処理プログラム、情報処理装置、および情報処理方法
19日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
情報処理プログラム、情報処理装置および情報処理システム
11日前
富士通株式会社
ニューロモルフィックコンピューティング回路、及び、制御方法
5日前
富士通株式会社
量子デバイスを用いた高次元データストリームにおける変化検出
9日前
富士通株式会社
安定構造探索システム、安定構造探索方法及び安定構造探索プログラム
13日前
続きを見る