TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025061382
公報種別
公開特許公報(A)
公開日
2025-04-10
出願番号
2025006004,2022556765
出願日
2025-01-16,2020-10-14
発明の名称
単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム
出願人
日本電信電話株式会社
代理人
弁理士法人ITOH
主分類
G06F
40/44 20200101AFI20250403BHJP(計算;計数)
要約
【課題】従来技術よりも少量の教師データから、従来技術よりも高精度な教師あり単語対応を実現する。
【解決手段】単語対応装置において、第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成部と、言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測部とを備える。
【選択図】図1
特許請求の範囲
【請求項1】
第一言語文と第二言語文とを入力とし、前記第二言語文に含まれ、前記第一言語文に含まれる第一単語に対応する第一スパンを、スパン予測モデルを用いて予測するスパン予測部を備え、
前記スパン予測モデルは、第一言語文に含まれる第一単語と、第二言語文と、を少なくとも入力とし、入力された第二言語文に含まれ、第一単語に対応するスパンを正解データとして用いた学習を行うことにより得られたモデルである
単語対応装置。
続きを表示(約 1,200 文字)
【請求項2】
第一言語文と第二言語文とを入力とし、前記第二言語文に含まれ、前記第一言語文に含まれる第一単語に対応する第一スパンを、スパン予測モデルを用いて予測するスパン予測部を備え、
前記スパン予測モデルは、教師あり学習を行うことにより得られたモデルである
単語対応装置。
【請求項3】
前記スパン予測部は更に、前記スパン予測モデルを用いて、第一言語文に含まれ、前記第二言語文に含まれる第二単語に対応する第二スパンを予測する
請求項1に記載の単語対応装置。
【請求項4】
前記第一スパンの予測結果と、前記第二スパンの予測結果とに基づいて、第一言語文に含まれる単語と第二言語文に含まれる単語との対応付けを行う単語対応生成部
を更に備える請求項3に記載の単語対応装置。
【請求項5】
前記第一単語と文脈情報とが所定の記号により区別される
請求項1に記載の単語対応装置。
【請求項6】
単語対応情報と、第一言語文と、第二言語文と、を入力として、前記第一言語文に含まれる単語に対応する、前記第二言語文に含まれるスパンである正解を生成する問題回答生成部と、
前記正解を有する学習データを用いて、スパン予測モデルの学習を行う学習部と
を備える学習装置。
【請求項7】
前記第一言語文における単語と文脈情報とが所定の記号により区別される
請求項6に記載の学習装置。
【請求項8】
単語対応装置が実行する単語対応方法であって、
第一言語文と第二言語文とを入力とし、前記第二言語文に含まれ、前記第一言語文に含まれる第一単語に対応する第一スパンを、スパン予測モデルを用いて予測するスパン予測ステップを備え、
前記スパン予測モデルは、第一言語文に含まれる第一単語と、第二言語文と、を少なくとも入力とし、入力された第二言語文に含まれ、第一単語に対応するスパンを正解データとして用いた学習を行うことにより得られたモデルである
単語対応方法。
【請求項9】
単語対応装置が実行する単語対応方法であって、
第一言語文と第二言語文とを入力とし、前記第二言語文に含まれ、前記第一言語文に含まれる第一単語に対応する第一スパンを、スパン予測モデルを用いて予測するスパン予測ステップを備え、
前記スパン予測モデルは、教師あり学習を行うことにより得られたモデルである
単語対応方法。
【請求項10】
学習装置が実行する学習方法であって、
単語対応情報と、第一言語文と、第二言語文と、を入力として、前記第一言語文に含まれる単語に対応する、前記第二言語文に含まれるスパンである正解を生成する問題回答生成ステップと、
前記正解を有する学習データを用いて、スパン予測モデルの学習を行う学習ステップと
を備える学習方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、互いに翻訳になっている2文間の単語対応を同定する技術に関連するものである。
続きを表示(約 1,400 文字)
【背景技術】
【0002】
互いに翻訳になっている二つの文において互いに翻訳になっている単語又は単語集合を同定することを単語対応(word alignment)という。
【0003】
互いに翻訳になっている二つの文を入力とし、自動的に単語対応を同定する技術には、多言語処理や機械翻訳に関連する様々な応用がある。例えば、ある言語(例えば英語)の文において付与された人名・地名・組織名等の固有表現に関する注釈を、単語対応に基づいて別の言語(例えば日本語)へ翻訳された文へ写像することにより、その言語の固有表現抽出器の学習データを生成することができる。
【0004】
従来の単語対応付けは、統計的機械翻訳で用いられた参考文献[1]に記載のモデルに基づいて、対訳データに関する統計情報から互いに翻訳になっている単語対を同定する方法が主流であった。なお、参考文献については、本明細書の最後にまとめて記載している。
【先行技術文献】
【非特許文献】
【0005】
Elias Stengel-Eskin, Tzu ray Su, Matt Post, and Benjamin Van Durme. A Discriminative Neural Model for Cross-Lingual Word Alignment. In Proceedings of the EMNLP-IJCNLP-2019, pp.910-920, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0006】
機械翻訳については、ニューラルネットワークを用いる手法により、統計的な手法に比べて大幅な精度向上を達成している。しかし、単語対応では、ニューラルネットワークを用いる手法による精度は、統計的な手法による精度と同等かわずかに上回る程度しかなかった。
【0007】
非特許文献1に開示されている従来のニューラル機械翻訳モデルに基づく教師あり単語対応は、統計的機械翻訳モデルに基づく教師なし単語対応に比べて精度が高い。しかし、統計的機械翻訳モデルに基づく方法も、ニューラル機械翻訳モデルに基づく方法も、翻訳モデルの学習のために大量(数百万文程度)の対訳データを必要とするという問題点があった。
【0008】
本発明は上記の点に鑑みてなされたものであり、従来技術よりも少量の教師データから、従来技術よりも高精度な教師あり単語対応を実現することを目的とする。
【課題を解決するための手段】
【0009】
開示の技術によれば、第一言語文と第二言語文とを入力とし、前記第二言語文に含まれ、前記第一言語文に含まれる第一単語に対応する第一スパンを、スパン予測モデルを用いて予測するスパン予測部を備え、
前記スパン予測モデルは、第一言語文に含まれる第一単語と、第二言語文と、を少なくとも入力とし、入力された第二言語文に含まれ、第一単語に対応するスパンを正解データとして用いた学習を行うことにより得られたモデルである
単語対応装置が提供される。
【発明の効果】
【0010】
開示の技術によれば、従来技術よりも少量の教師データから、従来技術よりも高精度な教師あり単語対応を実現できる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
キヤノン電子株式会社
通信システム
11日前
株式会社ザメディア
出席管理システム
5日前
トヨタ自動車株式会社
工程計画装置
5日前
株式会社タクテック
商品取出集品システム
4日前
トヨタ自動車株式会社
作業評価装置
11日前
ミサワホーム株式会社
情報処理装置
4日前
トヨタ自動車株式会社
作業判定方法
6日前
個人
公益寄付インタラクティブシステム
11日前
トヨタ自動車株式会社
情報処理システム
6日前
株式会社村田製作所
動き検知装置
4日前
ゼネラル株式会社
RFIDタグ付き物品
7日前
トヨタ自動車株式会社
情報処理方法
6日前
個人
コンテンツ配信システム
4日前
富士フイルム株式会社
タッチセンサ
11日前
株式会社国際電気
支援システム
7日前
個人
プラットフォームシステム
4日前
ブラザー工業株式会社
ラベルプリンタ
6日前
富士通株式会社
画像生成方法
10日前
株式会社デンソー
情報処理方法
11日前
トヨタ自動車株式会社
作業支援システム
4日前
甍エンジニアリング株式会社
屋根材買い取りシステム
10日前
株式会社知財事業研究所
運行計画作成システム
4日前
日立建機株式会社
潤滑油診断システム
5日前
日立建機株式会社
作業機械の管理装置
7日前
株式会社日立製作所
設計支援装置
5日前
株式会社マーケットヴィジョン
情報処理システム
11日前
株式会社日立製作所
タスク管理システム
4日前
トヨタ自動車株式会社
車両用の情報処理装置
5日前
アルプスアルパイン株式会社
入力装置
10日前
トヨタ自動車株式会社
車両用の情報処理装置
6日前
株式会社アイシン
情報提供システム
10日前
株式会社カプコン
システム、サーバおよびプログラム
5日前
個人
情報処理システム、情報処理方法及びプログラム
10日前
サクサ株式会社
画像処理装置、方法、およびシステム
6日前
ブラザー工業株式会社
印刷装置
5日前
セイコーエプソン株式会社
印刷システム
11日前
続きを見る
他の特許を見る