TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024123924
公報種別公開特許公報(A)
公開日2024-09-12
出願番号2023031747
出願日2023-03-02
発明の名称修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム
出願人日本電信電話株式会社,国立大学法人東京工業大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 40/216 20200101AFI20240905BHJP(計算;計数)
要約【課題】事前学習時のパラメタ最適化にバイアスをかけることなく、正解データとしての生テキストデータを大量に用意する必要がない修辞構造解析学習装置、パラメタ最適化方法及びプログラムを提供する。
【解決手段】修辞構造解析学習装置及び修辞構造推定装置によって構築されているシステムにおいて、修辞構造解析のパラメタを最適化する修辞構造解析学習装置は、文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張部と、前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習部と、前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習部と、を有する。
【選択図】図3
特許請求の範囲【請求項1】
修辞構造解析のパラメタを最適化する修辞構造解析学習装置であって、
文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張部と、
前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習部と、
前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習部と、
を有する修辞構造解析学習装置。
続きを表示(約 1,000 文字)【請求項2】
前記データ拡張部は、
第1の言語で示された文章から所定の割合の文である選択文を選択する文選択部と、
前記選択文を前記第1の言語とは異なる第2の言語に機械翻訳する機械翻訳部と、
前記第2の言語に翻訳された前記選択文を前記第1の言語に逆翻訳する逆機械翻訳部と、
前記逆翻訳された前記選択文及び前記文選択部によって選択されなかった文である非選択文を合わせて、前記疑似訓練データを生成する疑似訓練データ生成部と、
を有する請求項1に記載の修辞構造解析学習装置。
【請求項3】
請求項1又は2に記載の修辞構造解析学習装置と、
各パラメタに基づいて木構造を推定して得た部分木と正解データで示される木構造の部分木との一致率を示す評価スコアを算出する修辞構造推定装置と、
を有するシステム。
【請求項4】
修辞構造解析の学習を行う修辞構造解析学習装置が実行する修辞構造解析のパラメタを最適化するパラメタ最適化方法であって、
修辞構造解析学習装置は、
文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張処理と、
前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習処理と、
前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習処理と、
を実行するパラメタ最適化方法。
【請求項5】
前記データ拡張処理は、
第1の言語で示された文章から所定の割合の文である選択文を選択する文選択処理と、
前記選択文を前記第1の言語とは異なる第2の言語に機械翻訳する機械翻訳処理と、
前記第2の言語に翻訳された前記選択文を前記第1の言語に逆翻訳する逆機械翻訳処理と、
前記逆翻訳された前記選択文及び前記文選択処理によって選択されなかった文である非選択文を合わせて、前記疑似訓練データを生成する疑似訓練データ生成処理と、
を含む請求項4に記載のパラメタ最適化方法。
【請求項6】
コンピュータに、請求項4又は5に記載の方法を実行させるプログラム。

発明の詳細な説明【技術分野】
【0001】
本開示内容は、計算機を用いて言語を処理する自然言語処理分野に属し、特に、文書の構造を自動的に推定する修辞構造解析のパラメタ最適化における擬似訓練データの活用に属する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
修辞構造解析では、文書をElementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットの系列データとみなす。そして、これらを、終端ノード及びEDUの連なりで形成する木(スパンの関係を非終端ノードがあらわす再帰構造を持った木)として表現する(図7参照)。図7において、終端ノードはEDU(e)である。非終端ノードは、それが支配するスパンの核性(従属関係)、つまり核(N:Nucleus)であるか衛星(S:Satellite)であるかを表す。核(N)はより中心的な情報を表すテキスト領域であり、衛星(S)は核を補足するテキスト領域である。
【0003】
2つの非終端ノードをつなぐエッジには関係ラベルが与えられる。2つの非終端ノードがS、Nの組みである場合、S側のエッジには、Elaborationなどの関係ラベル(全18種)が付与され、N側のエッジには、デフォルトラベルであるspanが与えられる。なお、spanはN側に与えられるデフォルトラベルなので、関係ラベルとしてはとらえられない。また、2つの非終端ノードが、NとNの組みである場合、双方のエッジに対してSame-Unitなどの関係ラベルが与えられる。
【0004】
文書、つまりEDUの系列が与えられた際に修辞木構造を推定する技術は、現在ではニューラルネットワークを用いて実現される。例えば、事前学習済み言語モデルを用いてスパンのベクトルを得たのち、(1)木構造推定(スパンの結合もしくは分割の決定)、(2)核性推定(N-S、S-N、又はN-N のいずれかを選択)、(3)関係ラベル推定(18種の関係のうちいずれかを選択)をニューラルネットワークにより実現する。
【0005】
なお、現状の多くの修辞構造解析はトップダウン、つまり、スパンを分割することで木を推定する。たとえば、非特許文献1について、以降、トップダウン解析器を前提として説明を進めるが、ボトプアップ解析においても本開示内容は問題なく適用できる。
【0006】
続いて、図8に一般的なトップダウン解析器の概要を示す。まず、文書をトークンtの系列としてとらえる。連続したEDUで構成されるスパンのベクトルuは、左端のEDUの左端のトークンの埋め込みベクトルと右端のEDUの右端のトークンの埋め込みベクトルの平均とする。図8中のi番目のEDUからj番目のEDUにより構成されるスパンのベクトルはi番目のEDUの左端のトークンの埋め込みベクトルw
b(i)
とk番目のEDUの左端のトークンの埋め込みベクトルw
e(k)
の平均とする。そして、トップダウン解析器が、ベクトルuを順伝播型ニューラルネットワークに入力することでベクトルhを得て、バイアフィン層に入力することで、木構造の推定、核性及び関係ラベルの推定を行う。
【0007】
この場合、i番目のEDUからj番目のEDUで構成されるスパンを
【0008】
TIFF
2024123924000002.tif
26
169
番目のEDUで分割するスコアは以下の(式1)で定義される。
【0009】
TIFF
2024123924000003.tif
37
169
ここで、Wはパラメタ行列、vはパラメタベクトルである。hはそれぞれ以下の(式2)及び(式3)で定義される。
【0010】
TIFF
2024123924000004.tif
27
169
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

日本電信電話株式会社
折り紙
4日前
日本電信電話株式会社
部分グラフ数え上げ方法、部分グラフ数え上げ装置及びプログラム
4日前
日本電信電話株式会社
支援装置、支援方法およびプログラム
6日前
個人
認証システム
4日前
個人
マウス用テーブル
1か月前
個人
鑑定証明システム
4日前
個人
契約管理サーバ
1か月前
アズビル株式会社
防爆装置
1か月前
個人
業界地図作成システム
28日前
個人
人的価値発掘システム
1か月前
株式会社宗建
SNSサーバー
1か月前
株式会社セガフェイブ
遊戯機
1か月前
個人
技術マッチングシステム
10日前
キヤノン電子株式会社
情報処理装置
1か月前
キヤノン株式会社
印刷制御装置
19日前
ミサワホーム株式会社
システム
1か月前
株式会社ネットブリッジ
展示販売装置
5日前
株式会社ジール
文章の分析装置
1か月前
個人
配送システムおよび同包箱
1か月前
個人
選択操作音声出力システム
1か月前
ミサワホーム株式会社
管理装置
1か月前
オムロン株式会社
認証中継サーバ
1か月前
個人
動作のデザイン評価の方法及び装置
1か月前
大同特殊鋼株式会社
棒材計数装置
1か月前
株式会社奥村組
削孔位置検出方法
1か月前
ミサワホーム株式会社
プログラム
4日前
アスエネ株式会社
森林管理の方法
1か月前
個人
文字入力方法、文字入力プログラム
11日前
トヨタ自動車株式会社
車載機
4日前
株式会社チノー
ユーザ認証システム
26日前
個人
後払いポイントシステム「先用後利」
5日前
株式会社インザック
コンピュータシステム
10日前
トヨタ自動車株式会社
作業評価装置
17日前
個人
口座悪用を防止する口座管理システム
1か月前
トヨタ自動車株式会社
部品管理装置
4日前
株式会社八咲
イベント管理システム
1か月前
続きを見る