TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2024165355
公報種別
公開特許公報(A)
公開日
2024-11-28
出願番号
2023081494
出願日
2023-05-17
発明の名称
同義語抽出装置、同義語抽出方法、および同義語抽出プログラム
出願人
株式会社日立製作所
代理人
藤央弁理士法人
主分類
G06F
40/247 20200101AFI20241121BHJP(計算;計数)
要約
【課題】文脈を考慮した同義語抽出の適正化を図ること。
【解決手段】同義語抽出装置は、文内の語の同義語を出力するように学習された言語モデルにアクセス可能であり、言語モデルは、文を構成する語を文の文脈に依存しない第1埋め込み表現に変換する第1層と、語の出現位置、語が出現する文、および語の第1埋め込み表現に基づいて、文の文脈に依存する第2埋め込み表現を生成する第2層とを有し、対象文内の対象語以外の語を同義語候補とし、第1層を用いて対象語に関する第1埋め込み表現と同義語候補に関する第1埋め込み表現とを生成して語類似度を算出し、対象文内の対象語を同義語候補に置き換えた同義語文とし、第1層および第2層を用いて対象文に関する第2埋め込み表現と同義語文に関する第2埋め込み表現とを生成して文脈類似度を算出し、語類似度と文脈類似度とに基づいて同義語を抽出する。
【選択図】図1
特許請求の範囲
【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置であって、
前記言語モデルは、第1層と、第2層と、を有し、
前記第1層は、前記文を構成する語を前記文の文脈に依存しない第1埋め込み表現に変換し、
前記第2層は、前記語の出現位置、前記語が出現する文、および前記語の前記第1埋め込み表現に基づいて、前記文の文脈に依存する第2埋め込み表現を生成し、
前記プロセッサは、
対象文内の対象語以外の語を同義語候補とし、前記第1層を用いて、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、を生成し、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第1層および前記第2層を用いて、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、を生成し、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行することを特徴とする同義語抽出装置。
続きを表示(約 2,200 文字)
【請求項2】
請求項1に記載の同義語抽出装置であって、
前記語類似度算出処理では、前記プロセッサは、前記対象語を構成する各トークンに関する第1埋め込み表現の平均値と、前記同義語候補を構成する各トークンに関する第1埋め込み表現の平均値と、に基づいて、前記語類似度を算出する、
ことを特徴とする同義語抽出装置。
【請求項3】
請求項1に記載の同義語抽出装置であって、
前記プロセッサは、
前記第1層を用いて、複数の同義語候補集合の各々の同義語候補集合内の同義語候補に関する第1埋め込み表現を生成し、前記語類似度算出処理により、前記語類似度を前記同義語候補ごとに前記同義語候補集合別に算出して、前記同義語候補集合ごとの前記語類似度の集合を前記語類似度に関する条件に基づいてプーリングし、プーリングした語類似度に対応する特定の同義語候補集合を出力する同義語候補プーリング処理と、
前記語類似度算出処理により、前記対象語と前記特定の同義語候補集合内の特定の同義語候補との特定の語類似度を前記特定の同義語候補ごとに算出し、前記特定の同義語候補ごとの前記特定の語類似度をアンサンブルする同義語候補アンサンブル処理と、を実行し、
前記文脈類似度算出処理では、前記プロセッサは、前記対象文内の対象語を前記同義語候補アンサンブル処理によるアンサンブル結果に置き換えた特定の同義語文とし、前記対象文と前記特定の同義語文との文脈類似度を算出する、
することを特徴とする同義語抽出装置。
【請求項4】
請求項1に記載の同義語抽出装置であって、
前記プロセッサは、
複数の前記言語モデルの各々の言語モデルについて、文の集合に対する適合度を算出し、前記適合度に基づいて、複数の前記言語モデルの中から特定の言語モデルを選択する選択処理を実行し、
前記プロセッサは、前記選択処理によって選択された特定の言語モデルを用いて、前記語類似度算出処理および前記文脈類似度算出処理を実行する、
ことを特徴とする同義語抽出装置。
【請求項5】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置が実行する同義語抽出方法であって、
前記言語モデルは、第1層と、第2層と、を有し、
前記第1層は、前記文を構成する語を前記文の文脈に依存しない第1埋め込み表現に変換し、
前記第2層は、前記語の出現位置、前記語が出現する文、および前記語の前記第1埋め込み表現に基づいて、前記文の文脈に依存する第2埋め込み表現を生成し、
前記プロセッサは、
対象文内の対象語以外の語を同義語候補とし、前記第1層を用いて、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、を生成し、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第1層および前記第2層を用いて、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、を生成し、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行することを特徴とする同義語抽出方法。
【請求項6】
文内の語の同義語を出力するように学習された言語モデルを用いた同時語抽出をプロセッサに実行させる同義語抽出プログラムであって、
前記言語モデルは、第1層と、第2層と、を有し、
前記第1層は、前記文を構成する語を前記文の文脈に依存しない第1埋め込み表現に変換し、
前記第2層は、前記語の出現位置、前記語が出現する文、および前記語の前記第1埋め込み表現に基づいて、前記文の文脈に依存する第2埋め込み表現を生成し、
前記プロセッサに、
対象文内の対象語以外の語を同義語候補とし、前記第1層を用いて、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、を生成し、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第1層および前記第2層を用いて、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、を生成し、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行させることを特徴とする同義語抽出プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、同義語を抽出する同義語抽出装置、同義語抽出方法、および同義語抽出プログラムに関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
チャットボットなどの質問応答システムの多くは、ユーザからの質問と、システムにあらかじめ登録されている想定質問とを比較し、ユーザ質問に対し最も適切な想定質問に対応している回答を出力する。たとえば、行政手続きに関する質問応答システムでは、想定質問として「引っ越ししたがどうすればよい?」というテキストが登録されている。
【0003】
ところが、ユーザは同じ意図でも様々な表現で質問するため、「引っ越ししたがどうすればよい」以外にも「転居したがどうすればよい?」「住所変更したがどうすればよい?」なども想定質問として登録しておく必要がある。この例の場合、「引っ越し」の同義語である「転居」「住所変更」などで想定質問のバリエーションを増やすことになる。質問応答システムの回答精度を向上させるには、想定質問内の語に対し、できるだけ多くの同義語を用意しておくことが望ましい。
【0004】
非特許文献1は、大量のテキストから語の埋め込み表現を学習しておき、埋め込み表現間の類似度が高い語同士を同義語として扱うベクトル空間での単語表現の効率的な推定を開示する。埋め込み表現とは数百次元の実数ベクトルであり、埋め込み表現間の類似度には余弦が用いられる。周辺の単語から対象単語が予測できるように、または逆に、対象単語から周辺の単語が予測できるように学習が進行する。
【0005】
ところが、学習後は周辺の単語を無視するため、文脈に応じた語の多義性が扱えなかった。たとえば、「引っ越ししたがどうすればよい?」という文脈でも、「引っ越しの費用を教えて」という文脈でも、「引っ越し」の埋め込み表現は同一になる。そのため、前者の文脈では、「引っ越し」と「住所変更」は同義語であるが、後者の文脈ではこれらは同義関係ではないといった、文脈依存の語の多義性を扱えなかった。
【0006】
非特許文献2では、大量のテキストから学習した言語モデルを用い、文脈に依存した語の埋め込み表現を取得する、BERTに基づく字句置換を開示する。「引っ越ししたがどうすればよい?」と「引っ越しの費用を教えて」では同じ「引っ越し」でも埋め込み表現が異なる。よって、非特許文献2の技術は、同じ語でも、文脈に応じて異なる同義語を抽出する。
【先行技術文献】
【非特許文献】
【0007】
“Efficient Estimation of Word Representations in Vector Space”,In Proceedings of Workshop at ICLR,2013.
“BERT-based Lexical Substitution”,ACL 2019,2019.
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところが、非特許文献2の技術では、語の埋め込み表現が文脈の影響を強く受けすぎ、同義関係にない語までもが同義語として抽出されてしまうことが多い。たとえば、「引っ越しの費用を教えて」という文脈での「引っ越し」に対し、「購入」「問い合わせ」なども同義語として抽出されてしまう。
【0009】
本発明は、文脈を考慮した同義語抽出の適正化を図ることを目的とする。
【課題を解決するための手段】
【0010】
本願において開示される発明の一側面となる同義語抽出装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置であって、前記言語モデルは、第1層と、第2層と、を有し、前記第1層は、前記文を構成する語を前記文の文脈に依存しない第1埋め込み表現に変換し、前記第2層は、前記語の出現位置、前記語が出現する文、および前記語の前記第1埋め込み表現に基づいて、前記文の文脈に依存する第2埋め込み表現を生成し、前記プロセッサは、対象文内の対象語以外の語を同義語候補とし、前記第1層を用いて、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、を生成し、前記対象語に関する第1埋め込み表現と、前記同義語候補に関する第1埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第1層および前記第2層を用いて、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、を生成し、前記対象文に関する第2埋め込み表現と、前記同義語文に関する第2埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、を実行することを特徴とする。
【発明の効果】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社日立製作所
輸送システム
1日前
株式会社日立製作所
移動体制御システム
1日前
株式会社日立製作所
インバータ制御装置および制御方法
1日前
株式会社日立製作所
地上無線制御装置、無線制御システム及び無線制御方法
1日前
株式会社日立製作所
プロトコル評価支援装置およびプロトコル評価支援方法
1日前
個人
物品
8日前
個人
認証システム
22日前
個人
自動精算システム
1日前
個人
マウス用テーブル
2か月前
個人
保証金管理システム
16日前
個人
救急搬送システム
8日前
個人
鑑定証明システム
22日前
アズビル株式会社
防爆装置
1か月前
個人
業界地図作成システム
1か月前
キヤノン株式会社
印刷装置
1日前
個人
人的価値発掘システム
1か月前
株式会社MRC
集客システム
16日前
キヤノン電子株式会社
情報処理装置
1か月前
株式会社宗建
SNSサーバー
1か月前
個人
技術マッチングシステム
28日前
株式会社セガフェイブ
遊戯機
2か月前
個人
生成AIとの常時接続システム
8日前
キヤノン株式会社
印刷管理装置
14日前
株式会社COLORS
表示装置
2日前
キヤノン株式会社
印刷制御装置
1か月前
ミサワホーム株式会社
システム
1か月前
個人
選択操作音声出力システム
2か月前
個人
配送システムおよび同包箱
1か月前
株式会社ジール
文章の分析装置
2か月前
個人
コンテンツ開示順位判定システム
3日前
ミサワホーム株式会社
管理装置
1か月前
トヨタ自動車株式会社
分析装置
16日前
株式会社ネットブリッジ
展示販売装置
23日前
ミサワホーム株式会社
プログラム
22日前
オムロン株式会社
認証中継サーバ
1か月前
大同特殊鋼株式会社
棒材計数装置
1か月前
続きを見る
他の特許を見る