TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025135970
公報種別公開特許公報(A)
公開日2025-09-19
出願番号2024034082
出願日2024-03-06
発明の名称装置および情報処理方法
出願人株式会社NTTドコモ
代理人個人,個人,個人,個人,個人
主分類G06F 40/40 20200101AFI20250911BHJP(計算;計数)
要約【課題】より精度良く単語の重要度を評価するための情報を得る。
【解決手段】装置10は、ある分野に関する複数の分類ごとのテキストデータに基づきMasked Language Modelの学習手法を用いて学習された分類ごとの学習モデルを用いて、一部の箇所がマスクされたテキストデータの入力に応じて、マスクされた一部の箇所を候補単語で置換された例文および候補単語ごとの生成確率を分類ごとに決定する決定部11と、分類ごとに決定された、マスクされた一部の箇所を候補単語で置換された例文および候補単語ごとの生成確率に基づいて、各分類における候補単語ごとの重要度を算出する重要度算出部12と、算出された各分類における候補単語ごとの重要度に基づいて、各分類における重要な単語を抽出するための基礎情報を取得する基礎情報取得部13と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
ある分野に関する複数の分類ごとのテキストデータに基づきMasked Language Modelの学習手法を用いて学習された前記分類ごとの学習モデルを用いて、一部の箇所がマスクされたテキストデータの入力に応じて、マスクされた一部の箇所を候補単語で置換された例文および前記候補単語ごとの生成確率を前記分類ごとに決定する決定部と、
前記分類ごとに決定された、前記マスクされた一部の箇所を前記候補単語で置換された例文および前記候補単語ごとの生成確率に基づいて、各分類における前記候補単語ごとの重要度を算出する重要度算出部と、
算出された各分類における前記候補単語ごとの重要度に基づいて、各分類における重要な単語を抽出するための基礎情報を取得する基礎情報取得部と、
を備える装置。
続きを表示(約 790 文字)【請求項2】
前記分野に関する複数の前記分類は、英語の試験に関する複数の級であり、
前記決定部は、前記マスクされた一部の箇所を前記候補単語で置換された例文および前記候補単語ごとの生成確率を前記複数の級ごとに決定し、
前記重要度算出部は、各級ごとに決定された前記例文および前記候補単語ごとの生成確率に基づいて、各級における前記候補単語ごとの重要度を算出し、
前記基礎情報取得部は、各級における前記候補単語ごとの重要度に基づいて、前記基礎情報として、各級における重要な英単語が示された辞書データを取得する、
請求項1に記載の装置。
【請求項3】
重要度算出部は、基礎とする前記候補単語ごとの生成確率について、
各分類の前記学習モデルから出力された全ての候補単語の生成確率を用いて、各分類における前記候補単語ごとの重要度を算出する、
請求項1に記載の装置。
【請求項4】
装置が、ある分野に関する複数の分類ごとのテキストデータに基づきMasked Language Modelの学習手法を用いて学習された前記分類ごとの学習モデルを用いて、一部の箇所がマスクされたテキストデータの入力に応じて、マスクされた一部の箇所を候補単語で置換された例文および前記候補単語ごとの生成確率を前記分類ごとに決定するステップと、
前記装置が、前記分類ごとに決定された、前記マスクされた一部の箇所を前記候補単語で置換された例文および前記候補単語ごとの生成確率に基づいて、各分類における前記候補単語ごとの重要度を算出するステップと、
前記装置が、算出された各分類における前記候補単語ごとの重要度に基づいて、各分類における重要な単語を抽出するための基礎情報を取得するステップと、
を備える情報処理方法。

発明の詳細な説明【技術分野】
【0001】
本開示は、装置および情報処理方法に関する。なお、本件における「テキスト」とは、1つ以上の文を含んだ文章全般を意味し、文章の内容は特定のジャンル・分類のものに限定されない。
続きを表示(約 1,800 文字)【背景技術】
【0002】
ある分野に関する多数の文書から、所定の分類ごと又は難易度等に応じた級ごとに、重要な単語(例えば特有の単語、使用頻度の高い単語など)を抽出するケース(特許文献1参照)が想定される。例えば、英語の試験では、様々な英単語を、難易度等に応じた級ごとに分類(レベル分け)するニーズが有るが、このような分類作業を人手で行うのは多大な時間がかかり、現実的ではない。
【0003】
上記のような分類作業の自動化に関連する手法として、各文書に含まれる各単語がその文書内でどれくらい重要かを表す尺度を求めるTF-IDF(Term Frequency-Inverse Document Frequency)手法が知られている。この手法では、文書への単語の出現頻度と文書全体における当該単語の希少性とに基づいて当該単語の重要度が評価される。
【先行技術文献】
【特許文献】
【0004】
特開2021-114057号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、TF-IDF手法では、単語レベルで文章が分割されてしまうため、この手法は、単語自体の意味内容、文脈(前後の単語との関係性)等を考慮していない。例えば、
例文1:I need to study for my exam tomorrow.
例文2:She conducts a study on effects of climate change.
を想定すると、例文1、2で使用されている単語「study」は、例文1では「学習・勉強する行為」を意味し、例文2では「研究活動」を意味する。このように単語「study」は文脈によって複数の意味を持つが、TF-IDF手法はこれらの意味の違いを区別せず、すべて同一の重要度として扱ってしまう。そのため、より精度良く単語の重要度を評価する上で、TF-IDF手法は十分でない場合がある。
【0006】
そこで、本開示は、より精度良く単語の重要度を評価するための情報を得ることを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る装置は、ある分野に関する複数の分類ごとのテキストデータに基づきMasked Language Modelの学習手法を用いて学習された前記分類ごとの学習モデルを用いて、一部の箇所がマスクされたテキストデータの入力に応じて、マスクされた一部の箇所を候補単語で置換された例文および前記候補単語ごとの生成確率を前記分類ごとに決定する決定部と、前記分類ごとに決定された、前記マスクされた一部の箇所を前記候補単語で置換された例文および前記候補単語ごとの生成確率に基づいて、各分類における前記候補単語ごとの重要度を算出する重要度算出部と、算出された各分類における前記候補単語ごとの重要度に基づいて、各分類における重要な単語を抽出するための基礎情報を取得する基礎情報取得部と、を備える。なお、「Masked Language Modelの学習手法」とは、自然言語処理モデルの事前学習手法の1つであり、文書中の単語をランダムに隠し(マスクし)、その隠された単語が何なのかを予測することで、モデルを学習させる手法である。
【発明の効果】
【0008】
本開示によれば、より精度良く単語の重要度を評価するための情報を得ることができる。
【図面の簡単な説明】
【0009】
装置の構成を示す機能ブロック構成図である。
学習フェーズの処理を示すフロー図である。
推論フェーズの処理を示すフロー図である。
図3のステップS11、S12の処理を説明するための図である。
図3のステップS12の処理を説明するための図である。
図3のステップS13の処理を説明するための図である。
図3のステップS14の処理を説明するための図である。
装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら、本開示に係る装置および判定方法の一実施形態を説明する。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

株式会社NTTドコモ
端末及び方法
18日前
株式会社NTTドコモ
情報処理装置及び方法
4日前
株式会社NTTドコモ
評価装置及び評価方法
16日前
株式会社NTTドコモ
装置および情報処理方法
2日前
株式会社NTTドコモ
装置、生成装置および方法
12日前
株式会社NTTドコモ
誘導体イメージ線路アンテナ及びアンテナ装置
12日前
株式会社NTTドコモ
インフラ影響度算出装置
17日前
個人
裁判のAI化
2か月前
個人
工程設計支援装置
1か月前
個人
情報処理システム
2か月前
個人
フラワーコートA
1か月前
個人
検査システム
2か月前
個人
冷凍食品輸出支援構造
17日前
個人
介護情報提供システム
1か月前
個人
為替ポイント伊達夢貯
17日前
個人
設計支援システム
1か月前
個人
表変換編集支援システム
10日前
個人
携帯情報端末装置
1か月前
個人
設計支援システム
1か月前
個人
結婚相手紹介支援システム
1か月前
株式会社サタケ
籾摺・調製設備
2か月前
個人
不動産売買システム
2か月前
キヤノン電子株式会社
携帯装置
2か月前
個人
知財出願支援AIシステム
17日前
個人
AIによる情報の売買の仲介
19日前
個人
パスワード管理支援システム
10日前
株式会社カクシン
支援装置
2か月前
個人
行動時間管理システム
12日前
個人
システム及びプログラム
3日前
個人
パスポートレス入出国システム
23日前
日本精機株式会社
施工管理システム
19日前
個人
アンケート支援システム
1か月前
個人
海外支援型農作物活用システム
2日前
個人
AIキャラクター制御システム
10日前
株式会社アジラ
進入判定装置
23日前
個人
備蓄品の管理方法
2か月前
続きを見る