特許ウォッチ

公開番号2024172450
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023090178
出願日2023-05-31
発明の名称機械学習方法、機械学習プログラムおよび情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06F 40/216 20200101AFI20241205BHJP(計算;計数)
要約【課題】自然言語処理モデルの訓練時間を削減する。
【解決手段】情報処理装置10は、複数の単語それぞれを表す文字列と複数の単語それぞれを識別する符号とを対応付けた単語辞書データ13を取得する。情報処理装置10は、単語辞書データ13に基づいて、テキストデータ14に含まれる単語を符号化することで、テキストデータ14を符号化テキストデータ15に変換する。情報処理装置10は、単語辞書データ13と符号化テキストデータ15とに基づいて、機械学習モデル16に含まれるパラメータを初期化する。情報処理装置10は、初期化後に機械学習モデル16から単語辞書データ13を切り離した状態で、符号化テキストデータ15に基づいて機械学習モデル16を訓練する学習処理を実行する。
【選択図】図1
特許請求の範囲【請求項１】
自然言語で用いられる複数の単語それぞれを表す文字列と前記複数の単語それぞれを識別する符号とを対応付けた単語辞書データを取得し、
前記単語辞書データに基づいて、前記自然言語で記載されたテキストデータに含まれる単語を符号化することで、前記テキストデータを符号化テキストデータに変換し、
前記単語辞書データと前記符号化テキストデータとに基づいて、機械学習モデルに含まれるパラメータを初期化し、
初期化後に前記機械学習モデルから前記単語辞書データを切り離した状態で、前記符号化テキストデータに基づいて前記機械学習モデルを訓練する学習処理を実行する、
処理をコンピュータが実行する機械学習方法。
続きを表示（約 1,000 文字）【請求項２】
前記学習処理の後に前記機械学習モデルに入力データを入力することで、前記複数の単語のうちの少なくとも１つの単語の前記符号を含む予測結果データを取得し、前記単語辞書データに基づいて、前記予測結果データに含まれる前記符号を前記少なくとも１つの単語を表す前記文字列に変換する処理を、前記コンピュータに更に実行させる、
請求項１記載の機械学習方法。
【請求項３】
前記初期化する処理は、前記機械学習モデルに、前記複数の単語それぞれに割り当てられる分散表現ベクトルと前記符号とを対応付けた分散表現データを設定する処理を含み、
前記機械学習モデルは、前記符号化テキストデータに含まれる前記符号を前記分散表現ベクトルに変換する埋め込み層を含む、
請求項１記載の機械学習方法。
【請求項４】
自然言語で用いられる複数の単語それぞれを表す文字列と前記複数の単語それぞれを識別する符号とを対応付けた単語辞書データを取得し、
前記単語辞書データに基づいて、前記自然言語で記載されたテキストデータに含まれる単語を符号化することで、前記テキストデータを符号化テキストデータに変換し、
前記単語辞書データと前記符号化テキストデータとに基づいて、機械学習モデルに含まれるパラメータを初期化し、
初期化後に前記機械学習モデルから前記単語辞書データを切り離した状態で、前記符号化テキストデータに基づいて前記機械学習モデルを訓練する学習処理を実行する、
処理をコンピュータに実行させる機械学習プログラム。
【請求項５】
自然言語で用いられる複数の単語それぞれを表す文字列と前記複数の単語それぞれを識別する符号とを対応付けた単語辞書データと、前記自然言語で記載されたテキストデータとを記憶する記憶部と、
前記単語辞書データに基づいて、前記テキストデータに含まれる単語を符号化することで、前記テキストデータを符号化テキストデータに変換し、前記単語辞書データと前記符号化テキストデータとに基づいて、機械学習モデルに含まれるパラメータを初期化し、初期化後に前記機械学習モデルから前記単語辞書データを切り離した状態で、前記符号化テキストデータに基づいて前記機械学習モデルを訓練する学習処理を実行する処理部と、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は機械学習方法、機械学習プログラムおよび情報処理装置に関する。
続きを表示（約 1,500 文字）【背景技術】
【０００２】
コンピュータは、自然言語で記載されたテキストデータを処理する自然言語処理モデルを用いて、機械翻訳や質問応答などの自然言語処理タスクを実行することがある。コンピュータは、訓練データとして与えられたサンプルテキストを用いて、機械学習によって自然言語処理モデルを生成することがある。
【０００３】
自然言語処理モデルは、ニューラルネットワークであることがある。また、自然言語処理モデルは、入力データに含まれる単語を、複数次元の数値で表された分散表現ベクトルに変換することがあり、分散表現ベクトルから特徴量を算出することがある。通常、自然言語処理モデルは、ターゲットとする自然言語の語彙を表す単語辞書データに依存する。
【０００４】
なお、目的言語のテキストを逆翻訳することで疑似対訳コーパスを生成し、少量かつ高精度の基本対訳コーパスと生成された疑似対訳コーパスの両方を用いて機械翻訳モデルを訓練する機械翻訳装置が提案されている。
【先行技術文献】
【特許文献】
【０００５】
特開２０１９－１５３０２３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
自然言語の語彙は多数の単語を含むため、単語の文字列表現を含む単語辞書データはデータサイズが大きい。そのため、単語辞書データが組み込まれた自然言語処理モデルをそのまま訓練すると、機械学習の負荷が高く、訓練時間が長くなることがある。そこで、１つの側面では、本発明は、自然言語処理モデルの訓練時間を削減することを目的とする。
【課題を解決するための手段】
【０００７】
１つの態様では、以下の処理をコンピュータが実行する機械学習方法が提供される。自然言語で用いられる複数の単語それぞれを表す文字列と複数の単語それぞれを識別する符号とを対応付けた単語辞書データを取得する。単語辞書データに基づいて、自然言語で記載されたテキストデータに含まれる単語を符号化することで、テキストデータを符号化テキストデータに変換する。単語辞書データと符号化テキストデータとに基づいて、機械学習モデルに含まれるパラメータを初期化する。初期化後に機械学習モデルから単語辞書データを切り離した状態で、符号化テキストデータに基づいて機械学習モデルを訓練する学習処理を実行する。
【０００８】
また、１つの態様では、コンピュータに実行させる機械学習プログラムが提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。
【発明の効果】
【０００９】
１つの側面では、自然言語処理モデルの訓練時間が削減される。
【図面の簡単な説明】
【００１０】
第１の実施の形態の情報処理装置を説明するための図である。
第２の実施の形態の情報処理装置のハードウェア例を示す図である。
自然言語処理モデルの構造例を示す図である。
テキストと符号化テキストの例を示す図である。
単語辞書と埋め込み辞書の例を示す図である。
単語辞書を用いた予測結果の変換例を示す図である。
訓練時間と予測精度の例を示すグラフである。
情報処理装置の機能例を示すブロック図である。
機械学習の手順例を示すフローチャートである。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許