特許ウォッチ

公開番号2024101929
公報種別公開特許公報(A)
公開日2024-07-30
出願番号2023006160
出願日2023-01-18
発明の名称機械学習プログラム、情報処理装置および機械学習方法
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 3/045 20230101AFI20240723BHJP(計算;計数)
要約【課題】学習データにはない文章入力に対しても、認識精度を向上させる。
【解決手段】情報処理装置1は、ニューラルネットワークで構成されたモジュールを複数組み合わせて複数の層に構築される機械学習モデルの学習において、質問文を含む学習データを受信し、学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析する。情報処理装置1は、解析の結果に基づいて、各層の各モジュールに対して入力する質問文の情報を、単語間の係り受けを示す一部の句に限定して入力し、各モジュールに対して適用する重みを決定する。情報処理装置1は、各層の各モジュールに対して適用する重みに基づいて、機械学習モデルで用いられるモジュールの組み合わせの選択を制御する。かかる情報処理装置1の処理は、例えば、自然言語をクエリとする画像検索アプリケーションに適用することができる。
【選択図】図1
特許請求の範囲【請求項１】
ニューラルネットワークで構成されたモジュールを複数組み合わせて複数の層に構築される機械学習モデルの学習において、
質問文を含む学習データを受信し、
前記学習データの前記質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、
解析の結果に基づいて、各層の各モジュールに対して入力する前記質問文の情報を、単語間の係り受けを示す一部の句に限定して入力し、各モジュールに対して適用する重みを決定し、
各層の各モジュールに対して適用する重みに基づいて、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
続きを表示（約 1,400 文字）【請求項２】
前記学習データは、画像および前記画像に関する前記質問文を含むことを特徴とする請求項１に記載の機械学習プログラム。
【請求項３】
前記解析する処理は、係り受け解析を用いて、前記質問文に含まれる各単語の係り先と係り受けタグ情報とを特定し、
前記重みを決定する処理は、
各単語のエンベッディングに、各単語に対する係り受けタグのエンベッディングを加算して各単語に係り受けタグを加味した係り受け単語エンベッディングを生成し、
前記解析の結果により分割された各句を構成する単語を各層に対応付けた行列を生成し、
前記行列を用いて、処理順の層に対応付けられた句を構成する単語の係り受け単語エンベッディングを取得し、
取得した係り受け単語エンベッディング列を前記処理順の層の各モジュールに入力して各モジュールに対して適用する重みを決定する
ことを特徴とする請求項１に記載の機械学習プログラム。
【請求項４】
前記重みを決定する処理は、トランスフォーマーブロックで構成された複数のモジュールそれぞれに対して、前記句を構成する単語の係り受け単語エンベッディング列および前記画像の物体特徴量を入力して出力を計算し、第１の多層パーセプトロン処理で出力した重み分布に基づき前記複数のモジュールの出力を重み付き平均して、重み付き平均した出力を次層への入力として、予め定められた個数の層分の処理を行い、
最終層の出力を第２の多層パーセプトロン処理で回答を出力し、
誤差逆伝播法で前記ニューラルネットワークを学習し、各モジュールに適用する重みを決定する
ことを特徴とする請求項２に記載の機械学習プログラム。
【請求項５】
ニューラルネットワークで構成されたモジュールを複数組み合わせて複数の層に構築される機械学習モデルの学習において、
質問文を含む学習データを受信する受信部と、
前記受信部によって受信される前記学習データの前記質問文に含まれる複数の単語に対して、単語間の係り受けを解析する解析部と、
解析の結果に基づいて、各層の各モジュールに対して入力する前記質問文の情報を、単語間の係り受けを示す一部の句に限定して入力し、各モジュールに対して適用する重みを決定する決定部と、
各層の各モジュールに対して適用する重みに基づいて、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する制御部と、
を有することを特徴とする情報処理装置。
【請求項６】
ニューラルネットワークで構成されたモジュールを複数組み合わせて複数の層に構築される機械学習モデルの学習において、
質問文を含む学習データを受信し、
前記学習データの前記質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、
解析の結果に基づいて、各層の各モジュールに対して入力する前記質問文の情報を、単語間の係り受けを示す一部の句に限定して入力し、各モジュールに対して適用する重みを決定し、
各層の各モジュールに対して適用する重みに基づいて、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する
処理をコンピュータが実行することを特徴とする機械学習方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、機械学習プログラムなどに関する。
続きを表示（約 2,200 文字）【背景技術】
【０００２】
ニューラルモジュールの組み合わせ（プログラム）を制御して機械学習する手法が開示されている。
【０００３】
例えば、第１の技術では、機械学習の学習データであるＣＬＥＶＲデータセットの質問文を構成する句や節を組み合わせ、ＣＬＥＶＲデータセットでは直接的には登場しない質問の仕方によって精度を評価するＣＬＯＳＵＲＥデータセットが提案されている（例えば、非特許文献１参照）。ここでいうＣＬＥＶＲデータセットとは、３Ｄレンダリング画像のコンテンツに対する質問文のデータセットのことをいう。ＣＬＯＳＵＲＥデータセットとは、学習データであるＣＬＥＶＲデータセットでは直接的には登場しない質問の仕方によって精度を評価するためのデータセットのことをいう。ＣＬＯＳＵＲＥデータセットについては、ＣＬＥＶＲデータセットで学習した後のニューラルモジュールネットワークモデルのテストで、精度が悪くなることが開示されている。このため、第１の技術では、文章特徴量で画像特徴量を変調する手法（ＦｉＬＭ）を、ニューラルモジュールに適用することにより、ＣＬＯＳＵＲＥデータセットでの精度を向上させる。
【０００４】
なお、図９は、ＣＬＥＶＲおよびＣＬＯＳＵＲＥデータセットおよびモジュールの組み合わせを示す参考図である。図９左図は、ＣＬＥＶＲおよびＣＬＯＳＵＲＥデータセットを示す参考図である。図９右図は、ニューラルモジュールの組み合わせ（プログラム）を示す参考図である。図９右図に示すＰ１は、ＣＬＥＶＲデータセットの質問文Ｑ１を構成する句や節をニューラルモジュールとしたモジュールの組み合わせ（プログラム）である。モジュールの下の括弧は、引数である。Ｐ２は、ＣＬＥＶＲデータセットの質問文Ｑ２を構成する句や節をニューラルモジュールとしたモジュールの組み合わせ（プログラム）である。Ｐ１およびＰ２は、それぞれ質問文Ｑ１およびＱ２に対するモジュールの組み合わせ（プログラム）の正解である。Ｐ３は、ＣＬＯＳＵＲＥデータセットの質問文Ｑ３を構成する句や節をニューラルモジュールとしたモジュールの組み合わせであって、ＣＬＥＶＲデータセットの質問文に登場しない質問の仕方を持つモジュールの組み合わせ（プログラム）である。
【０００５】
また、第２の技術では、ＣＬＥＶＲプログラムの各処理を学習するニューラルモジュールを用意する。学習処理は、入力する質問文の要求に対する回答に必要となる、モジュール処理の組み合わせを制御するための重みも学習により自動生成する（例えば、非特許文献２参照）。なお、図１０は、ＣＬＥＶＲプログラムの学習を示す参考図である。図１０で示す「ｆｉｎｄ」，「ｔｒａｎｓｆｏｒｍ」，・・・，「ａｎｓｗｅｒ」および「ｃｏｍｐａｒｅ」がモジュール処理の組み合わせであり、このモジュール処理の組み合わせを制御するための重みＷ
（ｔ）
も学習により自動生成される。
【０００６】
第１の技術および第２の技術では、学習時に、入力する質問文に対する回答に必要な各ニューラルモジュールと、モジュールの組み合わせ（プログラム）を予め用意して、学習する。すなわち、第１の技術および第２の技術は、学習時に、質問文に対する正解のプログラムのとおりにニューラルモジュールを構成して学習する。
【先行技術文献】
【非特許文献】
【０００７】
“CLOSURE Assessing Systematic Generalization of CLEVR Models”,arXiv:1912.05783
“Explainable Neural Computation via Stack Neural Module Networks”,In:ECCV 2018
【発明の概要】
【発明が解決しようとする課題】
【０００８】
第１の技術および第２の技術では、学習時に、質問文に対する正解のモジュールの組み合わせ（プログラム）を用意する必要がある。しかしながら、様々な入力としてのタスク（質問文）を解くために必要なモジュールの組み合わせ（プログラム）の正解を、あらかじ用意するのは困難であるという問題がある。
【０００９】
本発明は、１つの側面では、学習データにはない文章入力に対しても、認識精度を向上させることを目的とする。
【課題を解決するための手段】
【００１０】
１つの態様では、機械学習プログラムが、ニューラルネットワークで構成されたモジュールを複数組み合わせて複数の層に構築される機械学習モデルの学習において、質問文を含む学習データを受信し、前記学習データの前記質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、解析の結果に基づいて、各層の各モジュールに対して入力する前記質問文の情報を、単語間の係り受けを示す一部の句に限定して入力し、各モジュールに対して適用する重みを決定し、各層の各モジュールに対して適用する重みに基づいて、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する、処理をコンピュータに実行させる。
【発明の効果】
（【００１１】以降は省略されています）

関連特許