特許ウォッチ

公開番号2025119754
公報種別公開特許公報(A)
公開日2025-08-15
出願番号2024014734
出願日2024-02-02
発明の名称学習プログラム、学習方法、及び情報処理装置
出願人富士通株式会社
代理人個人
主分類G06N 3/092 20230101AFI20250807BHJP(計算;計数)
要約【課題】マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【解決手段】情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させる。
【選択図】図2
特許請求の範囲【請求項１】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、前記情報処理装置に、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第１のパラメータを決定し、
前記学習モデルの初期パラメータの値である第２のパラメータを、前記第１のパラメータに基づいて設定する、
処理を実行させること、を特徴とする学習プログラム。
続きを表示（約 1,100 文字）【請求項２】
前記第１のパラメータは、前記重み付けに基づく、前記学習済みモデルのエージェントのパラメータを用いた加重平均の値であること、
を特徴とする請求項１の学習プログラム。
【請求項３】
前記重みづけは、前記学習済みモデルのエージェントに関する情報と、前記学習モデルのエージェントに関する情報との相関関係によって行われること、
を特徴とする請求項１の学習プログラム。
【請求項４】
前記学習済みモデルのエージェントに関する情報は、前記学習済みモデルの学習中での前記学習済みモデルのエージェントの状態空間に関する情報であり、前記学習モデルのエージェントに関する情報は、前記学習プログラムを実行する環境での、所定の制御を用いた学習前での前記学習モデルのエージェントの状態空間に関する情報であること、
を特徴とする請求項３の学習プログラム。
【請求項５】
前記第２のパラメータは前記第１のパラメータに所定のベクトルを付与し、前記学習モデルのバイアス項を０にしたパラメータであること、
を特徴とする請求項１の学習プログラム。
【請求項６】
前記学習モデルは、初回の前記学習モデル更新時に、全く活性化していないニューロンを初期化すること、
を特徴とする請求項１の学習プログラム。
【請求項７】
前記学習モデルは、学習中において、前記学習モデルのパラメータに付与する前記所定のベクトルの分散を、前記学習モデルが更新する度に小さくしていくこと、
を特徴とする請求項１の学習プログラム。
【請求項８】
学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムを記憶する記憶部と、
前記学習プログラムを実行する制御部と、を有し、
前記制御部が前記学習プログラムを実行することにより、前記制御部が、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第１のパラメータを決定し、
前記学習モデルの初期パラメータの値である第２のパラメータを、前記第１のパラメータに基づいて設定すること、
を特徴とする情報処理装置。
【請求項９】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習方法において、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第１のパラメータを決定し、
前記学習モデルの初期パラメータの値である第２のパラメータを、前記第１のパラメータに基づいて設定する、
こと、を特徴とする学習方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は学習プログラム、学習方法、及び情報処理装置に関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
深層学習において、転移学習は一般的な学習方法であり、例えば、学習時間を短縮することができ、効率的な学習を行うことができる。そのため、深層強化学習においても同様に転移学習を用いて効率的に学習を行うことが期待されている。
【先行技術文献】
【非特許文献】
【０００３】
ＨａｏｂｉｎＳｈｉ，ＪｉｎｇｃｈｅｎＬｉ，ＪｉａｈｕｉＭａｏ，ａｎｄＫａｏ－ＳｈｉｎｇＨｗａｎｇ，ＬａｔｅｒａｌＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇｆｏｒＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｙｂｅｒｎｅｔｉｃｓ，Ｖｏｌｕｍｅ５３，Ｉｓｓｕｅ３，ＭＡＲＣＨ２０２３
【発明の概要】
【発明が解決しようとする課題】
【０００４】
マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【０００５】
また、学習時間を短縮する方法として、非特許文献１に記載の方法がある。非特許文献１では、転移元（以降ソースと記載する場合がある。）のモデルからエージェントをクラスタリングし、転移先（以降ターゲットと記載する場合がある。）のタスクに近いクラスタをターゲットエージェントに割り当てる方法である。しかし、この方法では転移学習を繰り返すごとにモデルが複雑化し、モデルサイズが大きくなってしまう場合がある。そのため、モデルサイズの巨大化によって学習時間などに悪影響を及ぼす可能性がある。そのため、転移学習を深層強化学習に対して効率的に用いることができているとはいえない。
【０００６】
開示の技術は、上記を鑑みてなされたものであって、深層強化学習において、転移学習を効率的に用いることを目的とする。
【課題を解決するための手段】
【０００７】
１つの側面では、情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第１のパラメータを決定し、学習モデルの初期パラメータの値である第２のパラメータを、第１のパラメータに基づいて設定する、処理を実行させること、を特徴とする学習プログラム、を提供する。
【発明の効果】
【０００８】
深層強化学習において、転移学習を効率的に用いることができる。
【図面の簡単な説明】
【０００９】
図１は、実施の形態における情報処理装置の一例を示す図である。
図２は、実施の形態における学習モデルの出力過程の一例を示す図である。
図３は、実施の形態における学習プログラムを実行する情報処理装置の一例を示す図である。
図４は、実施の形態を適用した具体例１における適用環境の模式図である。
図５は、実施の形態を適用した具体例１における強化学習の結果を示す図である。
図６は、実施の形態を適用した具体例２における適用環境を示した図である。
図７は、実施の形態を適用した具体例２における強化学習の結果を示す図である。
【発明を実施するための形態】
【００１０】
以下、本実施の形態について図面を参照して詳細に説明する。本明細書における課題及び実施の形態は一例であり、本願の権利範囲を限定するものではない。特に、記載の表現が異なっていたとしても技術的に同等であれば、異なる表現であっても本願の技術を適用可能であり、権利範囲を限定するものではない。そして、各実施の形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
（【００１１】以降は省略されています）

関連特許