TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025119754
公報種別公開特許公報(A)
公開日2025-08-15
出願番号2024014734
出願日2024-02-02
発明の名称学習プログラム、学習方法、及び情報処理装置
出願人富士通株式会社
代理人個人
主分類G06N 3/092 20230101AFI20250807BHJP(計算;計数)
要約【課題】マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【解決手段】情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させる。
【選択図】図2
特許請求の範囲【請求項1】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、前記情報処理装置に、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
処理を実行させること、を特徴とする学習プログラム。
続きを表示(約 1,100 文字)【請求項2】
前記第1のパラメータは、前記重み付けに基づく、前記学習済みモデルのエージェントのパラメータを用いた加重平均の値であること、
を特徴とする請求項1の学習プログラム。
【請求項3】
前記重みづけは、前記学習済みモデルのエージェントに関する情報と、前記学習モデルのエージェントに関する情報との相関関係によって行われること、
を特徴とする請求項1の学習プログラム。
【請求項4】
前記学習済みモデルのエージェントに関する情報は、前記学習済みモデルの学習中での前記学習済みモデルのエージェントの状態空間に関する情報であり、前記学習モデルのエージェントに関する情報は、前記学習プログラムを実行する環境での、所定の制御を用いた学習前での前記学習モデルのエージェントの状態空間に関する情報であること、
を特徴とする請求項3の学習プログラム。
【請求項5】
前記第2のパラメータは前記第1のパラメータに所定のベクトルを付与し、前記学習モデルのバイアス項を0にしたパラメータであること、
を特徴とする請求項1の学習プログラム。
【請求項6】
前記学習モデルは、初回の前記学習モデル更新時に、全く活性化していないニューロンを初期化すること、
を特徴とする請求項1の学習プログラム。
【請求項7】
前記学習モデルは、学習中において、前記学習モデルのパラメータに付与する前記所定のベクトルの分散を、前記学習モデルが更新する度に小さくしていくこと、
を特徴とする請求項1の学習プログラム。
【請求項8】
学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムを記憶する記憶部と、
前記学習プログラムを実行する制御部と、を有し、
前記制御部が前記学習プログラムを実行することにより、前記制御部が、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定すること、
を特徴とする情報処理装置。
【請求項9】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習方法において、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
こと、を特徴とする学習方法。

発明の詳細な説明【技術分野】
【0001】
本発明は学習プログラム、学習方法、及び情報処理装置に関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
深層学習において、転移学習は一般的な学習方法であり、例えば、学習時間を短縮することができ、効率的な学習を行うことができる。そのため、深層強化学習においても同様に転移学習を用いて効率的に学習を行うことが期待されている。
【先行技術文献】
【非特許文献】
【0003】
Haobin Shi, Jingchen Li, Jiahui Mao, and Kao-Shing Hwang, Lateral Transfer Learning for Multiagent Reinforcement Learning IEEE Transactions on Cybernetics, Volume53, Issue3, MARCH 2023
【発明の概要】
【発明が解決しようとする課題】
【0004】
マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【0005】
また、学習時間を短縮する方法として、非特許文献1に記載の方法がある。非特許文献1では、転移元(以降ソースと記載する場合がある。)のモデルからエージェントをクラスタリングし、転移先(以降ターゲットと記載する場合がある。)のタスクに近いクラスタをターゲットエージェントに割り当てる方法である。しかし、この方法では転移学習を繰り返すごとにモデルが複雑化し、モデルサイズが大きくなってしまう場合がある。そのため、モデルサイズの巨大化によって学習時間などに悪影響を及ぼす可能性がある。そのため、転移学習を深層強化学習に対して効率的に用いることができているとはいえない。
【0006】
開示の技術は、上記を鑑みてなされたものであって、深層強化学習において、転移学習を効率的に用いることを目的とする。
【課題を解決するための手段】
【0007】
1つの側面では、情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させること、を特徴とする学習プログラム、を提供する。
【発明の効果】
【0008】
深層強化学習において、転移学習を効率的に用いることができる。
【図面の簡単な説明】
【0009】
図1は、実施の形態における情報処理装置の一例を示す図である。
図2は、実施の形態における学習モデルの出力過程の一例を示す図である。
図3は、実施の形態における学習プログラムを実行する情報処理装置の一例を示す図である。
図4は、実施の形態を適用した具体例1における適用環境の模式図である。
図5は、実施の形態を適用した具体例1における強化学習の結果を示す図である。
図6は、実施の形態を適用した具体例2における適用環境を示した図である。
図7は、実施の形態を適用した具体例2における強化学習の結果を示す図である。
【発明を実施するための形態】
【0010】
以下、本実施の形態について図面を参照して詳細に説明する。本明細書における課題及び実施の形態は一例であり、本願の権利範囲を限定するものではない。特に、記載の表現が異なっていたとしても技術的に同等であれば、異なる表現であっても本願の技術を適用可能であり、権利範囲を限定するものではない。そして、各実施の形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

富士通株式会社
半導体装置
1日前
富士通株式会社
行列演算回路
11日前
富士通株式会社
周波数変換器
14日前
富士通株式会社
半導体デバイス
1日前
富士通株式会社
メッシュ微細化
2日前
富士通株式会社
演算器及び演算方法
2日前
富士通株式会社
冷却装置及び電子機器
11日前
富士通株式会社
アレイアンテナモジュール
3日前
富士通株式会社
基板及びこれを備えた電子装置
3日前
富士通株式会社
演算処理装置及び演算処理方法
22日前
富士通株式会社
通信制御装置及び移動中継装置
8日前
富士通株式会社
動的多次元メディアコンテンツ投影
21日前
富士通株式会社
異常予測方法および異常予測プログラム
21日前
富士通株式会社
管理装置、管理方法、および管理プログラム
9日前
富士通株式会社
交通シミュレーションのための方法および装置
21日前
富士通株式会社
予測プログラム、予測方法および情報処理装置
23日前
富士通株式会社
シストリック型の演算アレイ装置及び制御方法
23日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
7日前
富士通株式会社
演算装置、情報処理装置及び演算装置の制御方法
23日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
1日前
富士通株式会社
キャッシュ装置およびキャッシュ装置の制御方法
1日前
富士通株式会社
制御プログラム、制御方法、および情報処理装置
9日前
富士通株式会社
異常検出プログラム、異常検出方法及び情報処理装置
21日前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
1日前
富士通株式会社
施策特定プログラム、施策特定方法および情報処理装置
7日前
富士通株式会社
表示制御プログラム、表示制御方法および情報処理装置
3日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
7日前
富士通株式会社
施策特定プログラム、施策特定方法および情報処理装置
21日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
1日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
2日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
7日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
14日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
14日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
2日前
富士通株式会社
データ生成プログラム、データ生成装置、及びデータ生成方法
9日前
富士通株式会社
タスクチューニングプログラムおよびタスクチューニング方法
2日前
続きを見る