TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025119754
公報種別
公開特許公報(A)
公開日
2025-08-15
出願番号
2024014734
出願日
2024-02-02
発明の名称
学習プログラム、学習方法、及び情報処理装置
出願人
富士通株式会社
代理人
個人
主分類
G06N
3/092 20230101AFI20250807BHJP(計算;計数)
要約
【課題】マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【解決手段】情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させる。
【選択図】図2
特許請求の範囲
【請求項1】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、前記情報処理装置に、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
処理を実行させること、を特徴とする学習プログラム。
続きを表示(約 1,100 文字)
【請求項2】
前記第1のパラメータは、前記重み付けに基づく、前記学習済みモデルのエージェントのパラメータを用いた加重平均の値であること、
を特徴とする請求項1の学習プログラム。
【請求項3】
前記重みづけは、前記学習済みモデルのエージェントに関する情報と、前記学習モデルのエージェントに関する情報との相関関係によって行われること、
を特徴とする請求項1の学習プログラム。
【請求項4】
前記学習済みモデルのエージェントに関する情報は、前記学習済みモデルの学習中での前記学習済みモデルのエージェントの状態空間に関する情報であり、前記学習モデルのエージェントに関する情報は、前記学習プログラムを実行する環境での、所定の制御を用いた学習前での前記学習モデルのエージェントの状態空間に関する情報であること、
を特徴とする請求項3の学習プログラム。
【請求項5】
前記第2のパラメータは前記第1のパラメータに所定のベクトルを付与し、前記学習モデルのバイアス項を0にしたパラメータであること、
を特徴とする請求項1の学習プログラム。
【請求項6】
前記学習モデルは、初回の前記学習モデル更新時に、全く活性化していないニューロンを初期化すること、
を特徴とする請求項1の学習プログラム。
【請求項7】
前記学習モデルは、学習中において、前記学習モデルのパラメータに付与する前記所定のベクトルの分散を、前記学習モデルが更新する度に小さくしていくこと、
を特徴とする請求項1の学習プログラム。
【請求項8】
学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムを記憶する記憶部と、
前記学習プログラムを実行する制御部と、を有し、
前記制御部が前記学習プログラムを実行することにより、前記制御部が、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定すること、
を特徴とする情報処理装置。
【請求項9】
情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習方法において、
前記学習済みモデルのパラメータに対し、所定の方法で重み付けを行うことで第1のパラメータを決定し、
前記学習モデルの初期パラメータの値である第2のパラメータを、前記第1のパラメータに基づいて設定する、
こと、を特徴とする学習方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は学習プログラム、学習方法、及び情報処理装置に関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
深層学習において、転移学習は一般的な学習方法であり、例えば、学習時間を短縮することができ、効率的な学習を行うことができる。そのため、深層強化学習においても同様に転移学習を用いて効率的に学習を行うことが期待されている。
【先行技術文献】
【非特許文献】
【0003】
Haobin Shi, Jingchen Li, Jiahui Mao, and Kao-Shing Hwang, Lateral Transfer Learning for Multiagent Reinforcement Learning IEEE Transactions on Cybernetics, Volume53, Issue3, MARCH 2023
【発明の概要】
【発明が解決しようとする課題】
【0004】
マルチエージェント深層強化学習等の深層強化学習において転移学習を用いる場合、パラメータの再利用等の要因によって、学習時間が短縮できない場合がある。そのため、深層強化学習においても転移学習を効率的に用いるための手段が求められている。
【0005】
また、学習時間を短縮する方法として、非特許文献1に記載の方法がある。非特許文献1では、転移元(以降ソースと記載する場合がある。)のモデルからエージェントをクラスタリングし、転移先(以降ターゲットと記載する場合がある。)のタスクに近いクラスタをターゲットエージェントに割り当てる方法である。しかし、この方法では転移学習を繰り返すごとにモデルが複雑化し、モデルサイズが大きくなってしまう場合がある。そのため、モデルサイズの巨大化によって学習時間などに悪影響を及ぼす可能性がある。そのため、転移学習を深層強化学習に対して効率的に用いることができているとはいえない。
【0006】
開示の技術は、上記を鑑みてなされたものであって、深層強化学習において、転移学習を効率的に用いることを目的とする。
【課題を解決するための手段】
【0007】
1つの側面では、情報処理装置によって実行される学習済みモデルを利用する学習モデルを用いて、学習を行う学習プログラムにおいて、情報処理装置に、学習済みモデルのパラメータに対し、所定の方法で重みづけを行うことで第1のパラメータを決定し、学習モデルの初期パラメータの値である第2のパラメータを、第1のパラメータに基づいて設定する、処理を実行させること、を特徴とする学習プログラム、を提供する。
【発明の効果】
【0008】
深層強化学習において、転移学習を効率的に用いることができる。
【図面の簡単な説明】
【0009】
図1は、実施の形態における情報処理装置の一例を示す図である。
図2は、実施の形態における学習モデルの出力過程の一例を示す図である。
図3は、実施の形態における学習プログラムを実行する情報処理装置の一例を示す図である。
図4は、実施の形態を適用した具体例1における適用環境の模式図である。
図5は、実施の形態を適用した具体例1における強化学習の結果を示す図である。
図6は、実施の形態を適用した具体例2における適用環境を示した図である。
図7は、実施の形態を適用した具体例2における強化学習の結果を示す図である。
【発明を実施するための形態】
【0010】
以下、本実施の形態について図面を参照して詳細に説明する。本明細書における課題及び実施の形態は一例であり、本願の権利範囲を限定するものではない。特に、記載の表現が異なっていたとしても技術的に同等であれば、異なる表現であっても本願の技術を適用可能であり、権利範囲を限定するものではない。そして、各実施の形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
医用画像処理方法
1か月前
富士通株式会社
ハイブリッド光増幅器
16日前
富士通株式会社
転倒検出方法及び装置
1か月前
富士通株式会社
量子デバイスの製造方法
28日前
富士通株式会社
データセット特徴タイプ推論
2か月前
富士通株式会社
信号相関量の確定装置と方法
2か月前
富士通株式会社
制御装置及び基地局制御方法
1か月前
富士通株式会社
マーキング方法及びプログラム
1か月前
富士通株式会社
量子ビットデバイスの製造方法
1か月前
富士通株式会社
光伝送装置および光伝送システム
2か月前
富士通株式会社
双方向光リンクの異常モニタリング
2か月前
富士通株式会社
ポイントクラウドレジストレーション
28日前
富士通株式会社
バイアスのための生成人工知能の検査
2か月前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
富士通株式会社
視線誘導方法および視線誘導プログラム
23日前
富士通株式会社
制御プログラム、制御方法及び決済装置
2か月前
富士通株式会社
情報処理プログラムおよび情報処理方法
2か月前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
富士通株式会社
大規模言語モデルを使用したデータ調整
2か月前
富士通株式会社
選択プログラム、選択装置、及び選択方法
2か月前
富士通株式会社
量子デバイス及び量子デバイスの制御方法
1か月前
富士通株式会社
無線アクセスネットワークプロビジョニング
2か月前
富士通株式会社
演算システムおよび演算システムの制御方法
6日前
富士通株式会社
生成人工知能を使用したデータセット符号化
9日前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
2か月前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
2か月前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
2か月前
富士通株式会社
学習プログラム、学習方法および情報処理装置
1か月前
富士通株式会社
描画プログラム、描画方法および情報処理装置
1か月前
富士通株式会社
画像を記述する構造化テキストを生成する方法
22日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
21日前
富士通株式会社
学習プログラム、学習方法、及び情報処理装置
1か月前
富士通株式会社
推定プログラム、推定方法および情報処理装置
27日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
2か月前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
1か月前
続きを見る
他の特許を見る