TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024077066
公報種別公開特許公報(A)
公開日2024-06-07
出願番号2022188881
出願日2022-11-28
発明の名称情報処理プログラム、情報処理方法及び情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20240531BHJP(計算;計数)
要約【課題】効率良く安定した学習を実行する情報処理プログラム、情報処理方法及び情報処理装置を提供する。
【解決手段】機械学習モデルを用いて所定環境におけるエージェントの経験を示す経験データを取得する第1探索処理と、第1探索処理で得られた経験データを基に機械学習モデルにおけるパラメータを更新する第1学習処理とを同期させた同期学習を所定時間実行し、同期学習で得られた最終的な重みを初期値として、機械学習モデルを用いて経験データを取得する第2探索処理と、第2探索処理で得られた経験データを基に機械学習モデルにおけるパラメータを更新する第2学習処理とを非同期で行う非同期学習を実行して機械学習モデルの学習を完了する処理をコンピュータに実行させる。
【選択図】図1
特許請求の範囲【請求項1】
環境の情報を入力としてエージェントの行動の情報を出力する機械学習モデルを用いて所定環境におけるエージェントの経験を示す経験データを取得する第1探索処理と、前記第1探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第1学習処理とを同期させた同期学習を所定時間実行し、
前記同期学習で得られた最終的な重みを初期値として、前記機械学習モデルを用いて経験データを取得する第2探索処理と、前記第2探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第2学習処理とを非同期で行う非同期学習を実行して前記機械学習モデルの学習を完了する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
続きを表示(約 1,400 文字)【請求項2】
前記同期学習において、前記第1学習処理によるパラメータの更新が行われると、更新されたパラメータを用いて前記第1探索処理を実行し、前記第1探索処理で経験データが新たに得られると、新たに得られた経験データを用いて前記第1学習処理を実行することを繰りかえす処理を前記コンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記非同期学習において、前記第2学習処理とは独立させて前記第2学習処理により更新されたパラメータを用いて前記第2探索処理を実行し、前記第2探索処理とは独立させて前記第2探索処理で新たに得られた経験データを用いて前記第2学習処理を実行することを繰り返す処理を前記コンピュータに実行させることを特徴とする請求項2に記載の情報処理プログラム。
【請求項4】
前記所定時間は、前記同期学習を用いずに前記非同期学習により前記機械学習モデルの学習を行った場合と、前記同期学習及び前記非同期学習により前記機械学習モデルの学習を行った場合とで、同じ推論精度に前記機械学習モデルが達するまでの第1時間差と、前記同期学習と前記非同期学習とで、同じ回数の学習処理が完了するまでの第2時間差とを基に決定されることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
前記所定時間は、前記機械学習モデルの学習を完了するまでの時間の1割以下であることを特徴とする請求項1に記載の情報処理プログラム。
【請求項6】
情報処理装置が、
環境の情報を入力としてエージェントの行動の情報を出力する機械学習モデルを用いて所定環境におけるエージェントの経験を示す経験データを取得する第1探索処理と、前記第1探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第1学習処理とを同期させた同期学習を所定時間実行し、
前記同期学習で得られた最終的な重みを初期値として、前記機械学習モデルを用いて経験データを取得する第2探索処理と、前記第2探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第2学習処理とを非同期で行う非同期学習を実行して前記機械学習モデルの学習を完了する
処理を実行することを特徴とする情報処理方法。
【請求項7】
環境の情報を入力としてエージェントの行動の情報を出力する機械学習モデルと、
前記機械学習モデルを用いて与えられた環境におけるエージェントの経験を示す経験データを取得するデータ生成部と、
所定環境における経験データを取得する第1探索処理を前記データ生成部に実行させ、前記第1探索処理により取得された経験データを基に前記機械学習モデルにおけるパラメータを更新する第1学習処理とを同期させた同期学習を所定時間実行する同期分散強化学習実行部と、
前記同期分散強化学習実行部により得られた最終的な重みを初期値として、前記所定環境における経験データを取得する第2探索処理を前記データ生成部に実行させ、前記第2探索処理により取得された経験データを基に前記機械学習モデルにおけるパラメータを更新する第2学習処理とを非同期で行う非同期学習を実行して前記機械学習モデルの学習を完了する非同期強化学習実行部と
を備えたことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理方法及び情報処理装置に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
近年、電子ゲームにおけるAI(Artificial Intelligence:人工知能)、車両の自動運転制御、ロボットの自立制御といった様々な分野で、強化学習と呼ばれる機械学習の導入が盛んである。強化学習では、与えられた環境の中においてエージェントと呼ばれる動作主体による行動に対して与えられる報酬を最大化するように学習が行われる。
【0003】
さらに、強化学習を高速に実行するため、複数のCPUコアやGPUを有効活用する分散強化学習が存在する。多くの分散強化学習のアルゴリズムは、探索と学習を非同期で行うことでスループットを高めている。
【0004】
なお、分散強化学習の技術として、同期的に分散強化学習を実行して得られる方策モデルを用いて、強化学習における環境を初期化して強化学習を実行する技術が提案されている。またサブシステム単位で強化学習を用いて予備学習を実行し、各エージェントが機械学習モデルの評価を管理エージェントに送信して、複数のエージェントで同時に全体学習を実行する技術が提案されている。また、エージェント毎及びエージェント全体について事前学習を行い、学習済みのエージェントの行動価値関数に基づいて実制御を実行する技術が提案されている。
【先行技術文献】
【特許文献】
【0005】
国際公開第2022/004601号
特開2019-46422号公報
国際公開第2022/137574号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の分散強化学習の技術では、非同期で経験収集と学習を行う関係で、経験の収集に用いる方策と学習対象の方策のパラメータが異なっていることがあり、原理的に不安定である。そのため、従来分散強化学習の技術では、学習中の方策が獲得し得る平均収益が1ステップごとに極端に上下するなど、学習が不安定になるおそれがある。
【0007】
開示の技術は、上記に鑑みてなされたものであって、効率良く安定した学習を実行する情報処理プログラム、情報処理方法及び情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本願の開示する情報処理プログラム、情報処理方法及び情報処理装置の一つの態様において、環境の情報を入力としてエージェントの行動の情報を出力する機械学習モデルを用いて所定環境におけるエージェントの経験を示す経験データを取得する第1探索処理と、前記第1探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第1学習処理とを同期させた同期学習を所定時間実行し、前記同期学習で得られた最終的な重みを初期値として、前記機械学習モデルを用いて経験データを取得する第2探索処理と、前記第2探索処理で得られた経験データを基に前記機械学習モデルにおけるパラメータを更新する第2学習処理とを非同期で行う非同期学習を実行して前記機械学習モデルの学習を完了する処理をコンピュータに実行させる。
【発明の効果】
【0009】
1つの側面では、本発明は、効率良く安定した学習を実行することができる。
【図面の簡単な説明】
【0010】
図1は、実施例に係る機械学習システムのブロック図である。
図2は、実施例に係る機械学習の概念図である。
図3は、実施例に係る機械学習システムによる機械学習処理のフローチャートである。
図4は、同期分散強化学習処理のフローチャートである。
図5は、同期分散強化学習処理における探索処理のフローチャートである。
図6は、同期分散強化学習処理における学習処理のフローチャートである。
図7は、非同期分散強化学習処理のフローチャートである。
図8は、非同期分散強化学習処理における探索処理のフローチャートである。
図9は、非同期分散強化学習処理のフローチャートである。
図10は、実施例に係る機械学習システムのハードウェア構成図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
光通信装置および伝送制御方法
6日前
富士通株式会社
情報処理装置及び情報処理方法
11日前
富士通株式会社
足位置の補正方法、装置及び記憶媒体
14日前
富士通株式会社
分散学習プログラム、方法、及び装置
20日前
富士通株式会社
表示制御方法及び表示制御プログラム
20日前
富士通株式会社
情報処理プログラムおよび情報処理装置
26日前
富士通株式会社
プログラム、算出方法および情報処理装置
27日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
11日前
富士通株式会社
類似度判定方法および類似度判定プログラム
6日前
富士通株式会社
制御方法、制御プログラムおよび情報処理装置
13日前
富士通株式会社
特定プログラム、特定方法および情報処理装置
11日前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
7日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
25日前
富士通株式会社
署名支援プログラム、署名支援方法、署名支援装置
7日前
富士通株式会社
データ処理装置、データ処理方法およびプログラム
11日前
富士通株式会社
基地局装置、無線通信システム、及び通信制御方法
25日前
富士通株式会社
グラフェン光素子及びグラフェン光素子の製造方法
21日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
12日前
富士通株式会社
プロセッサ、命令実行プログラムおよび情報処理装置
14日前
富士通株式会社
機械学習プログラム、機械学習方法及び機械学習装置
25日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
11日前
富士通株式会社
取引処理プログラム、取引処理方法および情報処理装置
5日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
12日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
19日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
26日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
26日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
11日前
富士通株式会社
演算処理プログラム、演算処理方法および情報処理装置
11日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
26日前
富士通株式会社
構造解析プログラム、構造解析方法および情報処理装置
18日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
25日前
富士通株式会社
設計支援プログラム、設計支援方法および設計支援装置
19日前
富士通株式会社
広告管理プログラム、広告管理方法、および情報処理装置
6日前
富士通株式会社
温度調整プログラム、データ処理装置及びデータ処理方法
7日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
7日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
7日前
続きを見る