TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025082192
公報種別公開特許公報(A)
公開日2025-05-28
出願番号2023195501
出願日2023-11-16
発明の名称強化学習プログラム、強化学習方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20250521BHJP(計算;計数)
要約【課題】方策間の学習進捗の不均衡が増大することを抑止する。
【解決手段】実施形態の強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が0に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【選択図】図1
特許請求の範囲【請求項1】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
続きを表示(約 830 文字)【請求項2】
前記設定する処理は、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方を求め、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方に基づき前記方策ごとの学習率を設定する、
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項3】
前記到達状態は、前記複数のエージェントの経験がナッシュ均衡となる状態である、
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項4】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータが実行することを特徴とする強化学習方法。
【請求項5】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理を実行する制御部を含むことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明の実施形態は、強化学習プログラム、強化学習方法および情報処理装置に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
従来、エージェント同士が継続的に対戦(セルフプレイ)しながら学習することにより、人間やルール等のエキスパートとの対戦では得られない経験を蓄積することで、より高い性能のエージェントを獲得するセルフプレイ強化学習(以下、強化学習)が知られている。このような強化学習には、囲碁・将棋等の対戦型ゲームにおいて、数多くの事例がある。
【0003】
基本的なセルフプレイにおいては、2つ以上のエージェントに対して同じ方策(Policy)を割り当て、全てのエージェントが同一の方策関数によって行動し、経験を蓄積することが一般的である。この方式は、2つ以上のエージェントが同一の環境条件下で行動することを前提としており、エージェントによって状態遷移モデルや報酬関数が異なることを想定していない。従って、囲碁や将棋などの概ね対称性が仮定できる環境において適用できる。
【0004】
これに対し、エージェントによって状態遷移モデルや報酬関数が異なる、対称性が仮定できない環境(例:かくれんぼ)においては、原則として同じ環境条件を共有するエージェントごとに、それぞれ方策を割り当てることとなる。しかし、対称性が仮定できない環境では、一般に方策ごとの学習難易度も異なる。このため、対称性が仮定できない環境では、セルフプレイを実施すると方策ごとに学習進捗に著しい差が生じて学習が非効率になるほか、ある方策が別の方策にとっての有益な経験蓄積を阻害し、それ以上の学習が見込めなくなる可能性がある。例えば、かくれんぼの場合、隠れる側があまりに優秀で鬼が全く見つけることができないと、鬼はどのような場所を捜索するのが良いかを学習する機会が失われる。
【0005】
強化学習において生じるこのような学習の不均衡性に対し、WoLF(Win or Learn Fast)と呼ばれるパラダイムが知られている。このWoLFでは、より学習が進捗している方策の学習率を定数倍(<1)し、他の方策の進捗が追いつくまで遅延させるというものが知られている。
【先行技術文献】
【特許文献】
【0006】
特開2019-211806号公報
特開2022-176808号公報
【非特許文献】
【0007】
Michael Bowling, Manuela Veloso, Rational and Convergent Learning in Stochastic Games
Dino Stephen Ratcliffe, Katja Hofmann, Sam Devlin, Win or Learn Fast Proximal Policy Optimisation
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の従来技術では、学習がより進捗している方策の学習率を定数倍するものであるため、どの程度進捗の不均衡が大きいかを考慮しておらず、過少又は過大に学習を遅延させてしまうという問題がある。そして、このように各方策の学習を過少又は過大に遅延させてしまうと、学習処理の増大を招くこととなる。
【0009】
1つの側面では、方策間の学習進捗の不均衡が増大することを抑止できる強化学習プログラム、強化学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
1つ案では、強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が0に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
光伝送装置
5日前
富士通株式会社
車線区分装置及び方法
1か月前
富士通株式会社
量子デバイス上の誤り訂正
20日前
富士通株式会社
商品状態検出装置及び方法
1か月前
富士通株式会社
商品棚の検出装置及び方法
1か月前
富士通株式会社
キャッシュメモリ搭載演算装置
25日前
富士通株式会社
光受信装置及び光伝送システム
12日前
富士通株式会社
伝送路監視装置及び伝送路監視方法
1か月前
富士通株式会社
人工知能ベースのサステナブル材料設計
15日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
1か月前
富士通株式会社
推定プログラム、推定方法及び情報処理装置
21日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
1か月前
富士通株式会社
光伝送装置、光伝送方法、及び光伝送システム
21日前
富士通株式会社
因果関係分析方法及び因果関係分析プログラム
7日前
富士通株式会社
機械学習アプローチを用いたラマンポンプ設計
26日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
1か月前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
1か月前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
15日前
富士通株式会社
情報処理プログラム、情報処理方法、および管理装置
1か月前
富士通株式会社
ログ管理装置、ログ管理方法およびログ管理プログラム
13日前
富士通株式会社
メモリ駆動装置、光伝送システム、及びメモリ駆動方法
11日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
13日前
富士通株式会社
強化学習プログラム、強化学習方法および情報処理装置
6日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
1か月前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
1か月前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
1か月前
富士通株式会社
業務管理プログラム、業務管理方法、および情報処理装置
1か月前
富士通株式会社
分散シフト・ファイバーに関する前方ラマン・ポンピング
15日前
富士通株式会社
光パワー制御装置、光パワー制御方法および光伝送システム
26日前
富士通株式会社
モデル生成プログラム、モデル生成方法および情報処理装置
22日前
富士通株式会社
量子コンピューティング・システム・モデルのトレーニング
20日前
富士通株式会社
把持期間判定プログラム,把持期間判定方法及び情報処理装置
1か月前
富士通株式会社
光伝送路監視装置、光伝送路監視方法、および光伝送システム
20日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
1か月前
富士通株式会社
光伝送路監視装置、光伝送路監視方法、および光伝送路監視システム
20日前
続きを見る