特許ウォッチ

公開番号2025082192
公報種別公開特許公報(A)
公開日2025-05-28
出願番号2023195501
出願日2023-11-16
発明の名称強化学習プログラム、強化学習方法および情報処理装置
出願人富士通株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06N 20/00 20190101AFI20250521BHJP(計算;計数)
要約【課題】方策間の学習進捗の不均衡が増大することを抑止する。
【解決手段】実施形態の強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が0に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【選択図】図1
特許請求の範囲【請求項１】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が０に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
続きを表示（約 830 文字）【請求項２】
前記設定する処理は、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方を求め、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方に基づき前記方策ごとの学習率を設定する、
ことを特徴とする請求項１に記載の強化学習プログラム。
【請求項３】
前記到達状態は、前記複数のエージェントの経験がナッシュ均衡となる状態である、
ことを特徴とする請求項１に記載の強化学習プログラム。
【請求項４】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が０に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータが実行することを特徴とする強化学習方法。
【請求項５】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が０に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理を実行する制御部を含むことを特徴とする情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明の実施形態は、強化学習プログラム、強化学習方法および情報処理装置に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
従来、エージェント同士が継続的に対戦（セルフプレイ）しながら学習することにより、人間やルール等のエキスパートとの対戦では得られない経験を蓄積することで、より高い性能のエージェントを獲得するセルフプレイ強化学習（以下、強化学習）が知られている。このような強化学習には、囲碁・将棋等の対戦型ゲームにおいて、数多くの事例がある。
【０００３】
基本的なセルフプレイにおいては、２つ以上のエージェントに対して同じ方策（Policy）を割り当て、全てのエージェントが同一の方策関数によって行動し、経験を蓄積することが一般的である。この方式は、２つ以上のエージェントが同一の環境条件下で行動することを前提としており、エージェントによって状態遷移モデルや報酬関数が異なることを想定していない。従って、囲碁や将棋などの概ね対称性が仮定できる環境において適用できる。
【０００４】
これに対し、エージェントによって状態遷移モデルや報酬関数が異なる、対称性が仮定できない環境（例:かくれんぼ）においては、原則として同じ環境条件を共有するエージェントごとに、それぞれ方策を割り当てることとなる。しかし、対称性が仮定できない環境では、一般に方策ごとの学習難易度も異なる。このため、対称性が仮定できない環境では、セルフプレイを実施すると方策ごとに学習進捗に著しい差が生じて学習が非効率になるほか、ある方策が別の方策にとっての有益な経験蓄積を阻害し、それ以上の学習が見込めなくなる可能性がある。例えば、かくれんぼの場合、隠れる側があまりに優秀で鬼が全く見つけることができないと、鬼はどのような場所を捜索するのが良いかを学習する機会が失われる。
【０００５】
強化学習において生じるこのような学習の不均衡性に対し、ＷｏＬＦ（Win or Learn Fast）と呼ばれるパラダイムが知られている。このＷｏＬＦでは、より学習が進捗している方策の学習率を定数倍（＜１）し、他の方策の進捗が追いつくまで遅延させるというものが知られている。
【先行技術文献】
【特許文献】
【０００６】
特開２０１９－２１１８０６号公報
特開２０２２－１７６８０８号公報
【非特許文献】
【０００７】
Michael Bowling, Manuela Veloso, Rational and Convergent Learning in Stochastic Games
Dino Stephen Ratcliffe, Katja Hofmann, Sam Devlin, Win or Learn Fast Proximal Policy Optimisation
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、上記の従来技術では、学習がより進捗している方策の学習率を定数倍するものであるため、どの程度進捗の不均衡が大きいかを考慮しておらず、過少又は過大に学習を遅延させてしまうという問題がある。そして、このように各方策の学習を過少又は過大に遅延させてしまうと、学習処理の増大を招くこととなる。
【０００９】
１つの側面では、方策間の学習進捗の不均衡が増大することを抑止できる強化学習プログラム、強化学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
１つ案では、強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が０に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【発明の効果】
（【００１１】以降は省略されています）

関連特許