TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025082192
公報種別
公開特許公報(A)
公開日
2025-05-28
出願番号
2023195501
出願日
2023-11-16
発明の名称
強化学習プログラム、強化学習方法および情報処理装置
出願人
富士通株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06N
20/00 20190101AFI20250521BHJP(計算;計数)
要約
【課題】方策間の学習進捗の不均衡が増大することを抑止する。
【解決手段】実施形態の強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が0に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【選択図】図1
特許請求の範囲
【請求項1】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータに実行させることを特徴とする強化学習プログラム。
続きを表示(約 830 文字)
【請求項2】
前記設定する処理は、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方を求め、前記進捗度の移動平均および前記進捗度の微分値の移動平均の少なくとも一方に基づき前記方策ごとの学習率を設定する、
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項3】
前記到達状態は、前記複数のエージェントの経験がナッシュ均衡となる状態である、
ことを特徴とする請求項1に記載の強化学習プログラム。
【請求項4】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理をコンピュータが実行することを特徴とする強化学習方法。
【請求項5】
エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づく前記エージェントそれぞれの経験を取得し、
前記エピソードごとに、前記方策ごとの、前記エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出し、
前記エピソードごとに、前記方策ごとに算出された進捗度に基づき、当該進捗度が0に近づくように前記方策ごとの学習率を設定し、
前記エピソードごとに、前記方策ごとに設定された学習率に基づき当該方策それぞれのパラメータを更新する、
処理を実行する制御部を含むことを特徴とする情報処理装置。
発明の詳細な説明
【技術分野】
【0001】
本発明の実施形態は、強化学習プログラム、強化学習方法および情報処理装置に関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
従来、エージェント同士が継続的に対戦(セルフプレイ)しながら学習することにより、人間やルール等のエキスパートとの対戦では得られない経験を蓄積することで、より高い性能のエージェントを獲得するセルフプレイ強化学習(以下、強化学習)が知られている。このような強化学習には、囲碁・将棋等の対戦型ゲームにおいて、数多くの事例がある。
【0003】
基本的なセルフプレイにおいては、2つ以上のエージェントに対して同じ方策(Policy)を割り当て、全てのエージェントが同一の方策関数によって行動し、経験を蓄積することが一般的である。この方式は、2つ以上のエージェントが同一の環境条件下で行動することを前提としており、エージェントによって状態遷移モデルや報酬関数が異なることを想定していない。従って、囲碁や将棋などの概ね対称性が仮定できる環境において適用できる。
【0004】
これに対し、エージェントによって状態遷移モデルや報酬関数が異なる、対称性が仮定できない環境(例:かくれんぼ)においては、原則として同じ環境条件を共有するエージェントごとに、それぞれ方策を割り当てることとなる。しかし、対称性が仮定できない環境では、一般に方策ごとの学習難易度も異なる。このため、対称性が仮定できない環境では、セルフプレイを実施すると方策ごとに学習進捗に著しい差が生じて学習が非効率になるほか、ある方策が別の方策にとっての有益な経験蓄積を阻害し、それ以上の学習が見込めなくなる可能性がある。例えば、かくれんぼの場合、隠れる側があまりに優秀で鬼が全く見つけることができないと、鬼はどのような場所を捜索するのが良いかを学習する機会が失われる。
【0005】
強化学習において生じるこのような学習の不均衡性に対し、WoLF(Win or Learn Fast)と呼ばれるパラダイムが知られている。このWoLFでは、より学習が進捗している方策の学習率を定数倍(<1)し、他の方策の進捗が追いつくまで遅延させるというものが知られている。
【先行技術文献】
【特許文献】
【0006】
特開2019-211806号公報
特開2022-176808号公報
【非特許文献】
【0007】
Michael Bowling, Manuela Veloso, Rational and Convergent Learning in Stochastic Games
Dino Stephen Ratcliffe, Katja Hofmann, Sam Devlin, Win or Learn Fast Proximal Policy Optimisation
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の従来技術では、学習がより進捗している方策の学習率を定数倍するものであるため、どの程度進捗の不均衡が大きいかを考慮しておらず、過少又は過大に学習を遅延させてしまうという問題がある。そして、このように各方策の学習を過少又は過大に遅延させてしまうと、学習処理の増大を招くこととなる。
【0009】
1つの側面では、方策間の学習進捗の不均衡が増大することを抑止できる強化学習プログラム、強化学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
1つ案では、強化学習プログラムは、取得する処理と、算出する処理と、設定する処理と、更新する処理とをコンピュータに実行させる。取得する処理は、エピソードごとに、所定の環境下における、複数のエージェントそれぞれに割り当てられた方策に基づくエージェントそれぞれの経験を取得する。算出する処理は、エピソードごとに、方策ごとの、エージェントの経験について、所定の到達状態とのずれを示す進捗度を算出する。設定する処理は、エピソードごとに、方策ごとに算出された進捗度に基づき、進捗度が0に近づくように方策ごとの学習率を設定する。更新する処理は、エピソードごとに、方策ごとに設定された学習率に基づき、方策それぞれのパラメータを更新する。
【発明の効果】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
光伝送装置および光伝送システム
今日
富士通株式会社
双方向光リンクの異常モニタリング
2日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
2日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
6日前
富士通株式会社
情報処理プログラム、情報処理方法、及び情報処理装置
今日
富士通株式会社
光伝送路特性推定装置、光伝送システム、及び光伝送路特性推定方法
今日
富士通株式会社
スタート支援装置、スタート支援方法、およびスタート支援プログラム
今日
個人
対話装置
20日前
個人
情報処理装置
20日前
個人
物品給付年金
1か月前
個人
政治のAI化
1か月前
個人
情報処理装置
16日前
個人
記入設定プラグイン
8日前
個人
プラグインホームページ
1か月前
個人
不動産売買システム
今日
個人
情報入力装置
20日前
個人
物価スライド機能付生命保険
20日前
個人
マイホーム非電子入札システム
20日前
個人
全アルゴリズム対応型プログラム
1か月前
株式会社BONNOU
管理装置
13日前
キヤノン株式会社
画像処理装置
1か月前
株式会社東芝
電子機器
1日前
個人
決済手数料0%のクレジットカード
23日前
サクサ株式会社
カードの制動構造
22日前
株式会社ワコム
電子消去具
今日
ホシデン株式会社
タッチ入力装置
今日
大同特殊鋼株式会社
輝線検出方法
1か月前
シャープ株式会社
電子機器
1か月前
株式会社ライト
情報処理装置
13日前
パテントフレア株式会社
交差型バーコード
1か月前
村田機械株式会社
割当補助システム
26日前
トヨタ自動車株式会社
情報処理装置
26日前
株式会社アジラ
データ転送システム
1か月前
トヨタ自動車株式会社
欠け検査装置
1か月前
ミサワホーム株式会社
宅配ロッカー
1か月前
トヨタ自動車株式会社
管理装置
1か月前
続きを見る
他の特許を見る