TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025035871
公報種別
公開特許公報(A)
公開日
2025-03-14
出願番号
2023143184
出願日
2023-09-04
発明の名称
学習プログラム、情報処理装置および学習方法
出願人
富士通株式会社
代理人
弁理士法人酒井国際特許事務所
主分類
G06N
20/00 20190101AFI20250307BHJP(計算;計数)
要約
【課題】制約条件付きマルチエージェント強化学習において、システム全体の制約条件を考慮した学習を行う。
【解決手段】情報処理装置1は、複数のエージェントが存在する制約条件付き制御問題において、第1のエージェントについて、複数のエージェントの関係性に基づいて、行動する際に用いる状態の優先度を決定し、状態の優先度に応じて、第1の方策パラメータに入力する値を選択し、値が入力された第1の方策パラメータを用いて、所定の更新順に従って、第1のエージェントの制約条件に対する第1の影響度と、前の順となる第2のエージェントが更新した第2の方策パラメータによる第2の影響度に基づいた、システム全体の制約条件に対する第3の影響度と、を決定し、第1の影響度と第3の影響度とに応じた、制約条件を満たす方策パラメータの範囲を決定する。かかる情報処理装置1の処理は、例えば、基地局(BS)における停波制御に適用できる。
【選択図】図2
特許請求の範囲
【請求項1】
複数のエージェントが存在する制約条件付き制御問題において、
前記複数のエージェントの中の第1のエージェントについて、前記複数のエージェントの関係性に基づいて、行動する際に用いる状態の優先度を決定し、
前記第1のエージェントについて、前記状態の優先度に応じて、第1の方策パラメータに入力する値として真値または代替値を選択し、
前記第1のエージェントについて、前記値が入力された前記第1の方策パラメータを用いて、所定の更新順に従って、前記第1のエージェントの制約条件に対する第1の影響度と、更新順の前の順となる第2のエージェントが更新した第2の方策パラメータによる第2の影響度に基づいた、システム全体の制約条件に対する第3の影響度と、を決定し、
前記第1の影響度と前記第3の影響度とに応じた、制約条件を満たす方策パラメータの範囲を決定する
処理をコンピュータに実行させることを特徴とする学習プログラム。
続きを表示(約 1,400 文字)
【請求項2】
前記状態の優先度を決定する処理は、所定の決定木アルゴリズムを用いて、前記第1のエージェントについて、行動する際に用いる前記状態の優先度を決定する
ことを特徴とする請求項1に記載の学習プログラム。
【請求項3】
前記状態の優先度を決定する処理は、エージェント間の相関関係を用いて、前記第1のエージェントについて、行動する際に用いる前記状態の優先度を決定する
ことを特徴とする請求項1に記載の学習プログラム。
【請求項4】
前記真値または代替値を選択する処理は、前記第1のエージェントについて、決定された前記状態の優先度を、真値を与える状態の条件を示す閾値と比較し、前記入力する値として真値または代替値を選択する
ことを特徴とする請求項1に記載の学習プログラム。
【請求項5】
予測対象のエージェントについて、前記状態の優先度に応じて、状態に入力する値として他のエージェントから取得される真値または代替値を選択し、
前記値が入力された状態を学習済の方策に入力し、学習済の方策パラメータを用いて、前記予測対象のエージェントの行動を予測する
ことを特徴とする請求項1に記載の学習プログラム。
【請求項6】
複数のエージェントが存在する制約条件付き制御問題において、
前記複数のエージェントの中の第1のエージェントについて、前記複数のエージェントの関係性に基づいて、行動する際に用いる状態の優先度を決定する優先度決定部と、
前記第1のエージェントについて、前記状態の優先度に応じて、第1の方策パラメータに入力する値として真値または代替値を選択する選択部と、
前記第1のエージェントについて、前記選択部によって前記値が入力された前記第1の方策パラメータを用いて、所定の更新順に従って、前記第1のエージェントの制約条件に対する第1の影響度と、更新順の前の順となる第2のエージェントが更新した第2の方策パラメータによる第2の影響度に基づいた、システム全体の制約条件に対する第3の影響度と、を決定する第1の決定部と、
前記第1の影響度と前記第3の影響度とに応じた、制約条件を満たす方策パラメータの範囲を決定する第2の決定部と、
を有することを特徴とする情報処理装置。
【請求項7】
複数のエージェントが存在する制約条件付き制御問題において、
前記複数のエージェントの中の第1のエージェントについて、前記複数のエージェントの関係性に基づいて、行動する際に用いる状態の優先度を決定し、
前記第1のエージェントについて、前記状態の優先度に応じて、第1の方策パラメータに入力する値として真値または代替値を選択し、
前記第1のエージェントについて、前記値が入力された前記第1の方策パラメータを用いて、所定の更新順に従って、前記第1のエージェントの制約条件に対する第1の影響度と、更新順の前の順となる第2のエージェントが更新した第2の方策パラメータによる第2の影響度に基づいた、システム全体の制約条件に対する第3の影響度と、を決定し、
前記第1の影響度と前記第3の影響度とに応じた、制約条件を満たす方策パラメータの範囲を決定する
処理をコンピュータが実行することを特徴とする学習方法。
発明の詳細な説明
【技術分野】
【0001】
本発明は、学習プログラムなどに関する。
続きを表示(約 2,600 文字)
【背景技術】
【0002】
近年、複数のエージェントが共通の環境と相互作用し、逐次的に意思決定を行いながら共有する問題を解決するマルチエージェント強化学習(MARL:Multi-Agent Reinforcement Learning)が知られている。かかるマルチエージェント強化学習では、<1>エージェント数の増加に伴って、学習する行動空間の次元数が指数的に増加するという問題がある。また、<2>学習中および学習後の性能が保証されないという問題がある。すなわち、最終的な性能が、学習が終わるまでわからないという問題がある。
【0003】
ここで、複数のエージェントからなる制約条件付きのマルチエージェント強化学習において、全エージェントの共通の報酬を最大にする各エージェントの方策を、各エージェント固有の安全な制約条件を満たしながら学習する手法が開示されている(例えば、非特許文献1参照)。かかる手法では、エージェントごとに方策を学習することで、学習する行動空間の次元の指数的増加を回避することができる。すなわち、かかる手法では、エージェント数の増加に伴って、学習する行動空間の次元数が指数的に増加するという<1>の問題を回避することができる。
【先行技術文献】
【特許文献】
【0004】
特開2009-014300号公報
特開2020-080103号公報
米国特許出願公開第2021/0200163号明細書
【非特許文献】
【0005】
Gu,Shangding,et al.“Multi-agent constrained policy optimisation.” arXiv preprint arXiv:2110.02793(2021).
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の手法では、複数のエージェントの行動の結果に依存するようなシステム全体の制約条件を考慮した学習を行うことができないという問題がある。この結果、学習中および学習後の性能が保証されないという<2>の問題があるといえる。
【0007】
本発明は、1つの側面では、制約条件付きマルチエージェント強化学習において、システム全体の制約条件を考慮した学習を行うことを目的とする。
【課題を解決するための手段】
【0008】
1つの態様では、学習プログラムが、複数のエージェントが存在する制約条件付き制御問題において、前記複数のエージェントの中の第1のエージェントについて、前記複数のエージェントの関係性に基づいて、行動する際に用いる状態の優先度を決定し、前記第1のエージェントについて、前記状態の優先度に応じて、第1の方策パラメータに入力する値として真値または代替値を選択し、前記第1のエージェントについて、前記値が入力された前記第1の方策パラメータを用いて、所定の更新順に従って、前記第1のエージェントの制約条件に対する第1の影響度と、更新順の前の順となる第2のエージェントが更新した第2の方策パラメータによる第2の影響度に基づいた、システム全体の制約条件に対する第3の影響度と、を決定し、前記第1の影響度と前記第3の影響度とに応じた、制約条件を満たす方策パラメータの範囲を決定する、処理をコンピュータに実行させる。
【発明の効果】
【0009】
1実施態様によれば、複数のエージェントの行動の結果に依存するようなシステム全体の制約条件を考慮した学習を行うことができる。
【図面の簡単な説明】
【0010】
図1は、実施例に係る情報処理装置の機能構成の一例を示すブロック図である。
図2は、実施例に係る優先度情報の一例を示す図である。
図3は、実施例に係るマルチエージェント強化学習処理のイメージを示す図である。
図4Aは、実施例に係る学習処理の全体のフローチャートの一例を示す図(1)である。
図4Bは、実施例に係る学習処理の全体のフローチャートの一例を示す図(2)である。
図4Cは、実施例に係る学習処理の全体のフローチャートの一例を示す図(3)である。
図4Dは、実施例に係る学習処理の全体のフローチャートの一例を示す図(4)である。
図5は、実施例に係る予測処理の全体のフローチャートの一例を示す図である。
図6は、実施例に係るマルチエージェント強化学習を適用した一例を示す図である。
図7Aは、実施例に係る優先度決定の一例を示す図(1)である。
図7Bは、実施例に係る優先度決定の一例を示す図(2)である。
図8は、状態の優先度に従って一部の状態を代替値にする方法の一例を示す図である。
図9Aは、実施例に係るマルチエージェント強化学習の適用結果の一例を示す図(1)である。
図9Bは、実施例に係るマルチエージェント強化学習の適用結果の一例を示す図(2)である。
図10は、学習プログラムを実行するコンピュータの一例を示す図である。
図11は、マルチエージェント強化学習処理の参考例を示す図である。
図12Aは、システム全体の制約条件を考慮したマルチエージェント強化学習処理のイメージを示す図(1)である。
図12Bは、システム全体の制約条件を考慮したマルチエージェント強化学習処理のイメージを示す図(2)である。
図13Aは、システム全体の制約条件を考慮したマルチエージェント強化学習処理の全体のフローチャートの一例を示す図(1)である。
図13Bは、システム全体の制約条件を考慮したマルチエージェント強化学習処理の全体のフローチャートの一例を示す図(2)である。
図13Cは、システム全体の制約条件を考慮したマルチエージェント強化学習処理の全体のフローチャートの一例を示す図(3)である。
図14は、システム全体の制約条件を考慮したマルチエージェント強化学習処理の問題を説明する図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
電源装置
17日前
富士通株式会社
画像生成方法
23日前
富士通株式会社
冷却モジュール
25日前
富士通株式会社
車線区分装置及び方法
3日前
富士通株式会社
無線アクセス・ネットワーク調整
27日前
富士通株式会社
評価プログラム、方法、及び装置
23日前
富士通株式会社
人体のキーポイントの検出方法及び装置
1か月前
富士通株式会社
タスク特有のグラフセット解析及び視覚化
1か月前
富士通株式会社
情報処理装置,プログラムおよび制御方法
3日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
3日前
富士通株式会社
演算処理装置および演算処理装置の動作方法
1か月前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
18日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
23日前
富士通株式会社
方策学習装置、方策学習方法及び通信システム
18日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
25日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
24日前
富士通株式会社
ハイブリッド古典‐量子教師なしマルチクラス分類
1か月前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
24日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
1か月前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
3日前
富士通株式会社
業務管理プログラム、業務管理方法、および情報処理装置
10日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
4日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
23日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
4日前
富士通株式会社
半導体装置、無線通信装置、及び、半導体装置の製造方法
1か月前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
19日前
富士通株式会社
量子デバイスを用いた高次元データストリームにおける変化検出
1か月前
富士通株式会社
ニューロモルフィックコンピューティング回路、及び、制御方法
26日前
富士通株式会社
量子計算支援プログラム、量子計算支援方法、および情報処理装置
11日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
5日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
20日前
富士通株式会社
リソース割当て装置、リソース割当て方法、およびリソース割当てプログラム
17日前
富士通株式会社
基底エネルギー算出プログラム、基底エネルギー算出装置、および基底エネルギー算出方法
12日前
富士通株式会社
サイドリンクリソースの再選択方法及び装置
4日前
続きを見る
他の特許を見る