特許ウォッチ

公開番号2025056826
公報種別公開特許公報(A)
公開日2025-04-09
出願番号2023166312
出願日2023-09-27
発明の名称方策学習装置、方策学習方法及び通信システム
出願人富士通株式会社
代理人弁理士法人フィールズ国際特許事務所
主分類G06Q 10/04 20230101AFI20250401BHJP(計算;計数)
要約【課題】制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供する。
【解決手段】制御対象の状態の入力に応じて制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、強化学習における所定回数の学習ステップごとに、強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、制約条件を満たすように、かつ、パラメータを状態のうちの少なくとも一部として用いることにより、エージェントを学習するエージェント学習部と、を有する。
【選択図】図9
特許請求の範囲【請求項１】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する、
ことを特徴とする方策学習装置。
続きを表示（約 1,200 文字）【請求項２】
請求項１において、
前記パラメータ変更部は、所定の変更範囲内において前記パラメータをランダムに変更する、
ことを特徴とする方策学習装置。
【請求項３】
請求項１において、さらに、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの閾値である、
ことを特徴とする方策学習装置。
【請求項４】
請求項１において、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの算出に用いられるパラメータである、
ことを特徴とする方策学習装置。
【請求項５】
請求項１において、さらに、
他の強化学習によって学習された他のエージェントから出力された他の行動を前記制御対象が行った際の他のコストに応じて、前記パラメータの変更範囲を決定する範囲決定部を有する、
ことを特徴とする方策学習装置。
【請求項６】
請求項１において、
前記制御対象の新たな状態の入力に伴って前記エージェントから出力された前記制御対象の新たな行動を取得する方策推定部と、
取得した前記新たな行動を出力する方策出力部と、を有し、
前記方策推定部は、前記制約条件に関する新たなパラメータを前記新たな状態の少なくとも一部として前記エージェントに対して入力する、
ことを特徴とする方策学習装置。
【請求項７】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習方法であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする処理をコンピュータが実行する方策学習方法。
【請求項８】
基地局装置と、前記基地局装置の状態の入力に応じて前記基地局装置の行動を出力するエージェントを強化学習によって学習する方策学習装置とを有する通信システムであって、
前記方策学習装置は、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする通信システム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、方策学習装置、方策学習方法及び通信システムに関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
例えば、制御対象（以下、環境とも呼ぶ）に対する行動に応じた制御対象からの報酬を参照して、制御対象に対する最適な方策を学習する強化学習の技術がある。方策は、例えば、制御対象の状態に応じて制御対象の次の行動を決定する関数である。言い換えると、強化学習は、例えば、経験に基づく試行錯誤を繰り返しながら、より高い報酬を得ることができる方策をエージェントに学習させる技術である（例えば、特許文献１及び２参照）。
【先行技術文献】
【特許文献】
【０００３】
国際公開第２０２２／０４４１９１号
特開２０２１－０６４２２２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
上記のような強化学習には、例えば、制御対象からのコストを予め定められた閾値以下にするという制約条件（以下、単に制約条件とも呼ぶ）を守りながら、最適な方策を学習する制約付き強化学習（以下、単に制約付き強化学習とも呼ぶ）が含まれる。
【０００５】
ここで、上記のような制約付き強化学習では、例えば、様々な制約条件に対応した方策の学習を行う場合、制約条件ごとに異なるエージェントの学習を行う必要がある。そのため、上記のような制約付き強化学習では、例えば、エージェントの学習を効率的に行うことができない場合がある。
【０００６】
そこで、一つの側面では、本発明は、制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
実施の形態の一態様における方策学習装置は、制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する。
【発明の効果】
【０００８】
一つの側面によれば、制約付き強化学習におけるエージェントの学習を効率的に行うことが可能になる。
【図面の簡単な説明】
【０００９】
図１は、情報処理システム１０の構成について説明する図である。
図２は、制約付き強化学習について説明する図である。
図３は、報酬とコストとコスト閾値との関係を示すグラフである。
図４は、情報処理装置１のハードウエア構成を説明する図である。
図５は、情報処理装置１における機能について説明する図である。
図６は、情報格納領域１３０に記憶される情報について説明する図である。
図７は、記憶装置２において記憶されるエージェントＡＧについて説明する図である。
図８は、第１の実施の形態における方策学習処理の概略を説明するフローチャート図である。
図９は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１０は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１１は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１２は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１３は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１４は、第１の実施の形態における方策学習処理の具体例を説明する図である。
図１５は、第１の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図１６は、第１の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図１７は、第１の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図１８は、第１の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図１９は、第１の実施の形態における方策学習処理の他の具体例を説明する図である。
図２０は、第１の実施の形態における方策学習処理の他の具体例を説明する図である。
図２１は、第１の実施の形態における方策学習処理の詳細を説明する図である。
図２２は、第１の実施の形態における方策推定処理を説明するフローチャート図である。
図２３は、第１の実施の形態における方策推定処理の具体例を説明する図である。
図２４は、第１の実施の形態における方策推定処理の具体例を説明する図である。
図２５は、制御対象ＯＢが基地局装置１１の起動制御である場合の具体例について説明する図である。
図２６は、制御対象ＯＢが基地局装置１１の起動制御である場合の具体例について説明する図である。
図２７は、図２５等を示す例において行われる範囲決定処理を説明するフローチャート図である。
図２８は、図２５等を示す例において行われる範囲決定処理を説明するフローチャート図である。
【発明を実施するための形態】
【００１０】
以下、図面を参照して本開示の実施の形態について説明する。しかしながら、かかる説明は限定的な意味に解釈されるべきではなく、特許請求の範囲に記載の主題を限定するものではない。また、本開示の趣旨及び範囲から逸脱することがなく様々な変更や置換や改変をすることができる。また、異なる実施の形態を適宜組み合わせることができる。
（【００１１】以降は省略されています）

関連特許