TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025056826
公報種別公開特許公報(A)
公開日2025-04-09
出願番号2023166312
出願日2023-09-27
発明の名称方策学習装置、方策学習方法及び通信システム
出願人富士通株式会社
代理人弁理士法人フィールズ国際特許事務所
主分類G06Q 10/04 20230101AFI20250401BHJP(計算;計数)
要約【課題】制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供する。
【解決手段】制御対象の状態の入力に応じて制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、強化学習における所定回数の学習ステップごとに、強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、制約条件を満たすように、かつ、パラメータを状態のうちの少なくとも一部として用いることにより、エージェントを学習するエージェント学習部と、を有する。
【選択図】図9
特許請求の範囲【請求項1】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する、
ことを特徴とする方策学習装置。
続きを表示(約 1,200 文字)【請求項2】
請求項1において、
前記パラメータ変更部は、所定の変更範囲内において前記パラメータをランダムに変更する、
ことを特徴とする方策学習装置。
【請求項3】
請求項1において、さらに、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの閾値である、
ことを特徴とする方策学習装置。
【請求項4】
請求項1において、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの算出に用いられるパラメータである、
ことを特徴とする方策学習装置。
【請求項5】
請求項1において、さらに、
他の強化学習によって学習された他のエージェントから出力された他の行動を前記制御対象が行った際の他のコストに応じて、前記パラメータの変更範囲を決定する範囲決定部を有する、
ことを特徴とする方策学習装置。
【請求項6】
請求項1において、
前記制御対象の新たな状態の入力に伴って前記エージェントから出力された前記制御対象の新たな行動を取得する方策推定部と、
取得した前記新たな行動を出力する方策出力部と、を有し、
前記方策推定部は、前記制約条件に関する新たなパラメータを前記新たな状態の少なくとも一部として前記エージェントに対して入力する、
ことを特徴とする方策学習装置。
【請求項7】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習方法であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする処理をコンピュータが実行する方策学習方法。
【請求項8】
基地局装置と、前記基地局装置の状態の入力に応じて前記基地局装置の行動を出力するエージェントを強化学習によって学習する方策学習装置とを有する通信システムであって、
前記方策学習装置は、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする通信システム。

発明の詳細な説明【技術分野】
【0001】
本発明は、方策学習装置、方策学習方法及び通信システムに関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
例えば、制御対象(以下、環境とも呼ぶ)に対する行動に応じた制御対象からの報酬を参照して、制御対象に対する最適な方策を学習する強化学習の技術がある。方策は、例えば、制御対象の状態に応じて制御対象の次の行動を決定する関数である。言い換えると、強化学習は、例えば、経験に基づく試行錯誤を繰り返しながら、より高い報酬を得ることができる方策をエージェントに学習させる技術である(例えば、特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0003】
国際公開第2022/044191号
特開2021-064222号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような強化学習には、例えば、制御対象からのコストを予め定められた閾値以下にするという制約条件(以下、単に制約条件とも呼ぶ)を守りながら、最適な方策を学習する制約付き強化学習(以下、単に制約付き強化学習とも呼ぶ)が含まれる。
【0005】
ここで、上記のような制約付き強化学習では、例えば、様々な制約条件に対応した方策の学習を行う場合、制約条件ごとに異なるエージェントの学習を行う必要がある。そのため、上記のような制約付き強化学習では、例えば、エージェントの学習を効率的に行うことができない場合がある。
【0006】
そこで、一つの側面では、本発明は、制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
実施の形態の一態様における方策学習装置は、制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する。
【発明の効果】
【0008】
一つの側面によれば、制約付き強化学習におけるエージェントの学習を効率的に行うことが可能になる。
【図面の簡単な説明】
【0009】
図1は、情報処理システム10の構成について説明する図である。
図2は、制約付き強化学習について説明する図である。
図3は、報酬とコストとコスト閾値との関係を示すグラフである。
図4は、情報処理装置1のハードウエア構成を説明する図である。
図5は、情報処理装置1における機能について説明する図である。
図6は、情報格納領域130に記憶される情報について説明する図である。
図7は、記憶装置2において記憶されるエージェントAGについて説明する図である。
図8は、第1の実施の形態における方策学習処理の概略を説明するフローチャート図である。
図9は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図10は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図11は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図12は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図13は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図14は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図15は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図16は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図17は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図18は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図19は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図20は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図21は、第1の実施の形態における方策学習処理の詳細を説明する図である。
図22は、第1の実施の形態における方策推定処理を説明するフローチャート図である。
図23は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図24は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図25は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図26は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図27は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
図28は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本開示の実施の形態について説明する。しかしながら、かかる説明は限定的な意味に解釈されるべきではなく、特許請求の範囲に記載の主題を限定するものではない。また、本開示の趣旨及び範囲から逸脱することがなく様々な変更や置換や改変をすることができる。また、異なる実施の形態を適宜組み合わせることができる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士通株式会社
データセット特徴タイプ推論
4日前
富士通株式会社
信号相関量の確定装置と方法
4日前
富士通株式会社
光伝送装置および光伝送システム
5日前
富士通株式会社
双方向光リンクの異常モニタリング
7日前
富士通株式会社
情報処理プログラムおよび情報処理方法
4日前
富士通株式会社
制御プログラム、制御方法及び決済装置
今日
富士通株式会社
大規模言語モデルを使用したデータ調整
4日前
富士通株式会社
選択プログラム、選択装置、及び選択方法
7日前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
4日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
11日前
富士通株式会社
無線アクセスネットワークプロビジョニング
4日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
4日前
富士通株式会社
量子ビットデバイス及び量子ビットデバイスの製造方法
11日前
富士通株式会社
情報処理プログラム、情報処理方法、及び情報処理装置
5日前
富士通株式会社
情報処理プログラム、情報処理装置、および情報処理方法
今日
富士通株式会社
光送信機のサブ信号の遅延差のリアルタイム監視装置及び方法
4日前
富士通株式会社
ブロックチェーンに基づくエスクローされたマーケットプレイス
4日前
富士通株式会社
共有メモリ制御プログラム、共有メモリ制御方法および情報処理装置
4日前
富士通株式会社
光伝送路特性推定装置、光伝送システム、及び光伝送路特性推定方法
5日前
富士通株式会社
スタート支援装置、スタート支援方法、およびスタート支援プログラム
5日前
富士通株式会社
依存情報を列に集約したマトリクススケジューラ及びマトリクススケジューリング方法
12日前
富士通株式会社
量子回路シミュレーションプログラム、量子回路シミュレーション方法および情報処理装置
13日前
個人
対話装置
25日前
個人
政治のAI化
1か月前
個人
物品給付年金
1か月前
個人
情報処理装置
25日前
個人
情報処理装置
21日前
個人
記入設定プラグイン
13日前
個人
プラグインホームページ
1か月前
個人
情報入力装置
25日前
個人
不動産売買システム
5日前
個人
物価スライド機能付生命保険
25日前
個人
マイホーム非電子入札システム
25日前
個人
全アルゴリズム対応型プログラム
1か月前
株式会社BONNOU
管理装置
18日前
キヤノン株式会社
画像処理装置
1か月前
続きを見る