TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025056826
公報種別
公開特許公報(A)
公開日
2025-04-09
出願番号
2023166312
出願日
2023-09-27
発明の名称
方策学習装置、方策学習方法及び通信システム
出願人
富士通株式会社
代理人
弁理士法人フィールズ国際特許事務所
主分類
G06Q
10/04 20230101AFI20250401BHJP(計算;計数)
要約
【課題】制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供する。
【解決手段】制御対象の状態の入力に応じて制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、強化学習における所定回数の学習ステップごとに、強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、制約条件を満たすように、かつ、パラメータを状態のうちの少なくとも一部として用いることにより、エージェントを学習するエージェント学習部と、を有する。
【選択図】図9
特許請求の範囲
【請求項1】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する、
ことを特徴とする方策学習装置。
続きを表示(約 1,200 文字)
【請求項2】
請求項1において、
前記パラメータ変更部は、所定の変更範囲内において前記パラメータをランダムに変更する、
ことを特徴とする方策学習装置。
【請求項3】
請求項1において、さらに、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの閾値である、
ことを特徴とする方策学習装置。
【請求項4】
請求項1において、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの算出に用いられるパラメータである、
ことを特徴とする方策学習装置。
【請求項5】
請求項1において、さらに、
他の強化学習によって学習された他のエージェントから出力された他の行動を前記制御対象が行った際の他のコストに応じて、前記パラメータの変更範囲を決定する範囲決定部を有する、
ことを特徴とする方策学習装置。
【請求項6】
請求項1において、
前記制御対象の新たな状態の入力に伴って前記エージェントから出力された前記制御対象の新たな行動を取得する方策推定部と、
取得した前記新たな行動を出力する方策出力部と、を有し、
前記方策推定部は、前記制約条件に関する新たなパラメータを前記新たな状態の少なくとも一部として前記エージェントに対して入力する、
ことを特徴とする方策学習装置。
【請求項7】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習方法であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする処理をコンピュータが実行する方策学習方法。
【請求項8】
基地局装置と、前記基地局装置の状態の入力に応じて前記基地局装置の行動を出力するエージェントを強化学習によって学習する方策学習装置とを有する通信システムであって、
前記方策学習装置は、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする通信システム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、方策学習装置、方策学習方法及び通信システムに関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
例えば、制御対象(以下、環境とも呼ぶ)に対する行動に応じた制御対象からの報酬を参照して、制御対象に対する最適な方策を学習する強化学習の技術がある。方策は、例えば、制御対象の状態に応じて制御対象の次の行動を決定する関数である。言い換えると、強化学習は、例えば、経験に基づく試行錯誤を繰り返しながら、より高い報酬を得ることができる方策をエージェントに学習させる技術である(例えば、特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0003】
国際公開第2022/044191号
特開2021-064222号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような強化学習には、例えば、制御対象からのコストを予め定められた閾値以下にするという制約条件(以下、単に制約条件とも呼ぶ)を守りながら、最適な方策を学習する制約付き強化学習(以下、単に制約付き強化学習とも呼ぶ)が含まれる。
【0005】
ここで、上記のような制約付き強化学習では、例えば、様々な制約条件に対応した方策の学習を行う場合、制約条件ごとに異なるエージェントの学習を行う必要がある。そのため、上記のような制約付き強化学習では、例えば、エージェントの学習を効率的に行うことができない場合がある。
【0006】
そこで、一つの側面では、本発明は、制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
実施の形態の一態様における方策学習装置は、制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する。
【発明の効果】
【0008】
一つの側面によれば、制約付き強化学習におけるエージェントの学習を効率的に行うことが可能になる。
【図面の簡単な説明】
【0009】
図1は、情報処理システム10の構成について説明する図である。
図2は、制約付き強化学習について説明する図である。
図3は、報酬とコストとコスト閾値との関係を示すグラフである。
図4は、情報処理装置1のハードウエア構成を説明する図である。
図5は、情報処理装置1における機能について説明する図である。
図6は、情報格納領域130に記憶される情報について説明する図である。
図7は、記憶装置2において記憶されるエージェントAGについて説明する図である。
図8は、第1の実施の形態における方策学習処理の概略を説明するフローチャート図である。
図9は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図10は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図11は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図12は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図13は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図14は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図15は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図16は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図17は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図18は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図19は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図20は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図21は、第1の実施の形態における方策学習処理の詳細を説明する図である。
図22は、第1の実施の形態における方策推定処理を説明するフローチャート図である。
図23は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図24は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図25は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図26は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図27は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
図28は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本開示の実施の形態について説明する。しかしながら、かかる説明は限定的な意味に解釈されるべきではなく、特許請求の範囲に記載の主題を限定するものではない。また、本開示の趣旨及び範囲から逸脱することがなく様々な変更や置換や改変をすることができる。また、異なる実施の形態を適宜組み合わせることができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
車線区分装置及び方法
10日前
富士通株式会社
商品棚の検出装置及び方法
6日前
富士通株式会社
商品状態検出装置及び方法
6日前
富士通株式会社
伝送路監視装置及び伝送路監視方法
2日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
10日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
10日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
3日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
6日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
6日前
富士通株式会社
情報処理プログラム、情報処理方法、および管理装置
2日前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
10日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
11日前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
11日前
富士通株式会社
把持期間判定プログラム,把持期間判定方法及び情報処理装置
2日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
12日前
富士通株式会社
サイドリンクリソースの再選択方法及び装置
11日前
富士通株式会社
ワイヤーハーネス製造図設計支援プログラム、ワイヤーハーネス製造図設計支援方法、および情報処理装置
10日前
個人
非正規コート
20日前
個人
在宅介護システム
2日前
個人
人物再現システム
17日前
個人
RFタグ読取装置
2日前
個人
AI飲食最適化プラグイン
10日前
有限会社ノア
データ読取装置
18日前
個人
電話管理システム及び管理方法
11日前
個人
広告提供システムおよびその方法
20日前
株式会社ザメディア
出席管理システム
25日前
株式会社CROSLAN
支援装置
2日前
個人
日誌作成支援システム
17日前
長屋印刷株式会社
画像形成システム
2日前
トヨタ自動車株式会社
工程計画装置
25日前
ミサワホーム株式会社
情報処理装置
24日前
ひびきの電子株式会社
認証システム
4日前
個人
ポイント還元付き配送システム
18日前
株式会社タクテック
商品取出集品システム
24日前
トヨタ自動車株式会社
作業判定方法
26日前
オベック実業株式会社
接続構造
17日前
続きを見る
他の特許を見る