TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025056826
公報種別
公開特許公報(A)
公開日
2025-04-09
出願番号
2023166312
出願日
2023-09-27
発明の名称
方策学習装置、方策学習方法及び通信システム
出願人
富士通株式会社
代理人
弁理士法人フィールズ国際特許事務所
主分類
G06Q
10/04 20230101AFI20250401BHJP(計算;計数)
要約
【課題】制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供する。
【解決手段】制御対象の状態の入力に応じて制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、強化学習における所定回数の学習ステップごとに、強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、制約条件を満たすように、かつ、パラメータを状態のうちの少なくとも一部として用いることにより、エージェントを学習するエージェント学習部と、を有する。
【選択図】図9
特許請求の範囲
【請求項1】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する、
ことを特徴とする方策学習装置。
続きを表示(約 1,200 文字)
【請求項2】
請求項1において、
前記パラメータ変更部は、所定の変更範囲内において前記パラメータをランダムに変更する、
ことを特徴とする方策学習装置。
【請求項3】
請求項1において、さらに、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの閾値である、
ことを特徴とする方策学習装置。
【請求項4】
請求項1において、
前記制御対象の状態からコストを算出するコスト算出部を有し、
前記制約条件は、前記コストについての制約条件であり、
前記パラメータは、前記コストの算出に用いられるパラメータである、
ことを特徴とする方策学習装置。
【請求項5】
請求項1において、さらに、
他の強化学習によって学習された他のエージェントから出力された他の行動を前記制御対象が行った際の他のコストに応じて、前記パラメータの変更範囲を決定する範囲決定部を有する、
ことを特徴とする方策学習装置。
【請求項6】
請求項1において、
前記制御対象の新たな状態の入力に伴って前記エージェントから出力された前記制御対象の新たな行動を取得する方策推定部と、
取得した前記新たな行動を出力する方策出力部と、を有し、
前記方策推定部は、前記制約条件に関する新たなパラメータを前記新たな状態の少なくとも一部として前記エージェントに対して入力する、
ことを特徴とする方策学習装置。
【請求項7】
制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習方法であって、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする処理をコンピュータが実行する方策学習方法。
【請求項8】
基地局装置と、前記基地局装置の状態の入力に応じて前記基地局装置の行動を出力するエージェントを強化学習によって学習する方策学習装置とを有する通信システムであって、
前記方策学習装置は、
前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更し、
前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習する、
ことを特徴とする通信システム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、方策学習装置、方策学習方法及び通信システムに関する。
続きを表示(約 2,400 文字)
【背景技術】
【0002】
例えば、制御対象(以下、環境とも呼ぶ)に対する行動に応じた制御対象からの報酬を参照して、制御対象に対する最適な方策を学習する強化学習の技術がある。方策は、例えば、制御対象の状態に応じて制御対象の次の行動を決定する関数である。言い換えると、強化学習は、例えば、経験に基づく試行錯誤を繰り返しながら、より高い報酬を得ることができる方策をエージェントに学習させる技術である(例えば、特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0003】
国際公開第2022/044191号
特開2021-064222号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような強化学習には、例えば、制御対象からのコストを予め定められた閾値以下にするという制約条件(以下、単に制約条件とも呼ぶ)を守りながら、最適な方策を学習する制約付き強化学習(以下、単に制約付き強化学習とも呼ぶ)が含まれる。
【0005】
ここで、上記のような制約付き強化学習では、例えば、様々な制約条件に対応した方策の学習を行う場合、制約条件ごとに異なるエージェントの学習を行う必要がある。そのため、上記のような制約付き強化学習では、例えば、エージェントの学習を効率的に行うことができない場合がある。
【0006】
そこで、一つの側面では、本発明は、制約付き強化学習におけるエージェントの学習を効率的に行うことを可能とする方策学習装置、方策学習方法及び通信システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
実施の形態の一態様における方策学習装置は、制御対象の状態の入力に応じて前記制御対象の行動を出力するエージェントを強化学習によって学習する方策学習装置であって、前記強化学習における所定回数の学習ステップごとに、前記強化学習における制約条件に関するパラメータを変更するパラメータ変更部と、前記制約条件を満たすように、かつ、前記パラメータを前記状態のうちの少なくとも一部として用いることにより、前記エージェントを学習するエージェント学習部と、を有する。
【発明の効果】
【0008】
一つの側面によれば、制約付き強化学習におけるエージェントの学習を効率的に行うことが可能になる。
【図面の簡単な説明】
【0009】
図1は、情報処理システム10の構成について説明する図である。
図2は、制約付き強化学習について説明する図である。
図3は、報酬とコストとコスト閾値との関係を示すグラフである。
図4は、情報処理装置1のハードウエア構成を説明する図である。
図5は、情報処理装置1における機能について説明する図である。
図6は、情報格納領域130に記憶される情報について説明する図である。
図7は、記憶装置2において記憶されるエージェントAGについて説明する図である。
図8は、第1の実施の形態における方策学習処理の概略を説明するフローチャート図である。
図9は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図10は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図11は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図12は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図13は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図14は、第1の実施の形態における方策学習処理の具体例を説明する図である。
図15は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図16は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図17は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図18は、第1の実施の形態における方策学習処理の詳細を説明するフローチャート図である。
図19は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図20は、第1の実施の形態における方策学習処理の他の具体例を説明する図である。
図21は、第1の実施の形態における方策学習処理の詳細を説明する図である。
図22は、第1の実施の形態における方策推定処理を説明するフローチャート図である。
図23は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図24は、第1の実施の形態における方策推定処理の具体例を説明する図である。
図25は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図26は、制御対象OBが基地局装置11の起動制御である場合の具体例について説明する図である。
図27は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
図28は、図25等を示す例において行われる範囲決定処理を説明するフローチャート図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本開示の実施の形態について説明する。しかしながら、かかる説明は限定的な意味に解釈されるべきではなく、特許請求の範囲に記載の主題を限定するものではない。また、本開示の趣旨及び範囲から逸脱することがなく様々な変更や置換や改変をすることができる。また、異なる実施の形態を適宜組み合わせることができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社ザメディア
出席管理システム
5日前
トヨタ自動車株式会社
工程計画装置
5日前
ミサワホーム株式会社
情報処理装置
4日前
株式会社タクテック
商品取出集品システム
4日前
トヨタ自動車株式会社
作業判定方法
6日前
株式会社村田製作所
動き検知装置
4日前
トヨタ自動車株式会社
情報処理システム
6日前
ゼネラル株式会社
RFIDタグ付き物品
7日前
トヨタ自動車株式会社
情報処理方法
6日前
個人
コンテンツ配信システム
4日前
株式会社国際電気
支援システム
7日前
富士通株式会社
画像生成方法
10日前
ブラザー工業株式会社
ラベルプリンタ
6日前
個人
プラットフォームシステム
4日前
甍エンジニアリング株式会社
屋根材買い取りシステム
10日前
トヨタ自動車株式会社
作業支援システム
4日前
株式会社知財事業研究所
運行計画作成システム
4日前
株式会社日立製作所
設計支援装置
5日前
日立建機株式会社
潤滑油診断システム
5日前
日立建機株式会社
作業機械の管理装置
7日前
トヨタ自動車株式会社
車両用の情報処理装置
5日前
株式会社アイシン
情報提供システム
10日前
株式会社日立製作所
タスク管理システム
4日前
トヨタ自動車株式会社
車両用の情報処理装置
6日前
株式会社カプコン
システム、サーバおよびプログラム
5日前
サクサ株式会社
画像処理装置、方法、およびシステム
6日前
ブラザー工業株式会社
印刷装置
5日前
キヤノン株式会社
情報処理装置
10日前
個人
情報処理システム、情報処理方法及びプログラム
10日前
株式会社 ミックウェア
情報処理装置及び情報処理方法
5日前
ブラザー工業株式会社
画像形成システム
5日前
株式会社リコー
表示装置、表示方法、プログラム
4日前
株式会社アイシン
投稿感情予測システム
10日前
株式会社セルズ
情報処理システム
10日前
日本電気株式会社
管理装置、管理方法、及びプログラム
10日前
株式会社NTTドコモ
情報処理装置
6日前
続きを見る
他の特許を見る