TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024165383
公報種別
公開特許公報(A)
公開日
2024-11-28
出願番号
2023081533
出願日
2023-05-17
発明の名称
強化学習プログラム、強化学習方法、および情報処理装置
出願人
富士通株式会社
代理人
弁理士法人扶桑国際特許事務所
主分類
G06N
20/00 20190101AFI20241121BHJP(計算;計数)
要約
【課題】制約が破られることを抑止する。
【解決手段】情報処理装置10は、所定の環境1で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。情報処理装置10は、第2の需要量と信頼度と環境1の現在の第1の状態とを含む入力データに基づいて、機械学習のモデル2に従って、環境1に対して行う行動を決定する。情報処理装置10は、決定した行動を環境1に対して実行し、そして情報処理装置10は、行動を行った後の環境1の第2の状態と報酬とに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデル2のパラメータを更新する。
【選択図】図1
特許請求の範囲
【請求項1】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習プログラム。
続きを表示(約 1,300 文字)
【請求項2】
前記第2の需要量と前記信頼度とを計算する処理では、無線アクセスネットワークの通信環境を前記環境とし、前記無線アクセスネットワークの現在の第1の通信トラフィック量を前記第1の需要量とし、前記第1の通信トラフィック量に基づいて、前記無線アクセスネットワークの一定時間後の第2の通信トラフィック量を、前記第2の需要量として計算し、
前記行動を決定する処理では、前記第1の状態として前記無線アクセスネットワーク内の基地局の負荷を用いて、前記基地局をアクティブにするのかスリープにするのかを、前記行動として決定し、
前記モデルのパラメータを更新する処理では、決定された前記行動に従って前記基地局を制御した後の前記基地局の第2の負荷が前記基地局の負荷に関するしきい値を超えた場合に罰則を発生させ、前記基地局を制御した後の前記基地局の消費電力が少ないほど大きな値を前記報酬とし、前記罰則を発生させずに前記報酬を増大させるように前記モデルのパラメータを更新する、
請求項1記載の強化学習プログラム。
【請求項3】
前記第2の需要量と前記信頼度とを計算する処理では、前記信頼度として、前記第2の需要量の分散を計算する、
請求項1記載の強化学習プログラム。
【請求項4】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量に対して前記信頼度に応じた値を加算した第3の需要量と前記環境の現在の第1の状態とを含む入力データに基づいて、前記環境の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって生成されたモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行する、
強化学習プログラム。
【請求項5】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習方法。
【請求項6】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、決定した前記行動を前記環境に対して実行し、前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する処理部、
を有する情報処理装置。
発明の詳細な説明
【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。制約が設けられている場合、制約を満たすような行動を決定するモデルが生成される。
【0003】
制約あり強化学習は、例えば無線アクセスネットワークの消費電力を最適化するための基地局制御に利用できる。その場合、複数の基地局のアクティブとスリープとの状態の切替の制御のためのモデルが、制約あり強化学習によって生成される。基地局制御のためのモデルにおける制約は、例えば各基地局の負荷が上限を超えないことである。
【0004】
基地局などの消費電力の制御に関する技術としては、例えば制御が失敗するリスクを抑えながら消費電力を抑えた制御を行うための制御情報を生成する技術が提案されている。また複数基地局分のベースバンド処理を集約する基地局装置において、頻繁なリソース切り替えによる切り替えオーバヘッドを低減する技術も提案されている。過去のトラフィックデータについて人工知能モデルを用いて分析し、基地局に対する容量を超える量を予測し、無人機を基地局に派遣する技術も提案されている。リアルタイムに省電力操作をするとともに、不適切な省電力処理や、深刻なユーザアクセスの混雑を防止し、エラービット数を低減させる技術も提案されている。セルラー通信ネットワークの基地局におけるトラフィックパターンの分析に基づいて電力消費を低減する技術も提案されている。
【0005】
さらにディープQネットワーク(DQN)の意思決定と高度なトラフィック需要予測を共同で適用した、異種ネットワークにおけるエネルギー考慮型モバイルトラフィックオフロード方式も提案されている。
【0006】
なお強化学習のモデルには、例えばニューラルネットワークを用いることができる。ニューラルネットワークに関する技術としては、例えば従来のニューラルネットワークと混合密度モデルを組み合わせて得られる新しいクラスのネットワークモデルが提案されている。
【先行技術文献】
【特許文献】
【0007】
特開2016-189529号公報
国際公開第2015/045444号
米国特許出願公開第2022/0394512号明細書
特表2015-515196号公報
米国特許出願公開第2020/0045627号明細書
【非特許文献】
【0008】
Chih-Wei Huang, Po-Chen Chen, "Mobile Traffic Offloading with Forecasting using Deep Reinforcement Learning", arXiv:1911.07452, 18 Nov 2019
Christopher M. Bishop, "Mixture Density Networks", Neural Computing Research Group Report (NCRG/94/004), Aston University, February, 1994
【発明の概要】
【発明が解決しようとする課題】
【0009】
強化学習では、モデルの挙動を意図通りにコントロールすることが困難である。このような強化学習の特性があるため、制約あり強化学習では、学習後のモデルの挙動の結果、制約に関する指標がしきい値を超えることが多い。制約が守られない場合、モデルを用いた制御に問題が生じる可能性がある。例えば無線アクセスネットワークにおける基地局の制御において、基地局の負荷に関する制約が破られると、通信の輻輳の発生を招く。
【0010】
1つの側面では、本件は、制約が破られることを抑止することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
光伝送装置
6日前
富士通株式会社
排出の推定と異常
27日前
富士通株式会社
排出の推定と異常
27日前
富士通株式会社
通信装置及び通信方法
5日前
富士通株式会社
演算器及び情報処理装置
5日前
富士通株式会社
プログラム,装置及び方法
6日前
富士通株式会社
伝送装置及び伝送システム
13日前
富士通株式会社
キュービット・マッピング
2日前
富士通株式会社
基地局装置及び通信システム
5日前
富士通株式会社
キュービット・ルーティング
2日前
富士通株式会社
制御装置及び制御プログラム
2日前
富士通株式会社
ネットワーク装置及び判定方法
7日前
富士通株式会社
電源ユニット及びその制御方法
5日前
富士通株式会社
バイタルサイン検出装置と方法
15日前
富士通株式会社
電圧検知回路及び情報処理装置
5日前
富士通株式会社
作業割当方法および作業割当プログラム
5日前
富士通株式会社
病変検出方法および病変検出プログラム
2日前
富士通株式会社
データ転送制御装置および情報処理装置
5日前
富士通株式会社
コンパイルプログラム及びコンパイル方法
2日前
富士通株式会社
制御プログラム、制御方法及びサーバ装置
5日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
27日前
富士通株式会社
遅延制御回路、光送信装置、及び遅延制御方法
15日前
富士通株式会社
車両販売支援システム、方法およびプログラム
28日前
富士通株式会社
ロードバランサ,制御プログラムおよび制御方法
15日前
富士通株式会社
データ処理装置、プログラム及びデータ処理方法
5日前
富士通株式会社
シート搬送制御プログラムおよびシート搬送装置
27日前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
13日前
富士通株式会社
半導体装置、半導体装置の製造方法及び電子装置
5日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
14日前
富士通株式会社
光送受信システム、光送受信方法、及び光送信装置
27日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
2日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
5日前
富士通株式会社
情報処理装置、システム、および情報処理プログラム
14日前
富士通株式会社
情報処理装置,情報処理プログラムおよび印刷システム
27日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
27日前
富士通株式会社
情報処理プログラム、情報処理装置および情報処理方法
27日前
続きを見る
他の特許を見る