TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024165383
公報種別公開特許公報(A)
公開日2024-11-28
出願番号2023081533
出願日2023-05-17
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241121BHJP(計算;計数)
要約【課題】制約が破られることを抑止する。
【解決手段】情報処理装置10は、所定の環境1で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。情報処理装置10は、第2の需要量と信頼度と環境1の現在の第1の状態とを含む入力データに基づいて、機械学習のモデル2に従って、環境1に対して行う行動を決定する。情報処理装置10は、決定した行動を環境1に対して実行し、そして情報処理装置10は、行動を行った後の環境1の第2の状態と報酬とに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデル2のパラメータを更新する。
【選択図】図1
特許請求の範囲【請求項1】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習プログラム。
続きを表示(約 1,300 文字)【請求項2】
前記第2の需要量と前記信頼度とを計算する処理では、無線アクセスネットワークの通信環境を前記環境とし、前記無線アクセスネットワークの現在の第1の通信トラフィック量を前記第1の需要量とし、前記第1の通信トラフィック量に基づいて、前記無線アクセスネットワークの一定時間後の第2の通信トラフィック量を、前記第2の需要量として計算し、
前記行動を決定する処理では、前記第1の状態として前記無線アクセスネットワーク内の基地局の負荷を用いて、前記基地局をアクティブにするのかスリープにするのかを、前記行動として決定し、
前記モデルのパラメータを更新する処理では、決定された前記行動に従って前記基地局を制御した後の前記基地局の第2の負荷が前記基地局の負荷に関するしきい値を超えた場合に罰則を発生させ、前記基地局を制御した後の前記基地局の消費電力が少ないほど大きな値を前記報酬とし、前記罰則を発生させずに前記報酬を増大させるように前記モデルのパラメータを更新する、
請求項1記載の強化学習プログラム。
【請求項3】
前記第2の需要量と前記信頼度とを計算する処理では、前記信頼度として、前記第2の需要量の分散を計算する、
請求項1記載の強化学習プログラム。
【請求項4】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量に対して前記信頼度に応じた値を加算した第3の需要量と前記環境の現在の第1の状態とを含む入力データに基づいて、前記環境の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって生成されたモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行する、
強化学習プログラム。
【請求項5】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、
前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習方法。
【請求項6】
所定の環境で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、前記第2の需要量の信頼度とを計算し、前記第2の需要量と前記信頼度と前記環境の現在の第1の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、決定した前記行動を前記環境に対して実行し、前記行動を行った後の前記環境の第2の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。制約が設けられている場合、制約を満たすような行動を決定するモデルが生成される。
【0003】
制約あり強化学習は、例えば無線アクセスネットワークの消費電力を最適化するための基地局制御に利用できる。その場合、複数の基地局のアクティブとスリープとの状態の切替の制御のためのモデルが、制約あり強化学習によって生成される。基地局制御のためのモデルにおける制約は、例えば各基地局の負荷が上限を超えないことである。
【0004】
基地局などの消費電力の制御に関する技術としては、例えば制御が失敗するリスクを抑えながら消費電力を抑えた制御を行うための制御情報を生成する技術が提案されている。また複数基地局分のベースバンド処理を集約する基地局装置において、頻繁なリソース切り替えによる切り替えオーバヘッドを低減する技術も提案されている。過去のトラフィックデータについて人工知能モデルを用いて分析し、基地局に対する容量を超える量を予測し、無人機を基地局に派遣する技術も提案されている。リアルタイムに省電力操作をするとともに、不適切な省電力処理や、深刻なユーザアクセスの混雑を防止し、エラービット数を低減させる技術も提案されている。セルラー通信ネットワークの基地局におけるトラフィックパターンの分析に基づいて電力消費を低減する技術も提案されている。
【0005】
さらにディープQネットワーク(DQN)の意思決定と高度なトラフィック需要予測を共同で適用した、異種ネットワークにおけるエネルギー考慮型モバイルトラフィックオフロード方式も提案されている。
【0006】
なお強化学習のモデルには、例えばニューラルネットワークを用いることができる。ニューラルネットワークに関する技術としては、例えば従来のニューラルネットワークと混合密度モデルを組み合わせて得られる新しいクラスのネットワークモデルが提案されている。
【先行技術文献】
【特許文献】
【0007】
特開2016-189529号公報
国際公開第2015/045444号
米国特許出願公開第2022/0394512号明細書
特表2015-515196号公報
米国特許出願公開第2020/0045627号明細書
【非特許文献】
【0008】
Chih-Wei Huang, Po-Chen Chen, "Mobile Traffic Offloading with Forecasting using Deep Reinforcement Learning", arXiv:1911.07452, 18 Nov 2019
Christopher M. Bishop, "Mixture Density Networks", Neural Computing Research Group Report (NCRG/94/004), Aston University, February, 1994
【発明の概要】
【発明が解決しようとする課題】
【0009】
強化学習では、モデルの挙動を意図通りにコントロールすることが困難である。このような強化学習の特性があるため、制約あり強化学習では、学習後のモデルの挙動の結果、制約に関する指標がしきい値を超えることが多い。制約が守られない場合、モデルを用いた制御に問題が生じる可能性がある。例えば無線アクセスネットワークにおける基地局の制御において、基地局の負荷に関する制約が破られると、通信の輻輳の発生を招く。
【0010】
1つの側面では、本件は、制約が破られることを抑止することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
ラック装置
29日前
富士通株式会社
リスクと診断
1か月前
富士通株式会社
プロセッサパッケージ
7日前
富士通株式会社
光増幅器および光増幅方法
20日前
富士通株式会社
プロセッサ及び情報処理装置
今日
富士通株式会社
信号処理装置及び信号処理方法
28日前
富士通株式会社
変換プログラムおよび変換方法
14日前
富士通株式会社
光センサ及び光センサの製造方法
28日前
富士通株式会社
歩容認識装置、方法及び電子機器
20日前
富士通株式会社
光送信器およびタイミング調整方法
1か月前
富士通株式会社
機械学習プログラム、方法、及び装置
28日前
富士通株式会社
機械学習プログラム、方法、及び装置
28日前
富士通株式会社
マルチチャネルパワープロファイル推定
13日前
富士通株式会社
試験方法、試験プログラム及び情報処理装置
1か月前
富士通株式会社
制御装置,制御方法および分散処理システム
21日前
富士通株式会社
制御プログラム、制御方法及び情報処理装置
1か月前
富士通株式会社
評価プログラム、評価装置及び評価システム
7日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
機械学習のためのグラフセット分析及び可視化
1か月前
富士通株式会社
位置情報処理装置およびサービス提供システム
今日
富士通株式会社
プログラム、情報処理方法および情報処理装置
1か月前
富士通株式会社
試験装置,試験方法および情報処理プログラム
20日前
富士通株式会社
推定プログラム、推定方法および情報処理装置
1か月前
富士通株式会社
情報処理システム、情報処理方法及びプログラム
1日前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
21日前
富士通株式会社
タスク割り当て方法、タスク割り当てプログラム
今日
富士通株式会社
プログラム、情報処理方法およびクラスタシステム
1か月前
富士通株式会社
プログラム、情報処理装置および情報処理システム
1か月前
富士通株式会社
試験制御プログラム,試験システムおよび試験方法
28日前
富士通株式会社
コンパイラプログラム、判定方法および情報処理装置
今日
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
1か月前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
1か月前
富士通株式会社
デバッグプログラム、情報処理装置及びデバッグ方法
1か月前
富士通株式会社
情報処理装置、情報処理方法および情報処理プログラム
20日前
富士通株式会社
画像生成プログラム、画像生成方法および情報処理装置
1か月前
富士通株式会社
配線ばらつき算出方法および配線ばらつき算出プログラム
22日前
続きを見る