特許ウォッチ

公開番号2024165383
公報種別公開特許公報(A)
公開日2024-11-28
出願番号2023081533
出願日2023-05-17
発明の名称強化学習プログラム、強化学習方法、および情報処理装置
出願人富士通株式会社
代理人弁理士法人扶桑国際特許事務所
主分類G06N 20/00 20190101AFI20241121BHJP(計算;計数)
要約【課題】制約が破られることを抑止する。
【解決手段】情報処理装置10は、所定の環境1で提供されるサービスに対する現在の第1の需要量に基づいて、一定時間後の第2の需要量と、第2の需要量の信頼度とを計算する。情報処理装置10は、第2の需要量と信頼度と環境1の現在の第1の状態とを含む入力データに基づいて、機械学習のモデル2に従って、環境1に対して行う行動を決定する。情報処理装置10は、決定した行動を環境1に対して実行し、そして情報処理装置10は、行動を行った後の環境1の第2の状態と報酬とに基づいて、環境1の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって、モデル2のパラメータを更新する。
【選択図】図1
特許請求の範囲【請求項１】
所定の環境で提供されるサービスに対する現在の第１の需要量に基づいて、一定時間後の第２の需要量と、前記第２の需要量の信頼度とを計算し、
前記第２の需要量と前記信頼度と前記環境の現在の第１の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第２の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習プログラム。
続きを表示（約 1,300 文字）【請求項２】
前記第２の需要量と前記信頼度とを計算する処理では、無線アクセスネットワークの通信環境を前記環境とし、前記無線アクセスネットワークの現在の第１の通信トラフィック量を前記第１の需要量とし、前記第１の通信トラフィック量に基づいて、前記無線アクセスネットワークの一定時間後の第２の通信トラフィック量を、前記第２の需要量として計算し、
前記行動を決定する処理では、前記第１の状態として前記無線アクセスネットワーク内の基地局の負荷を用いて、前記基地局をアクティブにするのかスリープにするのかを、前記行動として決定し、
前記モデルのパラメータを更新する処理では、決定された前記行動に従って前記基地局を制御した後の前記基地局の第２の負荷が前記基地局の負荷に関するしきい値を超えた場合に罰則を発生させ、前記基地局を制御した後の前記基地局の消費電力が少ないほど大きな値を前記報酬とし、前記罰則を発生させずに前記報酬を増大させるように前記モデルのパラメータを更新する、
請求項１記載の強化学習プログラム。
【請求項３】
前記第２の需要量と前記信頼度とを計算する処理では、前記信頼度として、前記第２の需要量の分散を計算する、
請求項１記載の強化学習プログラム。
【請求項４】
所定の環境で提供されるサービスに対する現在の第１の需要量に基づいて、一定時間後の第２の需要量と、前記第２の需要量の信頼度とを計算し、
前記第２の需要量に対して前記信頼度に応じた値を加算した第３の需要量と前記環境の現在の第１の状態とを含む入力データに基づいて、前記環境の状態に関する制約を満たす範囲で報酬を増大させる制約つき強化学習によって生成されたモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行する、
強化学習プログラム。
【請求項５】
所定の環境で提供されるサービスに対する現在の第１の需要量に基づいて、一定時間後の第２の需要量と、前記第２の需要量の信頼度とを計算し、
前記第２の需要量と前記信頼度と前記環境の現在の第１の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、
決定した前記行動を前記環境に対して実行し、
前記行動を行った後の前記環境の第２の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する、
強化学習方法。
【請求項６】
所定の環境で提供されるサービスに対する現在の第１の需要量に基づいて、一定時間後の第２の需要量と、前記第２の需要量の信頼度とを計算し、前記第２の需要量と前記信頼度と前記環境の現在の第１の状態とを含む入力データに基づいて、機械学習のモデルに従って、前記環境に対して行う行動を決定し、決定した前記行動を前記環境に対して実行し、前記行動を行った後の前記環境の第２の状態と報酬とに基づいて、前記環境の状態に関する制約を満たす範囲で前記報酬を増大させる制約つき強化学習によって、前記モデルのパラメータを更新する処理部、
を有する情報処理装置。

発明の詳細な説明【技術分野】
【０００１】
本発明は、強化学習プログラム、強化学習方法、および情報処理装置に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
機械学習の技術の一つに強化学習がある。強化学習では、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する。エージェントは行動を選択することで環境から報酬を得る。強化学習では、一連の行動を通じて報酬が最も多く得られるような方策が学習される。強化学習には、例えば満たすべき制約が設けられているものもある。制約が設けられている場合、制約を満たすような行動を決定するモデルが生成される。
【０００３】
制約あり強化学習は、例えば無線アクセスネットワークの消費電力を最適化するための基地局制御に利用できる。その場合、複数の基地局のアクティブとスリープとの状態の切替の制御のためのモデルが、制約あり強化学習によって生成される。基地局制御のためのモデルにおける制約は、例えば各基地局の負荷が上限を超えないことである。
【０００４】
基地局などの消費電力の制御に関する技術としては、例えば制御が失敗するリスクを抑えながら消費電力を抑えた制御を行うための制御情報を生成する技術が提案されている。また複数基地局分のベースバンド処理を集約する基地局装置において、頻繁なリソース切り替えによる切り替えオーバヘッドを低減する技術も提案されている。過去のトラフィックデータについて人工知能モデルを用いて分析し、基地局に対する容量を超える量を予測し、無人機を基地局に派遣する技術も提案されている。リアルタイムに省電力操作をするとともに、不適切な省電力処理や、深刻なユーザアクセスの混雑を防止し、エラービット数を低減させる技術も提案されている。セルラー通信ネットワークの基地局におけるトラフィックパターンの分析に基づいて電力消費を低減する技術も提案されている。
【０００５】
さらにディープＱネットワーク（ＤＱＮ）の意思決定と高度なトラフィック需要予測を共同で適用した、異種ネットワークにおけるエネルギー考慮型モバイルトラフィックオフロード方式も提案されている。
【０００６】
なお強化学習のモデルには、例えばニューラルネットワークを用いることができる。ニューラルネットワークに関する技術としては、例えば従来のニューラルネットワークと混合密度モデルを組み合わせて得られる新しいクラスのネットワークモデルが提案されている。
【先行技術文献】
【特許文献】
【０００７】
特開２０１６－１８９５２９号公報
国際公開第２０１５／０４５４４４号
米国特許出願公開第２０２２／０３９４５１２号明細書
特表２０１５－５１５１９６号公報
米国特許出願公開第２０２０／００４５６２７号明細書
【非特許文献】
【０００８】
Chih-Wei Huang, Po-Chen Chen, "Mobile Traffic Offloading with Forecasting using Deep Reinforcement Learning", arXiv:1911.07452, 18 Nov 2019
Christopher M. Bishop, "Mixture Density Networks", Neural Computing Research Group Report (NCRG/94/004), Aston University, February, 1994
【発明の概要】
【発明が解決しようとする課題】
【０００９】
強化学習では、モデルの挙動を意図通りにコントロールすることが困難である。このような強化学習の特性があるため、制約あり強化学習では、学習後のモデルの挙動の結果、制約に関する指標がしきい値を超えることが多い。制約が守られない場合、モデルを用いた制御に問題が生じる可能性がある。例えば無線アクセスネットワークにおける基地局の制御において、基地局の負荷に関する制約が破られると、通信の輻輳の発生を招く。
【００１０】
１つの側面では、本件は、制約が破られることを抑止することを目的とする。
【課題を解決するための手段】
（【００１１】以降は省略されています）

関連特許