特許ウォッチ

公開番号2025043511
公報種別公開特許公報(A)
公開日2025-04-01
出願番号2023150825
出願日2023-09-19
発明の名称無線アクセスネットワークの制御装置
出願人KDDI株式会社
代理人弁理士法人大塚国際特許事務所
主分類H04W 24/02 20090101AFI20250325BHJP(電気通信技術)
要約【課題】学習効率の低下を防ぐと共に、学習データを収集する装置と機械学習を行う装置との間で伝送される学習データのデータ量が増えすぎることを抑えることができる。
【解決手段】無線アクセスネットワーク(RAN)の制御装置は、別の制御装置が収集した第1学習データの内の第2学習データを前記別の制御装置から取得し、前記第2学習データに基づき機械学習を行って学習モデルを生成する生成手段と、前記学習モデルを前記別の制御装置に送信する送信手段と、前記別の制御装置が前記第1学習データの前記機械学習における有用性に基づき前記第2学習データを前記第1学習データから選択して前記制御装置に送信する動作を制御する制御手段と、を備えている。
【選択図】図7
特許請求の範囲【請求項１】
無線アクセスネットワーク（ＲＡＮ）の制御装置であって、
別の制御装置が収集した第１学習データの内の第２学習データを前記別の制御装置から取得し、前記第２学習データに基づき機械学習を行って学習モデルを生成する生成手段と、
前記学習モデルを前記別の制御装置に送信する送信手段と、
前記別の制御装置が前記第１学習データの前記機械学習における有用性に基づき前記第２学習データを前記第１学習データから選択して前記制御装置に送信する動作を制御する制御手段と、
を備えている、制御装置。
続きを表示（約 1,100 文字）【請求項２】
前記制御手段は、前記別の制御装置から前記別の制御装置で利用可能な前記動作の１つ以上の動作モードを取得し、前記１つ以上の動作モードから前記別の制御装置で使用する１つの動作モードを指定することで前記動作を制御する、請求項１に記載の制御装置。
【請求項３】
前記１つ以上の動作モードは、前記制御装置への前記第２学習データの伝送速度が上限値を超えない様に前記別の制御装置が前記第１学習データの前記有用性の降順で前記第２学習データを前記第１学習データから選択する第１動作モードを含む、請求項２に記載の制御装置。
【請求項４】
前記制御手段は、前記第１動作モードを指定する場合、前記別の制御装置に前記上限値を通知する、請求項３に記載の制御装置。
【請求項５】
前記１つ以上の動作モードは、前記有用性が閾値より高い前記第１学習データを前記別の制御装置が前記第２学習データとして選択する第２動作モードを含む、請求項２に記載の制御装置。
【請求項６】
前記制御手段は、前記第２動作モードを指定する場合、前記別の制御装置に前記閾値を通知する、請求項５に記載の制御装置。
【請求項７】
前記１つ以上の動作モードは、前記別の制御装置が前記第１学習データの前記有用性に基づき前記第１学習データの選択確率の確率値を判定し、前記制御装置への前記第２学習データの伝送速度が上限値を超えない様に前記別の制御装置が前記第１学習データの前記確率値に基づく選択確率で前記第２学習データを前記第１学習データから選択する第３動作モードを含み、
前記確率値は、前記有用性が高い程、高くなる、請求項２に記載の制御装置。
【請求項８】
前記制御手段は、前記第３動作モードを指定する場合、前記別の制御装置に前記上限値と、前記有用性に基づき前記確率値を判定するための判定情報と、を通知する、請求項７に記載の制御装置。
【請求項９】
前記別の制御装置は、前記制御装置への前記第２学習データの伝送速度が上限値を超えない様に前記第１学習データの前記有用性の降順で前記第２学習データを前記第１学習データから選択し、
前記制御手段は、前記上限値を制御することで前記動作を制御する、請求項１に記載の制御装置。
【請求項１０】
前記別の制御装置は、前記有用性が閾値より高い前記第１学習データを前記第２学習データとして選択し、
前記制御手段は、前記閾値を制御することで前記動作を制御する、請求項１に記載の制御装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本開示は、無線アクセスネットワーク（ＲＡＮ）の制御技術に関する。
続きを表示（約 2,800 文字）【背景技術】
【０００２】
図１は、オープン無線アクセスネットワーク（Ｏ－ＲＡＮ）アライアンスが提案するＲＡＮの制御構成を示している。図１に示す様に、長周期的な制御を行う第１制御機能と、短周期的な制御を行う第２制御機能と、が定義されている。Ｏ－ＲＡＮにおいて、第１制御機能は、非リアルタイムＲＡＮインテリジェントコントローラ（Ｎｏｎ－ＲＴＲＩＣ）と呼ばれ、第２制御機能は、ニアリアルタイムＲＡＮインテリジェントコントローラ（Ｎｅａｒ－ＲＴＲＩＣ）と呼ばれる。
【０００３】
第１制御機能と第２制御機能は、Ａ１インタフェースを介して接続される。第２制御機能は、Ｅ２インタフェースを介してＲＡＮの構成要素である中央ユニット（ＣＵ）や分散ユニット（ＤＵ）等を制御する。なお、ＣＵやＤＵを制御するとは、ＣＵやＤＵがその処理において使用する各種のパラメータ値をＣＵやＤＵに通知・設定することや、ＣＵやＤＵに対して何らかの動作の実行を指示すること等を含む。さらに、以下の説明において"ＲＡＮ"との用語を、その構成要素の総称として使用する。したがって、例えば、"ＲＡＮを制御する"とは、ＲＡＮの構成要素であるＣＵやＤＵ等を制御することを意味する。第１制御機能、第２制御機能及びＲＡＮは、さらに、Ｏ１インタフェースで接続される。Ｏ１インタフェースは、ＲＡＮが計測／検知して蓄積するトラフィックデータ、パフォーマンスデータ、障害データ等の送信に使用され得る。
【０００４】
非特許文献１は、ＲＡＮの制御に対して機械学習を利用する構成を開示している。具体的には、非特許文献１は、ＲＡＮ等から収集した様々な学習データに基づき機械学習を行って学習モデルを生成し、当該学習モデルを使用して推論を行い、推論結果に従ってＲＡＮを制御することを開示している。非特許文献１が開示する複数の構成の内の１つにおいては、第１制御機能が学習モデルを生成する。そして、第２制御機能は、第１制御機能が生成した学習モデルを使用してＲＡＮを制御する。
【０００５】
非特許文献２は、高い学習効率を得ることができる分散強化学習を開示している。図２に示す様に、分散強化学習において、学習部は、格納部に格納されている学習データに基づき機械学習を行って学習モデルを生成する。学習部は、分散して配置された複数の実行部に学習モデルを配布する。各実行部は、それぞれ"制御対象"に関連付けられる。実行部は、制御対象の"現在の状態"に基づき学習モデルを使用して制御対象に対する制御内容を決定し、決定した"制御内容"に基づき当該制御対象の制御を実行する。実行部は、この制御の結果としての制御対象の"次の状態"を判定して、制御目標の"達成度"を評価する。なお、分散強化学習において、上記説明の"制御対象"、"現在の状態"、"次の状態"、"制御内容"及び"達成度"は、それぞれ、"Ｅｎｖｉｒｏｍｅｎｔ"（環境）、"Ｓｔａｔｅ"、"ＮｅｘｔＳｔａｔｅ"、"Ａｃｔｉоｎ"（行動）及び"Ｒｅｗａｒｄ"（報酬）と呼ばれる。
【０００６】
そして、実行部は、達成度と、現在の状態と、次の状態と、に基づき、時間差分誤差（Ｔｅｍｐоｒａｌｄｉｆｆｅｒｅｎｃｅｅｒｒоｒ）と呼ばれる評価値を求める。なお、以下の説明において、時間差分誤差をＴＤ誤差と表記し、その値をＴＤ誤差値と表記する。ＴＤ誤差値は、制御の結果として得られた"達成度"と"次の状態"に基づき判定される価値との和から、制御前の"現在の状態"に基づき判定される価値を減じたものとして定義される。ＴＤ誤差値が大きいことは、"次の状態"での制御目標の達成度が低いこと、つまり、"現在の状態"に基づく学習モデルの出力の精度が低いこと、或いは、"現在の状態"に基づく学習モデルの出力誤差が大きいことを意味する。
【０００７】
実行部は、"現在の状態"、"次の状態"、"制御内容"及び"達成度"を学習データとして、学習部による次の学習のために格納部に格納する。この際、実行部は、当該学習データついて求めたＴＤ誤差値を当該学習データに付与する。上記の通り、学習データのＴＤ誤差値が大きいことは、当該学習データに含まれる学習モデルへの入力データ（現在の状態）による学習モデルの出力の精度が低いことを意味する。したがって、ＴＤ誤差値の大きい学習データを機械学習に使用することで学習モデルが大きく更新されて学習効果が高くなる。このため、学習部は、格納部に格納されている学習データの内、より大きいＴＤ誤差値が付与されている学習データを優先して機械学習に使用する。これにより、学習部による学習効率を高くすることができる。
【先行技術文献】
【非特許文献】
【０００８】
Ｏ－ＲＡＮＡｌｌｉａｎｃｅ，"ＡＩ／ＭＬｗｏｒｋｆｌｏｗｄｅｓｃｒｉｐｔｉｏｎａｎｄｒｅｑｕｉｒｅｍｅｎｔｓ"，Ｏ－ＲＡＮ．ＷＧ２．ＡＩＭＬ－ｖ０１．０３，２０２１年７月
Ｄ．Ｈｏｒｇａｎ，ｅｔ．ａｌ．，"Ｄｉｓｔｒｉｂｕｔｅｄｐｒｉｏｒｉｔｉｚｅｄｅｘｐｅｒｉｅｎｃｅｒｅｐｌａｙ"，ａｒＸｉｖ：１８０３．００９３３．，２０１８年４月
【発明の概要】
【発明が解決しようとする課題】
【０００９】
図３は、分散強化学習をＯ－ＲＡＮに適用した場合の構成を示している。学習モデルに基づきＲＡＮを制御する実行部は、第２制御機能に配置され、学習モデルを生成する学習部と、実行部が収集する学習データを格納する格納部は、第１制御機能に配置される。しかしながら、図３の構成では、第２制御機能の各実行部からの学習データのデータ量が膨大となり過ぎる。例えば、第１制御機能がカバーする領域に２５０万台のユーザ装置（ＵＥ）があり、ＲＡＮから取得される学習データのサイズが１つのＵＥ当たり３５６バイトであり、第１制御機能がカバーする領域にある第２制御機能の各実行部が１秒間に２０回の周期で学習データを第１制御機能に送信するものとする。この場合、第１制御機能は、毎秒１４２．４ギガビットのデータを受信することになり、現実的ではない。例えば、第２制御機能の各実行部が学習データを送信する周期を長くすることで、第１制御機能が受信する学習データのデータ量を減らすことができるが、学習効率を低下させ得る。
【００１０】
本開示は、学習効率の低下を防ぐと共に、学習データを収集する装置と機械学習を行う装置との間で伝送される学習データのデータ量が増えすぎることを抑える技術を提供するものである。
【課題を解決するための手段】
（【００１１】以降は省略されています）

関連特許