TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024126067
公報種別公開特許公報(A)
公開日2024-09-20
出願番号2023034209
出願日2023-03-07
発明の名称強化学習を用いた、ネットワークシステムに対する自律型セキュリティ検証のための行動選択装置、学習装置、行動選択方法及びプログラム
出願人KDDI株式会社
代理人個人,個人
主分類G06F 21/57 20130101AFI20240912BHJP(計算;計数)
要約【課題】ネットワークシステムを対象としたセキュリティ検証において、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルで入力としてこれらを受け取ることができる手法を提供すること。
【解決手段】
強化学習を用いたセキュリティ検証において、ネットワークシステムの状態をグラフとして観測し、内部でホスト、行動種別を分割して処理することで、次に採るべき行動を出力する方策モデルを採用する。
【選択図】図3
特許請求の範囲【請求項1】
セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との3つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理部と、
前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理部と、
前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理部と、
前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理部と、
を備える行動選択装置。
続きを表示(約 1,400 文字)【請求項2】
前記再帰型学習処理部は、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取る、請求項1に記載の行動選択装置。
【請求項3】
前記ホスト・行動種別選択処理部は、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得る、請求項1又は請求項2に記載の行動選択装置。
【請求項4】
ネットワークシステムを対象とするセキュリティ検証のために採るべき行動を示す関数を最適化するための強化学習を行う学習装置であって、
前記関数は、引数としてセキュリティ検証の対象となる前記ネットワークシステムの状態を表すグラフの局所的な特徴を考慮した状態を受け取り、前記ネットワークシステムの過去の状態を考慮してセキュリティ検証のために次に採るべき行動の確率を返す方策関数である、学習装置。
【請求項5】
セキュリティ検証の対象となるネットワークシステムの状態を、前記ネットワークシステムにおけるホストに対応するノードの集合と、前記ホストの接続関係に対応するエッジの集合と、前記ホストの各々の属性情報を示す特徴ベクトルに対応するノードの特徴ベクトルの集合との3つ組みによって表すグラフを入力として受け取り、前記グラフ全体の特徴を表すベクトルを出力するグラフ処理ステップと、
前記グラフ全体の特徴を表すベクトルと、前記グラフのノードの特徴ベクトルの集合とを入力として受け取り、前記グラフの局所的な特徴を考慮したベクトルを出力する局所的特徴処理ステップと、
前記グラフの局所的な特徴を考慮したベクトルを入力として受け取り、前記ネットワークシステムの過去の状態を考慮したベクトルを出力する再帰型学習処理ステップと、
前記過去の状態を考慮したベクトルを入力として受け取り、次に採るべきセキュリティ検証のための行動の確率を示すベクトルを出力するホスト・行動種別選択処理ステップと、
を含む行動選択方法。
【請求項6】
前記再帰型学習処理ステップは、前記グラフの局所的な特徴を考慮したベクトルに加え、隠れベクトルを入力として受け取り、過去の状態を考慮したベクトルに加え、更新された隠れベクトルを出力し、当該更新された隠れベクトルを次の時刻の処理における隠れ状態ベクトルとして受け取る、請求項5に記載の行動選択方法。
【請求項7】
前記ホスト・行動種別選択処理ステップは、前記過去の状態を考慮したベクトルを、ホストを表すベクトルと行動種別を表すベクトルに分解し、これらの行列積により前記ホストと前記行動種別の両者を含む値を取得し、これをもとに行動の確率を示すベクトルを得る、請求項5又は請求項6に記載の行動選択方法。
【請求項8】
請求項1又は請求項2に記載の行動選択装置としてコンピュータを機能させるための行動選択プログラム。
【請求項9】
請求項3に記載の行動選択装置としてコンピュータを機能させるための行動選択プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、強化学習を用いた、ネットワークシステムに対する自律的なセキュリティ検証のための行動選択装置、学習装置、行動選択方法及びプログラムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
ネットワークシステムに対する脆弱性検査では、検査対象となるネットワークシステムの状態の観測と、その観測した状態にもとづく脆弱性検査の行動の選択を繰り返し行う場合があり、このようにして行われる脆弱性検査は、マルコフ決定過程モデルの一例といえる。この場合、マルコフ決定過程における状態空間をネットワークシステムの状態、行動空間を脆弱性検査のための行動と対応づけることで、脆弱性検査に強化学習を適用することができる。そして、ネットワークシステムに対する脆弱性検査に強化学習を適用することにより検査を効率的に行い得るとの期待がある。
【0003】
また、ネットワークシステムのセキュリティ検証では、近年、セキュリティの専門家集団が攻撃チームを作り、検証対象システムに対して物理/仮想を問わず現実に近い各種攻撃を仕掛けることによりセキュリティ対応能力等の検査を行う、レッドチーム演習(Red Teaming Operation)が行われるようになっている。このようなレッドチーム演習の場面において、攻撃チーム(レッドチーム)を担当する専門家には高度な知識が要求されるため、演習を完全に自動化することは難しかった。
しかしながら、IoTの進展等により、ますます高度に情報化・ネットワーク化が進みつつある昨今では、あらゆる機器に対するセキュリティ検証が必要不可欠となるであろうところ、AIの導入により検証を自動化し得るとの期待がある。
【0004】
非特許文献1は、外部から攻撃を仕掛けてシステムに侵入しコンピュータやネットワークの脆弱性を検査する侵入テスト(Penetration Testing)の自動化に関する研究を開示しており、行動空間を階層化し、各エージェントが出力する行動の数を抑制することで、強化学習を高速かつ安定的に進めるモデルを提案している。
しかしながら、このモデルでは、環境から取得する状態の数がホストマシンやサブネットの数が増えるにしたがって増加する。加えて、現実的には検査対象となるマシンで稼働するOSやサービス等の情報が重要であるにも関わらず、非特許文献1の研究では各マシンで稼働するサービスの状態までは考慮していない。したがって、このモデルを現実的なネットワークシステムに適用することは困難である。
【0005】
なお、一般に、侵入テストは脆弱性検査の手法の一つであり、脆弱性検査はセキュリティを検証するための具体的行動と位置付けられる。なお、本明細書で用いる「セキュリティ検証」という用語の厳密な定義については後述する。
【先行技術文献】
【特許文献】
【0006】
特願2022-129996(出願日:2022年8月17日、発明の名称:状態表現装置、学習装置、状態表現方法及び状態表現プログラム)
【非特許文献】
【0007】
K. Tran et al., “Deep hierarchical reinforcement agents for automated penetration testing,” Proc. International Workshop on Adaptive Cyber Defense, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0008】
既存の研究では、環境から観測する状態空間やエージェントが選択する行動空間については限定的な設定しか検討されていない。そのため、より大きな状態、行動空間への適用が課題となっている。また、既存の研究では、学習したネットワークシステムと同一の環境にしか対応できなかった。そのため、ネットワークトポロジやホストの数が異なる場合はモデルの構造から変更する必要があった。
これらの課題を解決するために、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルでこれらを入力として受け取ることができる手法の開発が望まれている。
【0009】
なお、先述の特許文献1(先願)は、ネットワークシステムの状態を示す効率的な表現(グラフ)を得るための装置等を提案しており、当該装置等を用いることにより強化学習の収束性が改善され得ることを示唆しているが、ネットワークシステムのセキュリティを検証するための具体的な手法を開示するものではない。
【0010】
本発明は、先述の課題を解決するために、より大きな状態、行動空間を的確に表現する手法や、ネットワークトポロジやホストの数が異なる場合にも同じモデルで入力としてこれらを受け取ることができる手法を提供することを目的とする。そのために、本発明は、強化学習を用いたセキュリティ検証において、ネットワークシステムの状態をグラフとして観測し、前記グラフの局所的な特徴を考慮し、また、前記ネットワークシステムの過去の状態を考慮し、さらに、内部でホスト、行動種別を分割して処理することで、次に採るべき行動を出力するモデルを提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

KDDI株式会社
光受信機及び光送信機
14日前
KDDI株式会社
ルーター及び試験方法
18日前
KDDI株式会社
移動通信ネットワーク
3日前
KDDI株式会社
通信システム及び通信方法
14日前
KDDI株式会社
情報処理装置及び情報処理方法
10日前
KDDI株式会社
情報処理装置及び情報処理方法
17日前
KDDI株式会社
ノイズ除去装置及びプログラム
14日前
KDDI株式会社
情報処理装置及び情報処理方法
11日前
KDDI株式会社
光ニューラルネットワーク装置
27日前
KDDI株式会社
情報処理装置及び情報処理方法
3日前
KDDI株式会社
リザバーコンピューティング装置
21日前
KDDI株式会社
機能性デバイス及びその制御方法
24日前
KDDI株式会社
パケット転送装置及びプログラム
11日前
KDDI株式会社
制御装置、制御方法及びプログラム
3日前
KDDI株式会社
通信装置、通信方法及び通信プログラム
18日前
KDDI株式会社
通信サーバ、通信方法及び通信プログラム
21日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
24日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
11日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
3日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
24日前
KDDI株式会社
端末装置、制御方法、制御装置及びプログラム
3日前
KDDI株式会社
暗号化装置、暗号化方法、及び暗号化プログラム
10日前
KDDI株式会社
端末装置、基地局装置、制御方法、及びプログラム
14日前
KDDI株式会社
基地局装置、端末装置、制御方法、及びプログラム
25日前
KDDI株式会社
画像符号化装置、画像符号化方法、およびプログラム
4日前
KDDI株式会社
ID生成装置、ID生成方法及びID生成プログラム
26日前
KDDI株式会社
暗号化装置、復号装置、暗号化方法及び暗号化プログラム
11日前
KDDI株式会社
通信端末、セッション制御装置、及び、ゲートウェイ装置
14日前
KDDI株式会社
ネットワークのデータ変化検知装置、方法及びプログラム
21日前
KDDI株式会社
データ処理装置、データ処理システム、及びデータ処理方法
4日前
KDDI株式会社
ユーザ装置、基地局、およびそれらの制御方法、プログラム
17日前
KDDI株式会社
移動通信に用いられる管理装置、方法、システム及びプログラム
11日前
KDDI株式会社
処置対象に対する処置を提案するプログラム、装置、システム及び方法
3日前
KDDI株式会社
キャッシュされたファイルを推定するクライアント装置及びプログラム
3日前
KDDI株式会社
メッセージ配信装置、メッセージ配信方法及びメッセージ配信プログラム
26日前
KDDI株式会社
説明可能な機械学習エンジンを再訓練するプログラム、学習装置及び方法
10日前
続きを見る