TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025145266
公報種別公開特許公報(A)
公開日2025-10-03
出願番号2024045356
出願日2024-03-21
発明の名称埋め込み表現作成装置、埋め込み表現作成方法及び埋め込み表現作成プログラム
出願人KDDI株式会社
代理人個人
主分類G06F 40/279 20200101AFI20250926BHJP(計算;計数)
要約【課題】高い表現力を持つサイバー脅威関連情報の埋め込み手法を提供すること。
【解決手段】埋め込み表現作成装置1は、ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定部11と、第2タグが共通する複数のセンテンスを連結し、ドキュメントを第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部12と、部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部13と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定部と、
前記第2タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部と、
前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部と、を備える埋め込み表現作成装置。
続きを表示(約 1,100 文字)【請求項2】
前記種別判定部は、前記第1タグの多数決によって前記第2タグを決定する請求項1に記載の埋め込み表現作成装置。
【請求項3】
前記種別判定部は、教師データにより学習された分類器によって、前記センテンスに対する前記第2タグを決定する請求項1に記載の埋め込み表現作成装置。
【請求項4】
前記教師データは、前記第1タグの分布において、所定の割合を超える情報種別が前記第2タグとして設定されたものである請求項3に記載の埋め込み表現作成装置。
【請求項5】
前記ドキュメント分割部は、前記センテンスの構文に関する所定のルールに従って、前記ドキュメント内で連続するセンテンスを、前記第2タグが異なっていても連結する請求項1から請求項4のいずれかに記載の埋め込み表現作成装置。
【請求項6】
前記部分ドキュメントごとの前記埋め込み表現を比較することにより、前記ドキュメント間の類似性を評価する類似性評価部を備える請求項1から請求項4のいずれかに記載の埋め込み表現作成装置。
【請求項7】
前記類似性評価部は、前記部分ドキュメントの情報量が閾値を下回る場合、当該部分ドキュメントの前記埋め込み表現を比較対象から除外する請求項6に記載の埋め込み表現作成装置。
【請求項8】
前記ドキュメント分割部は、前記ドキュメント間において、一方の前記部分ドキュメントの情報量のみが閾値を下回る場合、当該部分ドキュメントと他の部分ドキュメントとを、前記ドキュメントの中でのセンテンスの順序を保って結合し、前記第2タグを複合した新たなタグを付与した新たな部分ドキュメントを生成する請求項6に記載の埋め込み表現作成装置。
【請求項9】
ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定ステップと、
前記第2タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割ステップと、
前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理ステップと、をコンピュータが実行する埋め込み表現作成方法。
【請求項10】
請求項1から請求項8のいずれかに記載の埋め込み表現作成装置としてコンピュータを機能させるための埋め込み表現作成プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、サイバー脅威情報を収集及び分析するための技術に関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
従来、サイバー脅威関連情報は、NVD(National Vulnerability Database、例えば、非特許文献1参照)などの脆弱性データベースで公開され、あるいは、セキュリティベンダのブログ、SNS、掲示板などからも発信されている。
特定のサイバー脅威に関する情報を収集し分析する際、これらの点在する非構造化データを集約し、人又はコンピュータが理解できる形式に変換する必要がある。一般に用いられる方法として、サイバー脅威関連情報を知識グラフに変換してデータの分析を行う方法(例えば、非特許文献2参照)、あるいは、LLM(Large Language Models)を用いて埋め込み表現に落とし込む、又はファインチューニングする方法(例えば、非特許文献3参照)などが挙げられる。
【先行技術文献】
【非特許文献】
【0003】
NATIONAL VULNERABILITY DATABASE (NVD), [online], 2023年9月11日, NIST, [令和6年3月12日検索], インターネット<https://nvd.nist.gov/general>
Aritran Piplai et al., Creating Cybersecurity Knowledge Graphs From Malware After Action Reports, IEEE Access, vol. 8, 211691-211703, 2020.
Jian Liu et al., TriCTI: an actionable cyber threat intelligence discovery system via trigger-enhanced neural network, Cybersecurity, vol. 5(1), 1-8, 2022.
Md Tanvirul Alam et al., CyNER: A Python Library for Cybersecurity Named Entity Recognition, arXiv:2204.05754, 2022.
Xuren Wang et al., DNRTI: A Large-Scale Dataset for Named Entity Recognition in Threat Intelligence, 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom).
Nils Reimers et al., Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv:1908.10084, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
TransformerをベースとしたLLMを用いる場合、例えばBERTでは、入力された文字列をトークン化し、エンコードしたデータをTransformerの入力とし、最終的に各トークンに対応する埋め込み表現と、入力された文字列に対応する埋め込み表現とが得られる。
しかしながら、一般に、SNS又は掲示板などの情報をそのまま入力文字列とすると、不必要な情報も含まれるため、質の低い埋め込み表現となる可能性があった。
【0005】
本発明は、高い表現力を持つサイバー脅威関連情報の埋め込み手法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る埋め込み表現作成装置は、ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定部と、前記第2タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部と、前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部と、を備える。
【0007】
前記種別判定部は、前記第1タグの多数決によって前記第2タグを決定してもよい。
【0008】
前記種別判定部は、教師データにより学習された分類器によって、前記センテンスに対する前記第2タグを決定してもよい。
【0009】
前記教師データは、前記第1タグの分布において、所定の割合を超える情報種別が前記第2タグとして設定されたものであってもよい。
【0010】
前記ドキュメント分割部は、前記センテンスの構文に関する所定のルールに従って、前記ドキュメント内で連続するセンテンスを、前記第2タグが異なっていても連結してもよい。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

KDDI株式会社
光増幅器
1日前
KDDI株式会社
光増幅器
14日前
KDDI株式会社
光増幅器
14日前
KDDI株式会社
光増幅器
1日前
KDDI株式会社
光接続ノード
1日前
KDDI株式会社
解析装置及びプログラム
1か月前
KDDI株式会社
緊急ネットワーク分離方法
2日前
KDDI株式会社
情報処理装置及び情報処理方法
24日前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
情報処理装置及び情報処理方法
14日前
KDDI株式会社
情報処理装置及び情報処理方法
14日前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
情報処理装置及び情報処理方法
今日
KDDI株式会社
情報処理装置及び情報処理方法
今日
KDDI株式会社
情報処理装置及び情報処理方法
今日
KDDI株式会社
通信制御システム及び通信制御方法
8日前
KDDI株式会社
通信制御システム及び通信制御方法
8日前
KDDI株式会社
通信制御システム及び通信制御方法
8日前
KDDI株式会社
通信制御システム及び通信制御方法
8日前
KDDI株式会社
ネットワーク制御装置及びプログラム
1か月前
KDDI株式会社
認証装置、認証方法及び認証プログラム
1か月前
KDDI株式会社
通信装置、無線デバイス及びプログラム
4日前
KDDI株式会社
通信装置、無線デバイス及びプログラム
1か月前
KDDI株式会社
認証装置、認証方法及び認証プログラム
23日前
KDDI株式会社
中継装置、中継方法及び中継プログラム
23日前
KDDI株式会社
通信装置、無線デバイス及びプログラム
1か月前
KDDI株式会社
飛行体、情報処理装置及び情報処理方法
4日前
KDDI株式会社
無線デバイス及びコンピュータプログラム
1か月前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
15日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
1か月前
KDDI株式会社
支援処理装置、支援処理方法及びプログラム
14日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
2か月前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
8日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
4日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
1か月前
続きを見る