発明の詳細な説明【技術分野】 【0001】 本発明は、サイバー脅威情報を収集及び分析するための技術に関する。 続きを表示(約 2,200 文字)【背景技術】 【0002】 従来、サイバー脅威関連情報は、NVD(National Vulnerability Database、例えば、非特許文献1参照)などの脆弱性データベースで公開され、あるいは、セキュリティベンダのブログ、SNS、掲示板などからも発信されている。 特定のサイバー脅威に関する情報を収集し分析する際、これらの点在する非構造化データを集約し、人又はコンピュータが理解できる形式に変換する必要がある。一般に用いられる方法として、サイバー脅威関連情報を知識グラフに変換してデータの分析を行う方法(例えば、非特許文献2参照)、あるいは、LLM(Large Language Models)を用いて埋め込み表現に落とし込む、又はファインチューニングする方法(例えば、非特許文献3参照)などが挙げられる。 【先行技術文献】 【非特許文献】 【0003】 NATIONAL VULNERABILITY DATABASE (NVD), [online], 2023年9月11日, NIST, [令和6年3月12日検索], インターネット<https://nvd.nist.gov/general> Aritran Piplai et al., Creating Cybersecurity Knowledge Graphs From Malware After Action Reports, IEEE Access, vol. 8, 211691-211703, 2020. Jian Liu et al., TriCTI: an actionable cyber threat intelligence discovery system via trigger-enhanced neural network, Cybersecurity, vol. 5(1), 1-8, 2022. Md Tanvirul Alam et al., CyNER: A Python Library for Cybersecurity Named Entity Recognition, arXiv:2204.05754, 2022. Xuren Wang et al., DNRTI: A Large-Scale Dataset for Named Entity Recognition in Threat Intelligence, 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom). Nils Reimers et al., Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv:1908.10084, 2019. 【発明の概要】 【発明が解決しようとする課題】 【0004】 TransformerをベースとしたLLMを用いる場合、例えばBERTでは、入力された文字列をトークン化し、エンコードしたデータをTransformerの入力とし、最終的に各トークンに対応する埋め込み表現と、入力された文字列に対応する埋め込み表現とが得られる。 しかしながら、一般に、SNS又は掲示板などの情報をそのまま入力文字列とすると、不必要な情報も含まれるため、質の低い埋め込み表現となる可能性があった。 【0005】 本発明は、高い表現力を持つサイバー脅威関連情報の埋め込み手法を提供することを目的とする。 【課題を解決するための手段】 【0006】 本発明に係る埋め込み表現作成装置は、ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定部と、前記第2タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部と、前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部と、を備える。 【0007】 前記種別判定部は、前記第1タグの多数決によって前記第2タグを決定してもよい。 【0008】 前記種別判定部は、教師データにより学習された分類器によって、前記センテンスに対する前記第2タグを決定してもよい。 【0009】 前記教師データは、前記第1タグの分布において、所定の割合を超える情報種別が前記第2タグとして設定されたものであってもよい。 【0010】 前記ドキュメント分割部は、前記センテンスの構文に関する所定のルールに従って、前記ドキュメント内で連続するセンテンスを、前記第2タグが異なっていても連結してもよい。 (【0011】以降は省略されています) この特許をJ-PlatPat(特許庁公式サイト)で参照する