特許ウォッチ

公開番号2025145266
公報種別公開特許公報(A)
公開日2025-10-03
出願番号2024045356
出願日2024-03-21
発明の名称埋め込み表現作成装置、埋め込み表現作成方法及び埋め込み表現作成プログラム
出願人KDDI株式会社
代理人個人
主分類G06F 40/279 20200101AFI20250926BHJP(計算;計数)
要約【課題】高い表現力を持つサイバー脅威関連情報の埋め込み手法を提供すること。
【解決手段】埋め込み表現作成装置1は、ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第1タグの分布に基づいて、当該センテンスに対する第2タグを決定する種別判定部11と、第2タグが共通する複数のセンテンスを連結し、ドキュメントを第2タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部12と、部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部13と、を備える。
【選択図】図1
特許請求の範囲【請求項１】
ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第１タグの分布に基づいて、当該センテンスに対する第２タグを決定する種別判定部と、
前記第２タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第２タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部と、
前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部と、を備える埋め込み表現作成装置。
続きを表示（約 1,100 文字）【請求項２】
前記種別判定部は、前記第１タグの多数決によって前記第２タグを決定する請求項１に記載の埋め込み表現作成装置。
【請求項３】
前記種別判定部は、教師データにより学習された分類器によって、前記センテンスに対する前記第２タグを決定する請求項１に記載の埋め込み表現作成装置。
【請求項４】
前記教師データは、前記第１タグの分布において、所定の割合を超える情報種別が前記第２タグとして設定されたものである請求項３に記載の埋め込み表現作成装置。
【請求項５】
前記ドキュメント分割部は、前記センテンスの構文に関する所定のルールに従って、前記ドキュメント内で連続するセンテンスを、前記第２タグが異なっていても連結する請求項１から請求項４のいずれかに記載の埋め込み表現作成装置。
【請求項６】
前記部分ドキュメントごとの前記埋め込み表現を比較することにより、前記ドキュメント間の類似性を評価する類似性評価部を備える請求項１から請求項４のいずれかに記載の埋め込み表現作成装置。
【請求項７】
前記類似性評価部は、前記部分ドキュメントの情報量が閾値を下回る場合、当該部分ドキュメントの前記埋め込み表現を比較対象から除外する請求項６に記載の埋め込み表現作成装置。
【請求項８】
前記ドキュメント分割部は、前記ドキュメント間において、一方の前記部分ドキュメントの情報量のみが閾値を下回る場合、当該部分ドキュメントと他の部分ドキュメントとを、前記ドキュメントの中でのセンテンスの順序を保って結合し、前記第２タグを複合した新たなタグを付与した新たな部分ドキュメントを生成する請求項６に記載の埋め込み表現作成装置。
【請求項９】
ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第１タグの分布に基づいて、当該センテンスに対する第２タグを決定する種別判定ステップと、
前記第２タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第２タグが付与された複数の部分ドキュメントに再構成するドキュメント分割ステップと、
前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理ステップと、をコンピュータが実行する埋め込み表現作成方法。
【請求項１０】
請求項１から請求項８のいずれかに記載の埋め込み表現作成装置としてコンピュータを機能させるための埋め込み表現作成プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、サイバー脅威情報を収集及び分析するための技術に関する。
続きを表示（約 2,200 文字）【背景技術】
【０００２】
従来、サイバー脅威関連情報は、ＮＶＤ（National Vulnerability Database、例えば、非特許文献１参照）などの脆弱性データベースで公開され、あるいは、セキュリティベンダのブログ、ＳＮＳ、掲示板などからも発信されている。
特定のサイバー脅威に関する情報を収集し分析する際、これらの点在する非構造化データを集約し、人又はコンピュータが理解できる形式に変換する必要がある。一般に用いられる方法として、サイバー脅威関連情報を知識グラフに変換してデータの分析を行う方法（例えば、非特許文献２参照）、あるいは、ＬＬＭ（Large Language Models）を用いて埋め込み表現に落とし込む、又はファインチューニングする方法（例えば、非特許文献３参照）などが挙げられる。
【先行技術文献】
【非特許文献】
【０００３】
NATIONAL VULNERABILITY DATABASE (NVD), [online], 2023年9月11日, NIST, [令和6年3月12日検索], インターネット＜https://nvd.nist.gov/general＞
Aritran Piplai et al., Creating Cybersecurity Knowledge Graphs From Malware After Action Reports, IEEE Access, vol. 8, 211691-211703, 2020.
Jian Liu et al., TriCTI: an actionable cyber threat intelligence discovery system via trigger-enhanced neural network, Cybersecurity, vol. 5(1), 1-8, 2022.
Md Tanvirul Alam et al., CyNER: A Python Library for Cybersecurity Named Entity Recognition, arXiv:2204.05754, 2022.
Xuren Wang et al., DNRTI: A Large-Scale Dataset for Named Entity Recognition in Threat Intelligence, 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom).
Nils Reimers et al., Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, arXiv:1908.10084, 2019.
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ＴｒａｎｓｆｏｒｍｅｒをベースとしたＬＬＭを用いる場合、例えばＢＥＲＴでは、入力された文字列をトークン化し、エンコードしたデータをＴｒａｎｓｆｏｒｍｅｒの入力とし、最終的に各トークンに対応する埋め込み表現と、入力された文字列に対応する埋め込み表現とが得られる。
しかしながら、一般に、ＳＮＳ又は掲示板などの情報をそのまま入力文字列とすると、不必要な情報も含まれるため、質の低い埋め込み表現となる可能性があった。
【０００５】
本発明は、高い表現力を持つサイバー脅威関連情報の埋め込み手法を提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明に係る埋め込み表現作成装置は、ドキュメントに含まれるセンテンスのそれぞれについて、当該センテンスを構成する単語に付与された情報種別を示す第１タグの分布に基づいて、当該センテンスに対する第２タグを決定する種別判定部と、前記第２タグが共通する複数のセンテンスを連結し、前記ドキュメントを前記第２タグが付与された複数の部分ドキュメントに再構成するドキュメント分割部と、前記部分ドキュメントのそれぞれについて、所定の言語モデルによる埋め込み表現を取得する埋め込み処理部と、を備える。
【０００７】
前記種別判定部は、前記第１タグの多数決によって前記第２タグを決定してもよい。
【０００８】
前記種別判定部は、教師データにより学習された分類器によって、前記センテンスに対する前記第２タグを決定してもよい。
【０００９】
前記教師データは、前記第１タグの分布において、所定の割合を超える情報種別が前記第２タグとして設定されたものであってもよい。
【００１０】
前記ドキュメント分割部は、前記センテンスの構文に関する所定のルールに従って、前記ドキュメント内で連続するセンテンスを、前記第２タグが異なっていても連結してもよい。
（【００１１】以降は省略されています）

関連特許