TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025156856
公報種別
公開特許公報(A)
公開日
2025-10-15
出願番号
2024059582
出願日
2024-04-02
発明の名称
エンティティ抽出システム、エンティティ選択方法
出願人
株式会社日立製作所
代理人
弁理士法人サンネクスト国際特許事務所
主分類
G06F
40/279 20200101AFI20251007BHJP(計算;計数)
要約
【課題】構造化されていないテキストデータからのデータ抽出の精度を向上できる。
【解決手段】エンティティ抽出システムは、構造化されていない文章である処理対象文からエンティティの候補であるエンティティ候補を認識する候補認識部と、エンティティ候補のそれぞれについて1以上の特徴を評価し、評価の結果に基づき確信度を決定する確信度決定部と、確信度に基づきエンティティ候補からエンティティを選択するエンティティ選択部と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
構造化されていない文章である処理対象文からエンティティの候補であるエンティティ候補を認識する候補認識部と、
前記エンティティ候補のそれぞれについて1以上の特徴を評価し、前記評価の結果に基づき確信度を決定する確信度決定部と、
前記確信度に基づき前記エンティティ候補から前記エンティティを選択するエンティティ選択部と、を備えるエンティティ抽出システム。
続きを表示(約 1,100 文字)
【請求項2】
請求項1に記載のエンティティ抽出システムにおいて、
前記候補認識部は、前記処理対象文を1文ずつに分解し、前記処理対象文の1文を学習済みの機械学習モデルに入力して前記エンティティ候補を得る処理を繰り返す、エンティティ抽出システム。
【請求項3】
請求項1に記載のエンティティ抽出システムにおいて、
前記1以上の特徴には、前記処理対象文における前記エンティティ候補の出現頻度の評価が含まれる、エンティティ抽出システム。
【請求項4】
請求項1に記載のエンティティ抽出システムにおいて、
前記1以上の特徴には、前記処理対象文における前記エンティティ候補の位置の評価が含まれる、エンティティ抽出システム。
【請求項5】
請求項1に記載のエンティティ抽出システムにおいて、
前記候補認識部は、抽出した前記エンティティ候補について確からしさの指標である予測確率も出力し、
前記1以上の特徴には前記予測確率が含まれる、エンティティ抽出システム。
【請求項6】
請求項1に記載のエンティティ抽出システムにおいて、
前記候補認識部は、前記処理対象文を1文ずつ処理して前記エンティティ候補を抽出し、
前記1以上の特徴には、前記候補認識部が前記エンティティ候補を抽出した1文を含む2文以上を、前記候補認識部とは異なるエンティティ抽出器に一度に入力して同一の前記エンティティ候補が得られるか否かが含まれる、エンティティ抽出システム。
【請求項7】
請求項1に記載のエンティティ抽出システムにおいて、
前記1以上の特徴には、前記処理対象文における前記エンティティ候補とあらかじめ定められたキーワードとの相対距離が含まれる、エンティティ抽出システム。
【請求項8】
請求項1に記載のエンティティ抽出システムにおいて、
前記確信度決定部は、前記エンティティ候補ごとに複数の特徴の有無を判断し、前記エンティティ候補が有する特徴に基づき前記確信度を決定する、エンティティ抽出システム。
【請求項9】
請求項1に記載のエンティティ抽出システムにおいて、
前記エンティティ選択部は、前記確信度が最も高い前記エンティティ候補のみを前記エンティティとして選択する、エンティティ抽出システム。
【請求項10】
請求項1に記載のエンティティ抽出システムにおいて、
前記エンティティ選択部は、前記確信度が高い前記エンティティ候補ほど高い割合で前記エンティティとして選択する、エンティティ抽出システム。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、エンティティ抽出システム、およびエンティティ選択方法に関する。
続きを表示(約 2,100 文字)
【背景技術】
【0002】
構造化されていないテキストデータから必要なデータを抽出する技術が広く求められている。特許文献1には、カスタマイズ可能なテンプレート規則に基づいて構造化データ出力を生成するために、非構造化データのコンピュータ支援ガイド付きレビューを提供するシステムが開示されている。このシステムでは、非構造化ファイルが受信され、所定のテンプレートが選択される。所定のテンプレートは複数のフィールドを含み、各フィールドは構造化レポートのフィールドに対応する。所定のテンプレートはまた、所定のテンプレートの各フィールドに対する抽出規則を定義し、抽出規則は、関連するフィールドに関連する非構造化データを識別するためのパラメータを定義する。抽出規則は、非構造化ファイルに適用されて、対応する抽出規則に関連するフィールドに関連するデータを識別し、関連すると識別されたデータを確認する。関連するデータを確認することは、条件に基づいて関連するデータを精緻化することを決定することと、関連するデータを精緻化するためにフィールドに関連する抽出規則を修正することとを含む。
【先行技術文献】
【特許文献】
【0003】
米国特許第11550810号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載されている発明では、構造化されていないテキストデータからのデータ抽出に改善の余地がある。
【課題を解決するための手段】
【0005】
本発明の第1の態様によるエンティティ抽出システムは、構造化されていない文章である処理対象文からエンティティの候補であるエンティティ候補を認識する候補認識部と、前記エンティティ候補のそれぞれについて1以上の特徴を評価し、前記評価の結果に基づき確信度を決定する確信度決定部と、前記確信度に基づき前記エンティティ候補から前記エンティティを選択するエンティティ選択部と、を備える。
本発明の第2の態様によるエンティティ選択方法は、構造化されていない文章である処理対象文が入力される演算装置が実行するエンティティ選択方法であって、前記エンティティの候補であるエンティティ候補を認識することと、前記エンティティ候補のそれぞれについて1以上の特徴を評価し、前記評価の結果に基づき確信度を決定することと、前記確信度に基づき前記エンティティ候補から前記エンティティを選択することと、を含む。
【発明の効果】
【0006】
本発明によれば、構造化されていないテキストデータからのデータ抽出の精度を向上できる。
【図面の簡単な説明】
【0007】
第1の実施の形態におけるエンティティ抽出システムの機能構成図
エンティティ抽出システムのハードウエア構成図
エンティティ抽出システムの概要処理を示す図
記憶部に格納されるデータを示す図
確信度決定部が実行する評価手法の一覧を示す図
評価手法適用可否テーブルの一例を示す図
エンティティ抽出システムの処理概要を示すフローチャート
図7のステップS33に示した候補認識処理の詳細を示すフローチャート
図7のステップS34に示した確信度決定処理の詳細を示すフローチャート
図7のステップS35に示したエンティティ選択処理の詳細を示すフローチャート
変形例1における確信度決定部の処理を示すフローチャート
変形例1における確信度決定部の処理を示すフローチャート
変形例2におけるエンティティ選択部の処理を示すフローチャート
第2の実施の形態におけるエンティティ抽出システムの機能構成図
学習データ生成処理を示すフローチャート
【発明を実施するための形態】
【0008】
―第1の実施の形態―
以下、図1~図10を参照して、エンティティ抽出システムの第1の実施の形態を説明する。
【0009】
図1は、第1の実施の形態におけるエンティティ抽出システム1の機能構成図である。エンティティ抽出システム1は、候補認識部11と、確信度決定部12と、エンティティ選択部13と、記憶部14と、UI処理部15と、を備える。エンティティ抽出システム1は、ユーザ9の動作指令に基づき動作する。ユーザ9は、エンティティ抽出システム1に対して処理対象文91および抽出カテゴリ92を指定する。
【0010】
処理対象文91はエンティティ抽出システム1が処理対象とする文章であり、後述するように構造化されていないテキストである。抽出カテゴリ92とは、処理対象文91から抽出すべきエンティティの種類を特定する識別子である。この識別子は、あらかじめ定められたいずれかである。エンティティ抽出システム1は、フィールドごとのエンティティを出力する。各構成および記憶部14に格納されるデータは後に説明する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
株式会社日立製作所
鉄道車両
8日前
株式会社日立製作所
放射線モニタ
1日前
株式会社日立製作所
ガス分離システム
8日前
株式会社日立製作所
調停案提示システム
9日前
株式会社日立製作所
部品管理装置及び方法
15日前
株式会社日立製作所
データ変換装置および方法
2日前
株式会社日立製作所
治療効果予測システムおよび方法
9日前
株式会社日立製作所
計算機システム及び障害対処支援方法
9日前
株式会社日立製作所
情報処理システム、及び情報処理方法
15日前
株式会社日立製作所
圧延設定支援装置及び圧延設定支援方法
8日前
株式会社日立製作所
燃料電池ブロックおよび燃料電池システム
9日前
株式会社日立製作所
商品演出支援システム、及び商品演出支援方法
2日前
株式会社日立製作所
制御装置,移動体,制御システム及び制御方法
11日前
株式会社日立製作所
不具合文書処理装置、及び不具合文書処理方法
3日前
株式会社日立製作所
搬送装置を制御する制御システム及び制御方法
8日前
株式会社日立製作所
事象分析装置、事象分析方法および分析システム
2日前
株式会社日立製作所
生産ラインを編成する装置、システムおよび方法
10日前
株式会社日立製作所
エンティティ抽出システム、エンティティ選択方法
10日前
株式会社日立製作所
異常事象対処支援装置および異常事象対処支援方法
10日前
株式会社日立製作所
計算機システム、プログラム、及びデータ圧縮方法
1日前
株式会社日立製作所
情報処理システム、情報処理方法およびプログラム
2日前
株式会社日立製作所
情報処理装置、情報処理方法、及び情報処理プログラム
3日前
株式会社日立製作所
行動分析装置、行動分析方法及び案内情報提供システム
1日前
株式会社日立製作所
エネルギー貯蔵先選択装置およびエネルギー貯蔵先選択方法
1日前
株式会社日立製作所
飛行体検知装置、飛行体検知方法、及び飛行体制御システム
15日前
株式会社日立製作所
情報処理方法、情報処理プログラム、及び情報処理システム
15日前
株式会社日立製作所
管路推定システム、管路推定方法、および管路推定プログラム
8日前
株式会社日立製作所
障害分析システム、障害分析方法、及び障害分析モデル生成方法
15日前
株式会社日立製作所
データ連動システム、データ連動方法及びデータ連動プログラム
15日前
株式会社日立製作所
水素製造システム、電力供給装置及び水素製造システムの制御方法
1日前
株式会社日立製作所
電力需給管理システム、電力需給管理方法および自律分散復旧装置
2日前
株式会社日立製作所
ロボットの動作学習装置、動作学習システム、および、動作学習方法
15日前
株式会社日立製作所
脅威インテリジェンス生成装置、及び脅威インテリジェンス生成方法
16日前
株式会社日立製作所
治療選択支援装置、治療選択支援方法、および治療選択支援プログラム
15日前
株式会社日立製作所
オブジェクト指向システム、及び、オブジェクト指向システムの作成方法
2日前
株式会社日立製作所
ロボット制御装置、ロボット、ロボット制御システム、および、ロボット制御方法
1日前
続きを見る
他の特許を見る