TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024084489
公報種別公開特許公報(A)
公開日2024-06-25
出願番号2022198786
出願日2022-12-13
発明の名称計算機システム及び文書分析方法
出願人株式会社日立製作所
代理人藤央弁理士法人
主分類G06F 16/33 20190101AFI20240618BHJP(計算;計数)
要約【課題】文及び図表から抽出される単語の情報を関連付けて抽出する。
【解決手段】文及び図表を含む文書を分析する計算機システムは、キーワードを受け付け、キーワードに関連する文の一部分である部分文を抽出し、キーワードに関連する図表を抽出し、所定の単語抽出アルゴリズムに基づいて、部分文から少なくとも一つの単語を抽出し、抽出された単語を含む第1単語データを生成し、所定の単語抽出アルゴリズムに基づいて、図表から少なくとも一つの単語を抽出し、抽出された単語を含む第2単語データを生成し、第1単語データ及び第2単語データを組み合わせることによって、関連付け単語データを生成する。
【選択図】図3
特許請求の範囲【請求項1】
文及び図表を含む文書を分析する計算機システムであって、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する計算機を備え、
キーワードを受け付け、
前記キーワードに関連する前記文の一部分である部分文を抽出し、
前記キーワードに関連する前記図表を抽出し、
所定の単語抽出アルゴリズムに基づいて、前記部分文から少なくとも一つの単語を抽出し、抽出された前記単語を含む第1単語データを生成し、
所定の単語抽出アルゴリズムに基づいて、前記図表から少なくとも一つの単語を抽出し、抽出された前記単語を含む第2単語データを生成し、
前記第1単語データ及び前記第2単語データを組み合わせることによって、関連付け単語データを生成することを特徴とする計算機システム。
続きを表示(約 2,000 文字)【請求項2】
請求項1に記載の計算機システムであって、
前記関連付け単語データから出力データを生成するためのルールを保持し、
前記ルールに基づいて、前記関連付け単語データにおける前記第1単語データに含まれる少なくとも一つの前記単語と、前記第2単語データに含まれる少なくとも一つの前記単語と、を含む前記出力データを生成し、
前記出力データを出力することを特徴とする計算機システム。
【請求項3】
請求項2に記載の計算機システムであって、
前記第1単語データの生成処理では、前記所定の単語アルゴリズムに基づく単語の抽出精度を表す第1信頼度が算出され、前記第1信頼度を含む前記第1単語データが生成され、
前記第2単語データの生成処理では、前記所定の単語アルゴリズムに基づく単語の抽出精度を表す第2信頼度が算出され、前記第2信頼度を含む前記第2単語データが生成され、
前記関連付け単語データは、前記第1単語データに含まれる少なくとも一つの前記単語及び前記第1信頼度と、前記第2単語データに含まれる少なくとも一つの前記単語及び前記第2信頼度とを含み、
前記ルールは、前記出力データのデータ構造の情報と、使用する前記関連付け単語データを前記第1信頼度及び前記第2信頼度に基づいて絞り込むための条件とを含むことを特徴とする計算機システム。
【請求項4】
請求項3に記載の計算機システムであって、
前記出力データのデータ構造の情報は、単語の種類及び数を含むことを特徴とする計算機システム。
【請求項5】
文及び図表を含む文書を分析する計算機システムが実行する文書分析方法であって、
計算機システムは、プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する計算機を含み、
前記文書分析方法は、
前記計算機システムが、キーワードを受け付ける第1のステップと、
前記計算機システムが、前記キーワードに関連する前記文の一部分である部分文を抽出する第2のステップと、
前記計算機システムが、前記キーワードに関連する前記図表を抽出する第3のステップと、
前記計算機システムが、所定の単語抽出アルゴリズムに基づいて、前記部分文から少なくとも一つの単語を抽出し、抽出された前記単語を含む第1単語データを生成する第4のステップと、
前記計算機システムが、所定の単語抽出アルゴリズムに基づいて、前記図表から少なくとも一つの単語を抽出し、抽出された前記単語を含む第2単語データを生成する第5のステップと、
前記計算機システムが、前記第1単語データ及び前記第2単語データを組み合わせることによって、関連付け単語データを生成する第6のステップと、を含むことを特徴とする文書分析方法。
【請求項6】
請求項5に記載の文書分析方法であって、
前記計算機システムは、前記関連付け単語データから出力データを生成するためのルールを保持し、
前記文書分析方法は、
前記計算機システムが、前記ルールに基づいて、前記関連付け単語データにおける前記第1単語データに含まれる少なくとも一つの前記単語と、前記第2単語データに含まれる少なくとも一つの前記単語と、を含む前記出力データを生成するステップと、
前記計算機システムが、前記出力データを出力するステップと、を含むことを特徴とする文書分析方法。
【請求項7】
請求項6に記載の文書分析方法であって、
前記第4のステップは、
前記計算機システムが、前記所定の単語アルゴリズムに基づく単語の抽出精度を表す第1信頼度を算出するステップと、
前記計算機システムが、前記第1信頼度を含む前記第1単語データを生成するステップと、を含み、
前記第5のステップは、
前記計算機システムが、前記所定の単語アルゴリズムに基づく単語の抽出精度を表す第2信頼度を算出するステップと、
前記計算機システムが、前記第2信頼度を含む前記第2単語データを生成するステップと、を含み、
前記関連付け単語データは、前記第1単語データに含まれる少なくとも一つの前記単語及び前記第1信頼度と、前記第2単語データに含まれる少なくとも一つの前記単語及び前記第2信頼度とを含み、
前記ルールは、前記出力データのデータ構造の情報と、使用する前記関連付け単語データを前記第1信頼度及び前記第2信頼度に基づいて絞り込むための条件と、を含むことを特徴とする文書分析方法。
【請求項8】
請求項7に記載の文書分析方法であって、
前記出力データのデータ構造の情報は、単語の種類及び数を含むことを特徴とする文書分析方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、文書から有用な情報を抽出するための自然言語処理技術に関する。
続きを表示(約 1,600 文字)【背景技術】
【0002】
文書から単語又は単語ペアを抽出する技術として、特許文献1及び非特許文献1に記載の技術が知られている。
【0003】
特許文献1には、「仕様検証装置は、構文解析部、仕様解析部、検出部、提示部とを備える。前記構文解析部は、自然言語で記述された要求仕様を形態素解析により単語と品詞とに分解し、係受け解析により少なくとも1つの前記単語を含む文節と、文節間の係り受け関係を表した構文データを得る。前記仕様解析部は、仕様解析ルールに従って、前記構文データを解析することにより、動詞の単語を含む文節毎に、前記動詞と、前記動詞に対する主語と、前記動詞に対する目的語と、前記動詞と前記目的とにより定まる動作が行われる前に成立している必要がある事前条件とに関する項目を含む意味表現データを生成する。前記検出部は、前記意味表現データを検査することにより、前記意味表現データにおいて前記不備のある項目を検出する」ことが記載されている。
【0004】
非特許文献1には、文書及びユーザ入力を受け付け、機械学習ベースのアプローチに従って、ドキュメントから関係を抽出し、知識ベースに格納することが記載されている。
【先行技術文献】
【特許文献】
【0005】
特開2012-103879号公報
【非特許文献】
【0006】
Sen Wu, Luke Hsiao, Xiao Cheng, Braden Hancock, Theodoros Rekatsinas, Philip Levis, Christopher Re、"Fonduer: Knowledge Base Construction from Richly Formatted Data"、SIGMOD '18: Proceedings of the 2018 International Conference on Management of Data、May 2018、Pages 1301-1316
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術では、記載位置が近い文字列の関係性に基づいて、単語又は単語ペア等を抽出することができる。しかし、記載位置が遠い文字列の関係性に基づいて単語又は単語ペアを抽出することが難しい。
【0008】
特許文献及び論文等の文書では、技術又は実験の内容を説明する文とともに、グラフ等の図表が含まれる。文から抽出される単語又は単語ペアと、図表から抽出される単語又は単語ペアとは密接に関連しているため、これらを関連付けて出力することが望ましい。しかし、文及び図表は記載位置が離れている場合が多いため、従来技術では関連付けが難しい。
【0009】
本発明は、説明文及び図表から抽出された単語又は単語ペアを関連付けて出力する技術を提供する。
【課題を解決するための手段】
【0010】
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文及び図表を含む文書を分析する計算機システムであって、プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する計算機を備え、キーワードを受け付け、前記キーワードに関連する前記文の一部分である部分文を抽出し、前記キーワードに関連する前記図表を抽出し、所定の単語抽出アルゴリズムに基づいて、前記部分文から少なくとも一つの単語を抽出し、抽出された前記単語を含む第1単語データを生成し、所定の単語抽出アルゴリズムに基づいて、前記図表から少なくとも一つの単語を抽出し、抽出された前記単語を含む第2単語データを生成し、前記第1単語データ及び前記第2単語データを組み合わせることによって、関連付け単語データを生成する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
暗号化記憶媒体
1か月前
個人
プロジェクター
1か月前
個人
環境情報処理装置
9日前
個人
求人支援システム
26日前
個人
外食予約システム
9日前
キヤノン電子株式会社
周辺機器
1か月前
個人
求人マッチングサーバ
1か月前
ニデック株式会社
冷却装置
3日前
個人
サービス提供システム
2日前
個人
海外在住支援システム
9日前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
カゴメ株式会社
営農支援プログラム
1か月前
シャープ株式会社
情報出力装置
24日前
株式会社ワコム
電子ペン
1か月前
株式会社ワコム
電子ペン
12日前
アスエネ株式会社
水管理の方法
1か月前
株式会社ワコム
電子ペン
1か月前
CKD株式会社
遠隔支援システム
1か月前
東洋電装株式会社
操作装置
12日前
東洋電装株式会社
操作装置
12日前
東洋電装株式会社
操作装置
12日前
株式会社寺岡精工
システム
1か月前
大日本印刷株式会社
作業台
1か月前
株式会社カロニマ
情報発信システム
16日前
トヨタ紡織株式会社
検査装置
1か月前
学校法人修道学園
農地集約システム
2日前
個人
ポイント増量アプリ「太陽光銭サー」
1か月前
日本信号株式会社
料金精算システム
22日前
株式会社SUBARU
操作制御装置
2日前
株式会社アジラ
異常行動検出システム
1か月前
旭精工株式会社
管理装置および管理システム
2日前
BH株式会社
商品販売システム
1か月前
株式会社三富
取引管理システム
1か月前
株式会社小野測器
移動量計測システム
1か月前
続きを見る