TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025181568
公報種別
公開特許公報(A)
公開日
2025-12-11
出願番号
2024107787
出願日
2024-07-03
発明の名称
情報処理装置、情報処理方法及びプログラム
出願人
株式会社調和技研
,
宝印刷株式会社
代理人
個人
主分類
G06F
16/35 20250101AFI20251204BHJP(計算;計数)
要約
【課題】大規模言語モデルを利用して、対象情報に含まれる固有表現の同一性を適切に判定する。
【解決手段】情報処理装置100は、LLMを利用して対象書類10に含まれる金額データとその金額データを識別可能な属性情報とを抽出し、その抽出された金額データにその抽出された属性情報を付与する付与部120と、その属性情報に基づいて、対象書類10に含まれる金額データのうちから同一種類の複数の金額データを特定し、その複数の金額データを比較してその複数の金額データが同一か否かを判定する判定部130とを備える。
【選択図】図1
特許請求の範囲
【請求項1】
大規模言語モデルを利用して、対象情報に含まれる固有表現と当該固有表現を識別可能な属性情報とを抽出し、当該抽出された固有表現に当該抽出された属性情報を付与する付与部と、
前記属性情報に基づいて、前記対象情報に含まれる前記固有表現のうちから同一種類の複数の固有表現を特定し、当該複数の固有表現を比較して当該複数の固有表現が同一か否かを判定する判定部と
を備える情報処理装置。
続きを表示(約 1,300 文字)
【請求項2】
前記付与部は、前記対象情報と、前記固有表現と当該固有表現に係る前記属性情報とを前記対象情報から抽出して当該抽出された固有表現に当該抽出された属性情報を付与することを指示する指示情報とを、前記大規模言語モデルに入力し、前記大規模言語モデルからの出力結果である、前記固有表現に前記属性情報が付与された前記対象情報を取得する
請求項1に記載の情報処理装置。
【請求項3】
前記対象情報は、テキスト情報とテーブル情報との双方を含み、
前記付与部は、前記テキスト情報において前記固有表現の位置に当該固有表現に係る前記属性情報を追記し、前記テーブル情報が当該テーブル情報に含まれる文字情報及び数値情報に変換された変換後のテーブル情報において前記固有表現の位置に当該固有表現に係る前記属性情報を追記する
請求項1に記載の情報処理装置。
【請求項4】
前記テキスト情報において追記された前記属性情報と、前記変換後のテーブル情報において追記された前記属性情報とを用いて判定された判定結果を、前記属性情報が追記された前記テキスト情報と、前記属性情報が追記された前記変換後のテーブル情報とに重ねて表示させる出力制御部をさらに備える
請求項3に記載の情報処理装置。
【請求項5】
前記固有表現は、金額表現であり、
前記付与部は、前記対象情報における前記金額表現の種類と、前記金額表現の年度情報と、前記金額表現の単位の種類と、前記金額表現の数値の総額とを前記属性情報として抽出する
請求項1に記載の情報処理装置。
【請求項6】
前記判定部は、前記金額表現の種類と、前記金額表現の年度情報と、前記金額表現の単位の種類とのうちの少なくとも1つを用いて、前記金額表現のうちから同一種類の複数の金額表現を特定し、当該複数の金額表現に係る前記金額表現の数値の総額を比較して当該複数の金額表現が同一か否かを判定する
請求項5に記載の情報処理装置。
【請求項7】
前記対象情報は、企業が開示する開示書類である
請求項1から6の何れかに記載の情報処理装置。
【請求項8】
前記付与部は、
前記対象情報と前記指示情報とを、前記大規模言語モデルに複数回入力して得られた複数回の前記出力結果を取得し、
前記複数の出力結果を比較した比較結果に基づいて、前記複数の出力結果のうちから、前記判定部による判定処理で用いられる出力結果を決定する、
請求項2に記載の情報処理装置。
【請求項9】
前記付与部は、前記複数の出力結果を比較し、内容が同一の出力結果が閾値を基準として多い場合には、当該内容が同一の出力結果を、前記判定部による判定処理で用いられる出力結果とする、
請求項8に記載の情報処理装置。
【請求項10】
前記付与部は、前記抽出された属性情報のうちで、表記ゆれが生じている複数の属性情報が存在する場合には、前記大規模言語モデルを利用して、当該表記ゆれが生じている複数の属性情報の表記を統一する処理を実行する、
請求項1に記載の情報処理装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、言語情報を扱うことが可能な情報処理装置、情報処理方法及びプログラムに関する。
続きを表示(約 2,300 文字)
【背景技術】
【0002】
従来、言語情報を扱う技術が存在する。例えば、事実データデータベースを用いて、不整合データ及び対応するテキスト中の表現の修正を行う技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
特開平11-167576号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した従来技術では、テキストに含まれる事実データのうちから不整合を検出するため、多数の事実を示す事実データを事実データデータベースに格納しておく必要がある。しかし、不整合を適切に検出するための全ての事実データを事実データデータベースに格納することが困難であると考えられる。
【0005】
本発明は、大規模言語モデルを利用して、対象情報に含まれる固有表現の同一性を適切に判定することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様は、大規模言語モデルを利用して、対象情報に含まれる固有表現と当該固有表現を識別可能な属性情報とを抽出し、当該抽出された固有表現に当該抽出された属性情報を付与する付与部と、属性情報に基づいて、対象情報に含まれる固有表現のうちから同一種類の複数の固有表現を特定し、当該複数の固有表現を比較して当該複数の固有表現が同一か否かを判定する判定部とを備える情報処理装置である。
【発明の効果】
【0007】
本発明によれば、大規模言語モデルを利用して、対象情報に含まれる固有表現の同一性を適切に判定することができる。
【図面の簡単な説明】
【0008】
図1は、情報処理装置の機能構成例を示すブロック図である。
図2は、情報処理装置の処理対象となる対象書類の一例を示す図である。
図3は、付与部により付与される属性情報の一例を示す図である。
図4は、LLMを用いて対象書類に含まれる金額データとその金額データの属性情報とを抽出する場合の抽出処理の流れを模式的に示す図である。
図5は、LLMに入力される入力データと、LLMから出力される出力データとの関係例を示す図である。
図6は、対象書類の入力に対してLLMから出力されたタグ付き対象書類を簡略化して示す図である。
図7は、タグ付き対象書類に含まれる金額データ及びその属性情報の比較例を示す図である。
図8は、判定処理においてエラーが検出された固有表現をユーザに通知する場合の通知例を示す図である。
図9は、判定処理の一例を示すフローチャートである。
図10は、情報処理装置の使用例を示す図である。
図11は、情報処理装置の使用例を示す図である。
図12は、情報処理装置の機能構成例を示すブロック図である。
図13は、情報処理技術の観点から固有表現を分類した分類内容の一例を示す図である。
図14は、固有表現に関する属性情報の一例を示す図である。
図15は、数値(固有表現)に関する属性情報の一例を示す図である。
図16は、MONEY(固有表現)に関する属性情報の一例を示す図である。
図17は、対象情報からタグ付き対象情報への遷移例を示す図である。
図18は、名前あり(固有表現)に関する属性情報の一例を示す図である。
図19は、PERSON(人名)に関する属性情報の一例を示す図である。
図20は、対象情報からタグ付き対象情報への遷移例を示す図である。
図21は、対象情報からタグ付き対象情報への遷移例を示す図である。
図22は、対象情報からタグ付き対象情報への遷移例を示す図である。
図23は、ORG(組織名)に関する属性情報の一例を示す図である。
図24は、対象情報からタグ付き対象情報への遷移例を示す図である。
図25は、LOC(地名)に関する属性情報の一例を示す図である。
図26は、COUNTRY(地名)に関する属性情報の一例を示す図である。
図27は、時間に関する属性情報の一例を示す図である。
図28は、DATEに関する属性情報の一例を示す図である。
図29は、TIMEに関する属性情報の一例を示す図である。
図30は、複数の付与結果を用いた判定処理例を示すフローチャートである。
図31は、対象情報からタグ付き対象情報への遷移例を示す図である。
図32は、表記ゆれを解消して行う判定処理例を示すフローチャートである。
図33は、LLMにより定義された属性を用いた判定処理例を示すフローチャートである。
図34は、LLMを用いて実現可能なグラフ情報の一例を示す図である。
図35は、グラフ情報を用いた判定処理例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付図面を参照しながら本発明の実施形態について説明する。
【0010】
[情報処理装置の構成例]
図1は、情報処理装置100の機能構成例を示すブロック図である。なお、情報処理装置100は、サーバ、パーソナルコンピュータ、スマートフォン、タブレット端末等の情報処理装置、電子機器により実現可能である。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
他の特許を見る