TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025107160
公報種別
公開特許公報(A)
公開日
2025-07-17
出願番号
2024231493
出願日
2024-12-27
発明の名称
固有表現抽出方法、固有表現抽出装置及びプログラム
出願人
株式会社リコー
代理人
弁理士法人ITOH
主分類
G06F
40/295 20200101AFI20250710BHJP(計算;計数)
要約
【課題】本発明は固有表現抽出方法、装置および記憶媒体に関し、機械学習と自然言語処理分野に属する。
【解決手段】該方法は、固有表現再現モデルを使ってオリジナルテキスト中の固有表現候補を再現し、固有表現候補に基づいて外部知識ベースを検索し、固有表現候補に関連する付加情報を取得した後、オリジナルテキストと繋ぎ合せることにより負付加報を含む繋ぎ合せテキストを形成する。繋ぎ合せテキストを用いて固有表現抽出の際に、より多くの付加情報を導入することにより、複雑な(細かい)固有表現抽出シーンにおいて固有表現抽出の正確性を向上させることができる。
【選択図】図1
特許請求の範囲
【請求項1】
固有表現抽出装置が実行する固有表現抽出方法であって、
テキストにおける任意タイプの固有表現を再現する固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現するステップと、
知識ベースを前記第1テキスト中の固有表現候補に基づいて検索し、前記第1テキスト中の固有表現候補の関連情報を取得するステップであって、前記知識ベースは、複数の固有表現の関連情報を含み、前記固有表現の関連情報は、固有表現の表現名称、表現タイプ及び表現記述情報を含む、ステップと、
前記第1テキストをオリジナルテキストとし、前記第1テキスト中の固有表現候補の関連情報を付加テキストとし、前記第1テキストと前記第1テキスト中の固有表現候補の関連情報とを繋ぎ合わせて第2テキストを取得するステップと、
入力されたテキスト中のオリジナルテキストから固有表現を抽出する固有表現抽出モデルに、前記第2テキストを入力し、前記固有表現抽出モデルにより前記第2テキスト中のオリジナルテキストから固有表現を抽出するステップと、を含むことを特徴とする固有表現抽出方法。
続きを表示(約 2,900 文字)
【請求項2】
前記テキストにおける任意タイプの固有表現を再現する固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現する前に、
固有表現のみがラベル付けされ、且つ対応する表現タイプがラベル付けされていない第1トレーニングデータを取得するステップと、
前記第1トレーニングデータを用いて固有表現の再現率をモデル訓練の最適化指標として固有表現再現モデルを訓練するステップと、を更に含むことを特徴とする請求項1に記載の固有表現抽出方法。
【請求項3】
前記固有表現がラベル付けされ、且つ表現タイプがラベル付けされていない第1トレーニングデータを取得するステップは、
固有表現ラベル情報を有する第2トレーニングデータを取得するステップであって、前記固有表現ラベル情報は、固有表現及び表現タイプを含む、ステップと、
前記固有表現ラベル情報に基づいて、前記第2トレーニングデータ中の表現セグメントと非表現セグメントを特定するステップと、
前記第2トレーニングデータ中の固有表現ラベル情報を削除し、前記第2トレーニングデータ中の表現セグメントを固有表現としてラベル付けし、非表現セグメントを非固有表現としてラベル付けして、第1トレーニングデータを取得するステップと、を含むことを特徴とする請求項2に記載の固有表現抽出方法。
【請求項4】
前記知識ベースを前記第1テキスト中の固有表現候補に基づいて検索する前に、
知識データを取得し、前記知識データをクリーニングして整理し、固有表現の表現名称、表現タイプ及び表現記述情報を含むフォーマット化データを取得するステップと、
検索エンジンフレームワークを使って、前記フォーマット化データをベースに、表現語に基づく完全一致検索とファジー検索をサポートする知識ベースを構築するステップと、を更に含むことを特徴とする請求項1に記載の固有表現抽出方法。
【請求項5】
前記知識ベースを前記第1テキスト中の固有表現候補に基づいて検索し、前記第1テキスト中の固有表現候補の関連情報を取得するステップは、
前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて表現名称と完全一致マッチングして、前記第1テキスト中の固有表現候補の第1関連情報を取得することと、
前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて表現名称の発音とファジーマッチングして、前記第1テキスト中の固有表現候補の第2関連情報を取得することと、
前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて長さが同一であり、且つ類似度が所定の閾値より大きい表現名称とファジーマッチングして、前記第1テキスト中の固有表現候補の第3関連情報を取得することとのうちのいずれか一つを含むことを特徴とする請求項4に記載の固有表現抽出方法。
【請求項6】
前記固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現する前に、
固有表現ラベル情報を含む第3トレーニングデータを取得し、前記固有表現再現モデルを使って、前記第3トレーニングデータ中の固有表現候補を再現するステップと、
前記知識ベースを前記第3トレーニングデータ中の固有表現候補に基づいて検索し、前記第3トレーニングデータ中の固有表現候補の関連情報を取得するステップと、
前記第3トレーニングデータをオリジナルテキストとし、前記第3トレーニングデータ中の固有表現候補の関連情報を付加テキストとして、前記第3トレーニングデータと前記第3トレーニングデータ中の固有表現候補の関連情報を繋ぎ合せて、第4トレーニングデータを取得するステップと、
前記第4トレーニングデータを用いて前記固有表現抽出モデルを訓練するステップと、をさらに含むことを特徴とする請求項2に記載の固有表現抽出方法。
【請求項7】
テキストにおける任意タイプの固有表現を再現する固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現する第1再現モジュールと、
知識ベースを前記第1テキスト中の固有表現候補に基づいて検索し、前記第1テキスト中の固有表現候補の関連情報を取得する第1検索モジュールであって、前記知識ベースは、複数の固有表現の関連情報を含み、前記固有表現の関連情報は、固有表現の表現名称、表現タイプ及び表現記述情報を含む、第1検索モジュールと、
前記第1テキストをオリジナルテキストとし、前記第1テキスト中の固有表現候補の関連情報を付加テキストとし、前記第1テキストと前記第1テキスト中の固有表現候補の関連情報とを繋ぎ合せて第2テキストを取得する第1繋ぎ合せモジュールと、
入力されたテキスト中のオリジナルテキストから固有表現を抽出する固有表現抽出モデルに、前記第2テキストを入力し、前記固有表現抽出モデルにより前記第2テキスト中のオリジナルテキストから固有表現を抽出する抽出モジュールと、を含むことを特徴とする固有表現抽出装置。
【請求項8】
固有表現のみがラベル付けされ、且つ対応する表現タイプがラベル付けされていない第1トレーニングデータを取得する第1取得モジュールと、
前記第1トレーニングデータを用いて固有表現の再現率をモデル訓練の最適化指標として固有表現再現モデルを訓練する第1訓練モジュールと、を更に含むことを特徴とする請求項7に記載の固有表現抽出装置。
【請求項9】
前記第1取得モジュールは、さらに、
固有表現ラベル情報を有する第2トレーニングデータを取得し、前記固有表現ラベル情報は、固有表現及び表現タイプを含み、
前記固有表現ラベル情報に基づいて、前記第2トレーニングデータ中の表現セグメントと非表現セグメントを特定し、
前記第2トレーニングデータ中の固有表現ラベル情報を削除し、前記第2トレーニングデータ中の表現セグメントを固有表現としてラベル付けし、非表現セグメントを非固有表現としてラベル付けして、第1トレーニングデータを取得することを特徴とする請求項8に記載の固有表現抽出装置。
【請求項10】
前記知識ベースを前記第1テキスト中の固有表現候補に基づいて検索する前に、知識データを取得し、前記知識データをクリーニングして整理し、固有表現の表現名称、表現タイプ及び表現記述情報を含むフォーマット化データを取得し、検索エンジンフレームワークを使って、前記フォーマット化データをベースに、表現語に基づく完全一致検索とファジー検索をサポートする知識ベースを構築する構築モジュール、を更に含むことを特徴とする請求項7に記載の固有表現抽出装置。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は機械学習と自然言語処理(NLP、Natural Language Processing)分野に属し、具体的には固有表現抽出方法、装置および記憶媒体に関する。
続きを表示(約 2,800 文字)
【背景技術】
【0002】
近年、大規模なテキストの語義特徴の自動抽出に、ニューラルネットワークに基づく固有表現抽出(NER、Named Entity Recognition)モデルが使用され、すでに良好な効果が得られた。しかし、実際の応用において、表現に対して細かい識別が必要な場合、識別対象のテキストが短文(十分な文脈がない)であり、識別対象のテキストにスペルミスやタイプミスがある、といった状況が生じうる。このような状況に対して、流行るプリトレーニング・トランス(transformer)でも正確な識別は難しい。
【0003】
例えば、「メーターメイドという言葉がビートルズのかわいいリタに広まり、この男性歌手は女性の交通監視員に魅了された」という文の場合、文中の「ビートルズ」は「著書」、「他の製品」、「バンド」などの表現タイプとし、「かわいいリタ」は「著書」、「その他の製品」、「音楽作品」などの表現タイプとして認識されることが多い。複雑(細い)な固有表現抽出では、さらに上記の文の「ビートルズ」を「バンド」、「かわいいリタ」を「音楽作品」と認識することが望ましい。したがって、上記の文に対して、現在の固有表現抽出モデルでは、その中の固有表現を細く正しく認識することが困難である。そのため、複雑な(細い)固有表現抽出シーンにおいて正確率を向上できる固有表現抽出方法が早急に必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の少なくとも一つの実施例は、複雑な(細い)固有表現抽出シーンにおいて正確率を向上できる固有表現抽出方法、装置および記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記課題を解決するために、本発明の第1態様は、固有表現抽出装置が実行する固有表現抽出方法であって、テキストにおける任意タイプの固有表現を再現する固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現するステップと、知識ベースを前記第1テキスト中の固有表現候補に基づいて検索し、前記第1テキスト中の固有表現候補の関連情報を取得するステップであって、前記知識ベースは、複数の固有表現の関連情報を含み、前記固有表現の関連情報は、固有表現の表現名称、表現タイプ及び表現記述情報を含む、ステップと、前記第1テキストをオリジナルテキストとし、前記第1テキスト中の固有表現候補の関連情報を付加テキストとし、前記第1テキストと前記第1テキスト中の固有表現候補の関連情報とを繋ぎ合わせて第2テキストを取得するステップと、入力されたテキスト中のオリジナルテキストから固有表現を抽出する固有表現抽出モデルに、前記第2テキストを入力し、前記固有表現抽出モデルにより前記第2テキスト中のオリジナルテキストから固有表現を抽出するステップと、を含むことを特徴とする固有表現抽出方法を提供する。
【0006】
好ましくは、前記方法は、前記テキストにおける任意タイプの固有表現を再現する固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現する前に、固有表現のみがラベル付けされ、且つ対応する表現タイプがラベル付けされていない第1トレーニングデータを取得するステップと、前記第1トレーニングデータを用いて固有表現の再現率をモデル訓練の最適化指標として固有表現再現モデルを訓練するステップと、を更に含む。
【0007】
また、好ましくは、前記固有表現がラベル付けされ、且つ表現タイプがラベル付けされていない第1トレーニングデータを取得するステップは、固有表現ラベル情報を有する第2トレーニングデータを取得するステップであって、前記固有表現ラベル情報は、固有表現及び表現タイプを含む、ステップと、前記固有表現ラベル情報に基づいて、前記第2トレーニングデータ中の表現セグメントと非表現セグメントを特定するステップと、前記第2トレーニングデータ中の固有表現ラベル情報を削除し、前記第2トレーニングデータ中の表現セグメントを固有表現としてラベル付けし、非表現セグメントを非固有表現としてラベル付けして、第1トレーニングデータを取得するステップと、を含む。
【0008】
また、好ましくは、前記知識ベースを前記第1テキスト中の固有表現候補に基づいて検索する前に、知識データを取得し、前記知識データをクリーニングして整理し、固有表現の表現名称、表現タイプ及び表現記述情報を含むフォーマット化データを取得するステップと、検索エンジンフレームワークを使って、前記フォーマット化データをベースに、表現語に基づく完全一致検索とファジー検索をサポートする知識ベースを構築するステップと、を更に含む。
【0009】
また、好ましくは、前記知識ベースを前記第1テキスト中の固有表現候補に基づいて検索し、前記第1テキスト中の固有表現候補の関連情報を取得するステップは、前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて表現名称と完全一致マッチングして、前記第1テキスト中の固有表現候補の第1関連情報を取得することと、前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて表現名称の発音とファジーマッチングして、前記第1テキスト中の固有表現候補の第2関連情報を取得することと、前記第1テキスト中の固有表現候補をデータとして、前記知識ベースにおいて長さが同一であり、且つ類似度が所定の閾値より大きい表現名称とファジーマッチングして、前記第1テキスト中の固有表現候補の第3関連情報を取得することとのうちのいずれか一つを含む。
【0010】
また、好ましくは、前記方法は、前記固有表現再現モデルを使って、抽出する第1テキスト中の固有表現候補を再現する前に、固有表現ラベル情報を含む第3トレーニングデータを取得し、前記固有表現再現モデルを使って、前記第3トレーニングデータ中の固有表現候補を再現するステップと、前記知識ベースを前記第3トレーニングデータ中の固有表現候補に基づいて検索し、前記第3トレーニングデータ中の固有表現候補の関連情報を取得するステップと、前記第3トレーニングデータをオリジナルテキストとし、前記第3トレーニングデータ中の固有表現候補の関連情報を付加テキストとして、前記第3トレーニングデータと前記第3トレーニングデータ中の固有表現候補の関連情報を繋ぎ合せて、第4トレーニングデータを取得するステップと、前記第4トレーニングデータを用いて前記固有表現抽出モデルを訓練するステップと、をさらに含む。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
株式会社リコー
固有表現抽出方法、固有表現抽出装置及びプログラム
3日前
株式会社リコー
伝送管理装置
3日前
株式会社リコー
情報提供システム、電子機器、情報提供方法、及びプログラム
4日前
株式会社リコー
情報処理システム、情報処理装置、情報処理方法、プログラム、機器
3日前
個人
対話装置
1か月前
個人
裁判のAI化
3日前
個人
情報処理装置
1か月前
個人
情報処理システム
10日前
個人
情報処理装置
1か月前
個人
記入設定プラグイン
26日前
個人
検査システム
12日前
株式会社サタケ
籾摺・調製設備
11日前
個人
不動産売買システム
18日前
キヤノン電子株式会社
携帯装置
11日前
個人
情報入力装置
1か月前
個人
物価スライド機能付生命保険
1か月前
個人
マイホーム非電子入札システム
1か月前
個人
備蓄品の管理方法
10日前
サクサ株式会社
中継装置
11日前
株式会社BONNOU
管理装置
1か月前
キヤノン株式会社
情報処理装置
11日前
キヤノン株式会社
情報処理装置
11日前
キヤノン電子株式会社
名刺管理システム
12日前
アスエネ株式会社
排水量管理方法
11日前
株式会社東芝
電子機器
19日前
東洋電装株式会社
操作装置
11日前
東洋電装株式会社
操作装置
11日前
ホシデン株式会社
タッチ入力装置
18日前
株式会社ワコム
電子消去具
18日前
個人
決済手数料0%のクレジットカード
1か月前
サクサ株式会社
カードの制動構造
1か月前
個人
パターン抽出方法及び通信多重化方法
17日前
株式会社JVCケンウッド
管理装置
12日前
株式会社ライト
情報処理装置
1か月前
トヨタ自動車株式会社
情報処理装置
1か月前
村田機械株式会社
割当補助システム
1か月前
続きを見る
他の特許を見る