TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025097749
公報種別公開特許公報(A)
公開日2025-07-01
出願番号2023214107
出願日2023-12-19
発明の名称文書検索プログラム、文書検索装置および文書検索方法
出願人株式会社東芝
代理人弁理士法人鈴榮特許綜合事務所
主分類G06F 16/33 20250101AFI20250624BHJP(計算;計数)
要約【課題】文書検索において入力クエリまたは検索文に余分な単語が含まれている場合の検索精度を向上させることができる文書検索プログラムを提供することである。
【解決手段】 実施形態の文書検索プログラムは、入力クエリ取得と、検索文取得機能と、テキストフラグメント分割機能と、スコア計算機能と、文書決定機能とをコンピュータに実現させる。入力クエリ取得機能は、ユーザが入力した入力クエリを取得する。検索文取得機能は、文書データベースから検索文を取得する。テキストフラグメント分割機能は、文節により構成されるテキストフラグメント単位に前記入力クエリと前記検索文を分割する。スコア計算機能は、前記入力クエリと前記検索文との類似度の計算に用いるテキストフラグメントを選択し、選択したテキストフラグメントの類似度に基づいて前記検索文と前記入力クエリとの類似度を計算する。
【選択図】 図2


特許請求の範囲【請求項1】
コンピュータに、
ユーザが入力した入力クエリを取得する入力クエリ取得機能と、
検索対象の検索文書と各検索文書に付与された検索文とを蓄積した文書データベースから前記検索文を取得する検索文取得機能と、
文節により構成されるテキストフラグメント単位に前記入力クエリを分割した第1のテキストフラグメントと、前記テキストフラグメント単位に前記検索文を分割した第2のテキストフラグメントを生成するテキストフラグメント分割機能と、
前記第1のテキストフラグメントと前記第2のテキストフラグメントとの類似度を計算し、前記類似度に基づいて前記第1のテキストフラグメント及び前記第2のテキストフラグメントの中から前記入力クエリと前記検索文との類似度の計算に用いるテキストフラグメントを選択し、選択した前記第1のテキストフラグメント及び第2のテキストフラグメントの類似度に基づいて前記検索文と前記入力クエリとの類似度を計算するスコア計算機能と、
前記検索文と前記入力クエリとの類似度に基づいて、前記検索文書の中から出力する文書を決定する文書決定機能と、
を実現させるための文書検索プログラム。
続きを表示(約 1,300 文字)【請求項2】
前記スコア計算機能は、前記第1のテキストフラグメントと前記第2のテキストフラグメントとの類似度に基づいて、前記検索文の節ごとに前記入力クエリとの類似度を計算し、前記検索文の節ごとの類似度に基づいて、前記検索文と前記入力クエリとの類似度を計算する、
請求項1に記載の文書検索プログラム。
【請求項3】
前記スコア計算機能は、前記第1のテキストフラグメントと前記第2のテキストフラグメントとの類似度に基づいて、前記第1のテキストフラグメントのそれぞれについて当該第1のテキストフラグメントと類似する第2のテキストフラグメントを選択し、選択した第2のテキストフラグメントのみを用いて前記検索文と前記入力クエリとの類似度を計算する、
請求項1に記載の文書検索プログラム。
【請求項4】
前記検索文は、類似度の計算に不要な単語を含んでいる、
請求項3に記載の文書検索プログラム。
【請求項5】
前記スコア計算機能は、前記第2のテキストフラグメントが重複しないように、前記第1のテキストフラグメントのそれぞれについて、当該第1のテキストフラグメントと類似する前記第2のテキストフラグメントを選択する、
請求項3に記載の文書検索プログラム。
【請求項6】
前記テキストフラグメント分割機能は、前記入力クエリと前記検索文のそれぞれを文節単位に分割し、分割された文節を用いて前記第1のテキストフラグメント及び前記第2のテキストフラグメントを生成する、
請求項1に記載の文書検索プログラム。
【請求項7】
前記第1のテキストフラグメントと類似する第2のテキストフラグメントを取得し、取得した第2のテキストフラグメントのみを用いて再構成文を生成する文再構成機能をさらに実現させるためのプログラムであって、
前記文書決定機能は、前記再構成文を検索文として用いて、前記検索文と前記入力クエリとの類似度を再計算する、
請求項3に記載の文書検索プログラム。
【請求項8】
複数の前記第1のテキストフラグメントを含む検索文を抽出し、抽出した検索文の少なくとも1つに含まれている第1のテキストフラグメントを選択するテキストフラグメント選択機能をさらに実現させるためのプログラムであって、
前記スコア計算機能は、前記選択されたユーザ質問文のテキストフラグメントと、類似度スコアを計算し、検索節単位で集計する、
請求項1に記載の文書検索プログラム。
【請求項9】
前記入力クエリは、類似度の計算に不要な単語を含んでいる、
請求項8に記載の文書検索プログラム。
【請求項10】
前記第2のテキストフラグメントの中から、前記第1のテキストフラグメントと類似しない第2のテキストフラグメントを抽出するテキストフラグメント抽出機能と、
前記抽出した第2のテキストフラグメントを検索に用いる推薦ワードとして出力する検索ワード推薦機能と、
をさらに実現するための、請求項3に記載の文書検索プログラム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明の実施形態は、文書検索プログラム、文書検索装置および文書検索方法に関する。
続きを表示(約 3,100 文字)【背景技術】
【0002】
インターネット上で提供される文書検索システムとして、ユーザによって入力されたキーワード又は文章などの入力クエリに基づいて、サーバ上に保管されているQA集から入力クエリに関連するQA文書を検索して回答するQA検索システムがある。QA集は、QA文書が記憶された文書データベースである。このようなQA検索システムでは、入力クエリの単語と各QA文書中の単語との関連性をTF-IDFやOkapi BM25を用いて算出し、算出結果に基づいて検索したQA文書の順位付けを行っている。また、深層学習技術を利用して、入力クエリやQA文書に含まれる文章をベクトル化し、文章ベクトル間の類似度を用いて入力クエリとQA文書との関連性を算出する方法も利用されるようになった。
【0003】
しかしながら、上記方法では、入力クエリとQA文書に含まれる文章中の全ての情報を関連性の算出に利用している。このため、入力クエリやQA文章の中にQA検索に本来必要ない単語が含まれている場合、その余分な単語が関連性の算出時に考慮されてしまい、入力クエリとして入力された質問文との関連性が低いQA文書が検索されてしまうことがある。
【先行技術文献】
【特許文献】
【0004】
特許第7131130号公報
特開2020-123131号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、入力クエリと検索文を用いた文書検索において、入力クエリまたは検索文に余分な単語が含まれている場合の検索精度を向上させることができる文書検索プログラム、文書検索装置および文書検索方法を提供することである。
【課題を解決するための手段】
【0006】
このような課題を解決するため、実施形態の文書検索プログラムは、入力クエリ取得と、検索文取得機能と、テキストフラグメント分割機能と、スコア計算機能と、文書決定機能とをコンピュータに実現させる。入力クエリ取得機能は、ユーザが入力した入力クエリを取得する。検索文取得機能は、検索対象の検索文書と各検索文書に付与された検索文とを蓄積した文書データベースから前記検索文を取得する。テキストフラグメント分割機能は、文節により構成されるテキストフラグメント単位に前記入力クエリを分割した第1のテキストフラグメントと、前記テキストフラグメント単位に前記検索文を分割した第2のテキストフラグメントを生成する。スコア計算機能は、前記第1のテキストフラグメントと前記第2のテキストフラグメントとの類似度を計算し、前記類似度に基づいて前記第1のテキストフラグメント及び前記第2のテキストフラグメントの中から前記入力クエリと前記検索文との類似度の計算に用いるテキストフラグメントを選択し、選択した前記第1のテキストフラグメント及び第2のテキストフラグメントの類似度に基づいて前記検索文と前記入力クエリとの類似度を計算する。文書決定機能は、前記検索文と前記入力クエリとの類似度に基づいて、前記検索文書の中から出力する文書を決定する。
【図面の簡単な説明】
【0007】
第1の実施形態に係る文書検索システムの構成の一例を示す図。
第1の実施形態に係る文書検索装置の構成の一例を示す図。
第1の実施形態に係る文書検索処理の処理手順を例示するフローチャート。
第1の実施形態に係る文書検索処理におけるデータの流れの一例を示す図。
入力クエリと検索文の一例を示す図。
図5に示す入力クエリをテキストフラグメント単位に分割した図。
図5に示す検索文をテキストフラグメント単位に分割した図。
図6及び図7に示すテキストフラグメント間の類似度スコアの計算方法を示す図。
図6及び図7に示すテキストフラグメント間の類似度スコアを示す図。
図9に示す類似度スコアを用いた節間の類似度スコアを示す図。
図5に示す各検索文の類似度スコアを示す図。
比較例に係る各検索文の類似度スコアを示す図。
第2の実施形態に係る文書検索装置の構成の一例を示す図。
第2の実施形態に係る文書検索処理の処理手順を例示するフローチャート。
第2の実施形態に係る文書検索処理におけるデータの流れの一例を示す図。
図11に示す各検索文の類似度スコアの計算に用いたテキストフラグメントを示す図。
図16に示すテキストフラグメントを用いて生成した再構成文を示す図。
図17に示す再構成文を用いて計算した類似度スコアを示す図。
第3の実施形態に係る文書検索装置の構成の一例を示す図。
第3の実施形態に係る文書検索処理の処理手順を例示するフローチャート。
第3の実施形態に係る文書検索処理におけるデータの流れの一例を示す図。
入力クエリの一例を示す図。
検索文の一例を示す図。
図21及び図22を用いて計算した同時出現数を示す図。
第4の実施形態に係る文書検索装置の構成の一例を示す図。
第4の実施形態に係る文書検索処理の処理手順を例示するフローチャート。
第4の実施形態に係る文書検索処理におけるデータの流れの一例を示す図。
入力クエリの一例を示す図。
検索文の一例を示す図。
図28及び図29を用いた類似度スコアの計算で使用しなかったテキストフラグメントを示す図。
第5の実施形態に係る文書検索装置の構成の一例を示す図。
第5の実施形態に係る文書検索処理の処理手順を例示するフローチャート。
第5の実施形態に係る文書検索処理におけるデータの流れの一例を示す図。
図5-図11で類似度スコアの計算に使用したテキストフラグメントを示す図。
図34を用いた表示画面の一例を示す図。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら、文書検索プログラム、文書検索装置および文書検索方法の実施形態について詳細に説明する。以下の説明において、略同一の機能及び構成を有する構成要素については、同一符号を付し、重複説明は必要な場合にのみ行う。
【0009】
(第1の実施形態)
図1は、第1の実施形態に係る文書検索装置100を含む文書検索システム1の構成を示す図である。文書検索システム1は、ユーザからの問合せに基づき、文書データベースの中から当該問合せに合致する文書データを選出する対話型の文書検索を実行するコンピュータネットワークシステムである。図1に示すように、文書検索システム1は、文書検索装置100、文書DB(データベース)200、及びクライアント端末300を有する。
【0010】
文書検索装置100は、ネットワーク等を介して、文書DB200およびクライアント端末300に接続されている。ネットワークは、例えば、LAN(Local Area Network)である。なお、ネットワークへの接続は、有線接続、及び無線接続を問わない。また、ネットワークはLANに限定されず、インターネットや公衆の通信回線等であっても構わない。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

株式会社東芝
センサ
1か月前
株式会社東芝
制御装置
1か月前
株式会社東芝
判定装置
10日前
株式会社東芝
遮断装置
8日前
株式会社東芝
配線治具
1日前
株式会社東芝
立て看板
1か月前
株式会社東芝
搬送装置
9日前
株式会社東芝
回転電機
15日前
株式会社東芝
電子機器
9日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
1か月前
株式会社東芝
真空バルブ
1か月前
株式会社東芝
電磁流量計
3日前
株式会社東芝
半導体装置
14日前
株式会社東芝
半導体装置
1か月前
株式会社東芝
半導体装置
15日前
株式会社東芝
アンテナ装置
7日前
株式会社東芝
ディスク装置
1か月前
株式会社東芝
区分システム
1か月前
株式会社東芝
スイッチギヤ
1か月前
株式会社東芝
アイソレータ
22日前
株式会社東芝
静止誘導電器
1か月前
株式会社東芝
ディスク装置
3日前
株式会社東芝
車両システム
1か月前
株式会社東芝
スイッチギヤ
1か月前
株式会社東芝
操作盤カバー
7日前
株式会社東芝
計算機システム
3日前
株式会社東芝
紙葉類処理装置
21日前
株式会社東芝
磁気ディスク装置
9日前
株式会社東芝
磁気ディスク装置
1か月前
株式会社東芝
X線厚み測定装置
1か月前
株式会社東芝
バックアップ回路
21日前
株式会社東芝
磁気ディスク装置
7日前
株式会社東芝
物品区分システム
23日前
株式会社東芝
磁気ディスク装置
7日前
続きを見る