TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024128597
公報種別公開特許公報(A)
公開日2024-09-24
出願番号2023037638
出願日2023-03-10
発明の名称類似文書検索装置、類似文書検索方法およびプログラム
出願人清水建設株式会社
代理人弁理士法人酒井国際特許事務所
主分類G06F 16/33 20190101AFI20240913BHJP(計算;計数)
要約【課題】検索精度を向上することができる類似文書検索装置、類似文書検索方法およびプログラムを提供する。
【解決手段】入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置10であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部14と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部16とを備えるようにする。
【選択図】図1
特許請求の範囲【請求項1】
入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする類似文書検索装置。
続きを表示(約 290 文字)【請求項2】
入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする類似文書検索方法。
【請求項3】
請求項2に記載の類似文書検索方法をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、文書の類似度に基づいて文書を検索する類似文書検索装置、類似文書検索方法およびプログラムに関するものである。
続きを表示(約 1,700 文字)【背景技術】
【0002】
従来、コンピュータによる自然言語処理の一つとして、データベースに記憶された文書の中から入力文書に類似する文書を検索する検索処理が知られている(例えば、特許文献1を参照)。また、検索対象の文書中から、出現頻度ベースなどの特定のアルゴリズムによって文書を特徴づけるキーワードを抽出し、ユーザが入力したワードとキーワードの言語空間におけるベクトル同士のなす角度の近さを表現するコサイン類似度等を算出して、関連性の高い文書を出力する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
特許第6190904号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、ある文書群Aを検索したい場合において、入力条件(上記のワードと同等)と文書群Aとの類似性が著しく低いときには、検索精度が落ちるおそれがある。すなわち、上記のワードに類似するキーワードを文書群Aが多く保有しない場合には、従来の検索方法によるベクトルを使った類似度計算が有効でない可能性がある。
【0005】
例えば、建設分野の文書の中から、塩害対策の文書群Aを検索して出力させるために、検索語(ワード)を「構造:S(鉄骨)造」かつ「沿岸からの距離300m以内」に設定した場合を考える。この場合、「沿岸からの距離300m以内」は自然言語処理上、塩害対策をあまり要求されない「沿岸からの距離3000m以内」等とほぼ同じように扱われる蓋然性が高いことから、塩害対策以外の文書群まで出力される可能性が高い。このように、検索語に含まれる数値の持つ意味合いが考慮されないと、検索精度が低下するおそれがある。
【0006】
本発明は、上記に鑑みてなされたものであって、検索精度を向上することができる類似文書検索装置、類似文書検索方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記した課題を解決し、目的を達成するために、本発明に係る類似文書検索装置は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする。
【0008】
また、本発明に係る類似文書検索方法は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする。
【0009】
また、本発明に係るプログラムは、上述した類似文書検索方法をコンピュータに実行させることを特徴とする。
【発明の効果】
【0010】
本発明に係る類似文書検索装置によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えるので、検索精度を向上することができるという効果を奏する。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

清水建設株式会社
滑り支承
5日前
清水建設株式会社
床センサ
5日前
清水建設株式会社
免震構造
19日前
清水建設株式会社
杭圧入機
14日前
清水建設株式会社
免震構造
26日前
清水建設株式会社
空調システム
5日前
清水建設株式会社
木製組立家具
1か月前
清水建設株式会社
構造物の構築方法
29日前
清水建設株式会社
土壌汚染評価方法
15日前
清水建設株式会社
仮設部材の撤去方法
1か月前
清水建設株式会社
電動ファン付きウェア
20日前
清水建設株式会社
免震構造用の硬化型装置
19日前
清水建設株式会社
切断装置および切断方法
7日前
清水建設株式会社
倉庫内の作業環境改善装置
15日前
清水建設株式会社
仮設エレベータの盛替え方法
5日前
清水建設株式会社
コンクリート床版の切断方法
19日前
清水建設株式会社
骨材抽出装置及び骨材抽出方法
5日前
清水建設株式会社
着岩位置予測処理装置および方法
1か月前
清水建設株式会社
孔位置合わせ処理装置および方法
1か月前
清水建設株式会社
隠れ位置推定処理装置および方法
1か月前
清水建設株式会社
連結治具および構造建築物の構築方法
1か月前
清水建設株式会社
運行管理システム、及び運行管理方法
1か月前
清水建設株式会社
練混ぜ量算出装置及び練混ぜ量算出方法
19日前
清水建設株式会社
移動時間推定システム及び移動時間推定方法
14日前
清水建設株式会社
コンクリート構造物の施工方法及び施工装置
1か月前
清水建設株式会社
工事用エレベータ及びカウンターウエイト装置
19日前
清水建設株式会社
多孔質材料の洗浄装置及び多孔質材料の洗浄方法
15日前
清水建設株式会社
自律移動体装置、経路計算方法、及びプログラム
5日前
清水建設株式会社
エレベータ吊り機、およびエレベータシャフト構造
5日前
清水建設株式会社
ロボットシステム、ロボット、及びロボット制御方法
5日前
清水建設株式会社
スラッジ含有固化体の強度推定方法および品質管理方法
27日前
清水建設株式会社
状況発信装置、状況発信システム、及び、状況発信方法
28日前
清水建設株式会社
接着剤注入治具、及び接着剤注入治具を使用した接着方法
19日前
清水建設株式会社
移動体用モーションキャプチャのキャリブレーション方法
7日前
清水建設株式会社
結合材量の推定方法およびソイルセメントの品質管理方法
1か月前
清水建設株式会社
災害リスク評価装置、災害リスク評価方法、及びプログラム
13日前
続きを見る