TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024103687
公報種別公開特許公報(A)
公開日2024-08-01
出願番号2024089845,2020557017
出願日2024-06-03,2019-11-19
発明の名称文書検索システム
出願人株式会社半導体エネルギー研究所
代理人
主分類G06F 16/38 20190101AFI20240725BHJP(計算;計数)
要約【課題】文書のブロックごとに、類似する文書を検索する。高い精度で文書を検索する。
【解決手段】複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する。検索用文書の一部である、第1の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブロックに対する第1の関連度を算出し、第1の関連度の高さに基づいて、第1の対象の中から第2の対象を決定し、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出し、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する。
【選択図】図1
特許請求の範囲【請求項1】
複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、
処理部を有し、
前記処理部は、
検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備する機能と、
前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文章ブロックそれぞれの、前記第1の検索用文章ブロックに対する第1の関連度を算出する機能と、
前記第1の関連度の高さに基づいて、前記第1の対象の中から第2の対象を決定する機能と、
前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出する機能と、
前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する機能と、を有する、文書検索システム。
続きを表示(約 610 文字)【請求項2】
複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、
処理部を有し、
前記処理部は、
検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備する機能と、
前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文それぞれの、前記第1の検索用文章ブロックに含まれる各文に対する第1の関連度を算出する機能と、
前記第1の関連度の高さに基づいて、前記第1の対象に含まれる文の中から第2の対象を決定する機能と、
前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出する機能と、
前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する機能と、を有する、文書検索システム。
【請求項3】
請求項1又は請求項2において、
前記処理部は、
前記第1の類似度のうち閾値以上の値を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する機能を有する、文書検索システム。

発明の詳細な説明【技術分野】
【0001】
本発明の一態様は、文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体に関する。
続きを表示(約 1,300 文字)【0002】
なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。
【背景技術】
【0003】
大量の文書の中から、目的の文書を効率良く検索する文書検索技術が盛んに開発されている。例えば、特許文献1には、類似文書検索方法が開示されている。
【0004】
類似文書は、目的の文書に対して全体的に類似している場合も、ある部分で類似性が極端に高く、他の部分は類似性が極めて低い場合もある。
【0005】
特許文献1では、目的の文書に対して、類似文書が、全体的に類似しているのか、一部のみ類似しているのか、を判断するための指標として、詳細度を算出している。
【先行技術文献】
【特許文献】
【0006】
特開2004-295712号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許出願業務において、新しい明細書(後願の明細書)を作成する際に、自社で過去に作成された明細書(先願の明細書)の記載を参考にする、または引用することがある。ここで、先願の明細書の翻訳文が作成済みであれば、後願の明細書の翻訳文を作成する際に、先願の明細書の翻訳文を参考にする、または引用することができ、後願の明細書の翻訳にかかる時間を短縮することができる。
【0008】
類似文書の検索方法によっては、目的の文書に対して高い類似度が算出される文書の中に、実際は類似していなくても、全体的にある程度の類似度を有するために、文書全体の類似度が高く算出される文書が含まれることがある。一方、残りの部分の類似性が極めて低くても、類似性が極端に高い部分を有する(例えば、完全一致の文章を含む)文書は、文書全体の類似度が低く算出されてしまうことがある。例えば、翻訳文を参考にする、または引用するためには、前者の文書よりも、後者の文書の方が、好ましい。
【0009】
また、文章を1文ずつ検索することで、完全一致の文章を見つけることもできるが、文章の流れが切れてしまうことや、明細書によって訳語が統一されていないことがある。したがって、章ごとなど、複数の文を含む文章単位で、類似箇所を把握できることが望ましい。
【0010】
また、新しい明細書を作成する際に参考にする明細書は、一つとは限らない。したがって、どの明細書を参考にして新しい明細書を作成したか、だけでなく、どの明細書のどの部分を参考にして、新しい明細書のどの部分を作成したか、を容易に把握できることが望ましい。そして、これは明細書に限らず、あらゆる文書に共通していえることである。しかし、新しい文書を作成する際、どの文書のどの部分を参考にしたか、詳細に記録することは、手間がかかり、煩雑な作業である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
GPSロガー
29日前
個人
マウス用テーブル
15日前
個人
デトろぐシステム
28日前
個人
情報処理システム
1か月前
日本精機株式会社
表示装置
1か月前
個人
管理装置
21日前
個人
指先受の付いたマウス。
1か月前
個人
介護者指名システム
1か月前
個人
都市経営シミュレーション
1か月前
個人
特徴検討支援システム
21日前
個人
契約管理サーバ
20日前
個人
管理装置
23日前
アズビル株式会社
防爆装置
9日前
株式会社セガフェイブ
遊戯機
13日前
株式会社宗建
SNSサーバー
7日前
個人
支援システム及び支援方法
1か月前
株式会社Haul
採用支援方法
1か月前
株式会社テクロス
情報処理装置
27日前
個人
選択操作音声出力システム
15日前
株式会社ジール
文章の分析装置
14日前
國立臺灣大學
操作補助システム
1か月前
大同特殊鋼株式会社
棒材計数装置
6日前
個人
動作のデザイン評価の方法及び装置
6日前
トヨタ自動車株式会社
車両
21日前
アスエネ株式会社
森林管理の方法
9日前
株式会社野村総合研究所
検証装置
27日前
オムロン株式会社
認証中継サーバ
6日前
個人
すべて大吉となるおみくじ制作装置
1か月前
株式会社奥村組
削孔位置検出方法
20日前
株式会社美好屋商店
広告システム
1か月前
日本電気株式会社
システム及び方法
20日前
日本信号株式会社
料金精算システム
1か月前
個人
口座悪用を防止する口座管理システム
1日前
個人
マイナンバーポイントの直販システム
1か月前
トヨタ自動車株式会社
記号認識装置
24日前
株式会社mov
情報処理装置
1か月前
続きを見る