TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2023162093
公報種別公開特許公報(A)
公開日2023-11-08
出願番号2022147080
出願日2022-09-15
発明の名称全文検索プロセッサ
出願人個人
代理人個人
主分類G06F 16/903 20190101AFI20231031BHJP(計算;計数)
要約【解決課題】
全文検索用ハードウェアアクセラレータプロセッサを提供する。
【解決手段】
検索対象のテキストデータを1バイト毎に1番地からN番地に割り付けて一時記憶する文字記憶素子と、検索キーワードに含まれる符号化文字を1バイト毎の比較データとして受け取り、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を順次検出する文字検出回路と、前記検索キーワードに含まれる全ての符号化文字の配列とマッチする、上記文字記憶素子上での符号化文字の位置を順次検出する文字列検出回路と、前記文字列検出回路の検出結果を受け取って前記検索キーワードにマッチする文字列の先頭位置若しくは終了位置を出力する結果出力回路とを有する全文検索プロセッサが提供される。
【選択図】 図1
特許請求の範囲【請求項1】
全文キーワード検索を目的とした半導体デバイスからなる全文検索プロセッサであり、
検索対象のテキストデータを受け取り、このテキストデータに含まれる符号化文字列を1バイト毎に1番地からN番地に割り付けて一時記憶する文字記憶素子と
検索キーワードに含まれる1以上の符号化文字を1バイト毎に比較データとして順次受け取り、各比較データを上記文字記憶素子に記憶された符号化文字列とN並列に比較し、それを前記検索キーワードに含まれる全ての符号化文字分繰り返すことで、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を検出する文字検出回路と、
前記検索キーワードに含まれる全ての符号化文字が、この検索キーワードに含まれる順番で連続する上記文字記憶素子上での位置を検出する文字列検出回路と
前記文字列検出回路の検出結果を受け取って前記連続する文字列の先頭位置若しくは終了位置を出力する結果出力回路と
を有することを特徴とする全文検索プロセッサ。
続きを表示(約 1,800 文字)【請求項2】
請求項1記載の全文検索プロセッサにおいて、
前記文字検出回路は
前記文字記憶素子の各番地に接続され、各番地に記憶されたテキストデータの1バイト/8ビットの符号と前記比較データを構成する1バイト/8ビットの符号とを比較し、1ビット毎の一致若しくは不一致を検出する8個の1ビット一致若しくは不一致演算回路のN組のセットと
1ビット一致若しくは不一致演算回路の各セットからの8ビット分の結果出力を受け取り、各番地に記憶されたテキストデータの符号化文字の文字コードと前記比較データを構成する符号化文字の文字コードとの一致若しくは不一致を検出するN個の論理演算(論理積(AND)、論理和(OR)、論理否定(NOT))回路と
を有するものである
ことを特徴とする全文検索プロセッサ。
【請求項3】
請求項1記載の全文検索プロセッサにおいて、
前記文字列検出回路は
前記文字検出回路で検出された文字記憶位置のFG(フラグ)と検出された文字記憶位置のFG(フラグ)の配列の妥当性を判定するための、FGシフト回路とFG勝ち抜き回路の2つの回路で構成され
FGシフト回路とFG勝ち抜き回路は前記検索キーワードに含まれる符号化文字の文字コードの配列を参照し、前記1番地からN番地に割り付けて記憶された文字記憶素子上の文字列の文字コードの中から隣接する文字コード同士の配列の妥当性を繰り返し判定することで、前記検索キーワードで指定された文字列にマッチする、前記文字記憶素子上の文字列の文字コードの先頭位置(番地)若しくは末尾位置(番地)をN並列で検出する回路である
ことを特徴とする全文検索プロセッサ。
【請求項4】
請求項1記載の全文検索プロセッサにおいて、
前記文字列検出回路は
前記文字検出回路の演算結果をフラグとして記憶すると共に、当該記憶されたFGをN並列にシフトするN個のFGシフト回路と
前記FGシフト回路により前記記憶されたFGをN並列にシフトさせながらシフト前のFGとのN並列論理演算を行い、これを検索キーワードに含まれる全符号化文字分繰り返すことで前記FGの勝ち抜き演算を行うN個のFG勝ち抜き回路と
を有することを特徴とする全文検索プロセッサ。
【請求項5】
請求項1記載の全文検索プロセッサにおいて、
前記検索キーワードがnバイトの符号化文字で構成される場合、
前記FGシフト回路のシフト回数及びそれに伴うFG勝ち抜き演算回路による勝ち抜き演算の回数はn×2-1回である
ことを特徴とする全文検索プロセッサ。
【請求項6】
請求項1記載の全文検索プロセッサにおいて、
前記FG勝ち抜き回路は、演算のマスク(無視)を可能にする機能を有し、検索キーワード中にワイルドカードを用いた場合の全文検索を可能にするものである
ことを特徴とする全文検索プロセッサ。
【請求項7】
請求項1記載の全文検索プロセッサにおいて、
前記FG勝ち抜き回路は、2組のレジスタが組み込まれ、検索キーワード中に文字のギャップを含む全文検索を可能にするものである
ことを特徴とする全文検索プロセッサ。
【請求項8】
請求項1記載の全文検索プロセッサにおいて、
前記結果出力回路により出力される前記N並列(全並列)の検出結果の論理和(OR)演算を行い、全文検出結果の有無を出力するものである
ことを特徴とする全文検索プロセッサ。
【請求項9】
請求項1記載の全文検索プロセッサにおいて、
前記全文検索プロセッサ外部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列(全並列)による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
【請求項10】
請求項1記載の全文検索プロセッサにおいて、
前記全文検索プロセッサの内部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列(全並列)による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、半導体デバイス内でテキストデータに対するキーワードを用いた全文検索を実行する全文検索プロセッサに関するものである。
続きを表示(約 1,000 文字)【背景技術】
【0002】
一般に、大量の文書類(文章・文献・文などを含む)のデータの中から特定の文書類のデータを探し出す処理は全文検索やキーワード検索と呼ばれ、WEB検索や特許情報検索、社内文書データベース、更にはPCやスマートフォンに至るまであらゆる分野で頻繁に利用されている。
【0003】
ここで、全文検索やキーワード検索は自然言語処理の基本となる情報処理である。
【0004】
全文検索の処理は、キーワード(「search」、「検索」、「情報」などのキーとなる文字や文字列)を検索条件として与え、これらの文字や文字列が文書類に含まれているかどうかを探索し、含まれている文書類のデータを特定するものである。
【0005】
従来型のプロセッサであるCPUやGPUは、一般的に、検索など情報を探し出す処理が得意でなく、見出し(インデックス)なしで全ての文書データを読み込み検索しようとすると大量の時間を要する。このため、通常、転置インデックスと呼ばれるインデックスを時前に作成しておき、この転置インデックスを利用して検索を高速化する方法がとられており、これが検索を高速化する唯一の方法である。
【0006】
ここで、転置インデックスは、辞書の用語を見出し(インデックス)とする方法や、N-gramと呼ばれる文字列を見出し(インデックス)とする手法が一般的である。
【0007】
辞書用語をインデックスとして用いる場合については、英文は単語(用語)毎にスペースをはさみ文章を作成する方式、いわゆる「分かち書き」方式であるので単語(用語)の検出は容易であるが、日本語や中国語の場合、この「分かち書き」のルールが適応出来ない。
【0008】
従って日本語の場合、形態素と呼ばれる解析方法で日本語の文法に照らし合わせて単語(用語)を切り出す複雑な方法を採っている。
【0009】
形態素方式インデックスはインデックスの数が少ないのが特徴であるが、前方一致は良いものの、中間一致や後方一致の全文検索が困難、流行語など新しい用語への対応が困難である。
【0010】
一方のN-gram方式インデックスは、情報理論の創始者として名高いクロード・エルウッド・シャノン(Claude Elwood Shannon)が自然言語解析を目的に考案したものである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
GPSロガー
26日前
個人
自国主食備蓄目的飛行機
21日前
個人
7の倍数の判別用具
26日前
学校法人東京農業大学
評価方法
18日前
個人
収納管理システム
18日前
花王株式会社
肌状態推定方法
18日前
株式会社ワコム
電子ペン
13日前
オムロン株式会社
操作制御システム
26日前
ユビ電株式会社
情報処理装置
4日前
株式会社mov
情報処理装置
18日前
オムロン株式会社
操作制御システム
26日前
17LIVE株式会社
サーバ及び方法
1か月前
個人
契約支援システム及びプログラム
8日前
ノヅック株式会社
調達代行依頼システム
5日前
株式会社九門
避難安全性能評価システム
4日前
ノヅック株式会社
調達部門評価システム
5日前
株式会社野村総合研究所
ポイントシステム
6日前
トヨタ自動車株式会社
情報処理装置
1か月前
富士通株式会社
監視装置及び冷却システム
1か月前
日本信号株式会社
割引認証システム
1か月前
コベルコ建機株式会社
作業管理装置
18日前
トヨタ自動車株式会社
給電システム
20日前
個人
取引システム、取引方法及び取引プログラム
27日前
NGB株式会社
評価装置
8日前
第一工業株式会社
携帯情報機器用スタンド
26日前
第一工業株式会社
携帯情報機器用スタンド
26日前
株式会社ユピテル
情報処理装置及びプログラム等
26日前
国立研究開発法人産業技術総合研究所
演算処理装置
28日前
福島印刷株式会社
連絡先管理システム
18日前
ローム株式会社
半導体装置、システム
1か月前
株式会社エレックス
運転管理システム
12日前
株式会社デンソー
電子制御装置
27日前
大和ハウス工業株式会社
判定システム
18日前
沖電気工業株式会社
端末装置及びプログラム
1か月前
AICRO株式会社
個人情報匿名化システム
26日前
個人
非接触生体認証決済装置および決済方法
8日前
続きを見る