TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2023162093
公報種別公開特許公報(A)
公開日2023-11-08
出願番号2022147080
出願日2022-09-15
発明の名称全文検索プロセッサ
出願人個人
代理人個人
主分類G06F 16/903 20190101AFI20231031BHJP(計算;計数)
要約【解決課題】
全文検索用ハードウェアアクセラレータプロセッサを提供する。
【解決手段】
検索対象のテキストデータを1バイト毎に1番地からN番地に割り付けて一時記憶する文字記憶素子と、検索キーワードに含まれる符号化文字を1バイト毎の比較データとして受け取り、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を順次検出する文字検出回路と、前記検索キーワードに含まれる全ての符号化文字の配列とマッチする、上記文字記憶素子上での符号化文字の位置を順次検出する文字列検出回路と、前記文字列検出回路の検出結果を受け取って前記検索キーワードにマッチする文字列の先頭位置若しくは終了位置を出力する結果出力回路とを有する全文検索プロセッサが提供される。
【選択図】 図1
特許請求の範囲【請求項1】
全文キーワード検索を目的とした半導体デバイスからなる全文検索プロセッサであり、
検索対象のテキストデータを受け取り、このテキストデータに含まれる符号化文字列を1バイト毎に1番地からN番地に割り付けて一時記憶する文字記憶素子と
検索キーワードに含まれる1以上の符号化文字を1バイト毎に比較データとして順次受け取り、各比較データを上記文字記憶素子に記憶された符号化文字列とN並列に比較し、それを前記検索キーワードに含まれる全ての符号化文字分繰り返すことで、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を検出する文字検出回路と、
前記検索キーワードに含まれる全ての符号化文字が、この検索キーワードに含まれる順番で連続する上記文字記憶素子上での位置を検出する文字列検出回路と
前記文字列検出回路の検出結果を受け取って前記連続する文字列の先頭位置若しくは終了位置を出力する結果出力回路と
を有することを特徴とする全文検索プロセッサ。
続きを表示(約 1,800 文字)【請求項2】
請求項1記載の全文検索プロセッサにおいて、
前記文字検出回路は
前記文字記憶素子の各番地に接続され、各番地に記憶されたテキストデータの1バイト/8ビットの符号と前記比較データを構成する1バイト/8ビットの符号とを比較し、1ビット毎の一致若しくは不一致を検出する8個の1ビット一致若しくは不一致演算回路のN組のセットと
1ビット一致若しくは不一致演算回路の各セットからの8ビット分の結果出力を受け取り、各番地に記憶されたテキストデータの符号化文字の文字コードと前記比較データを構成する符号化文字の文字コードとの一致若しくは不一致を検出するN個の論理演算(論理積(AND)、論理和(OR)、論理否定(NOT))回路と
を有するものである
ことを特徴とする全文検索プロセッサ。
【請求項3】
請求項1記載の全文検索プロセッサにおいて、
前記文字列検出回路は
前記文字検出回路で検出された文字記憶位置のFG(フラグ)と検出された文字記憶位置のFG(フラグ)の配列の妥当性を判定するための、FGシフト回路とFG勝ち抜き回路の2つの回路で構成され
FGシフト回路とFG勝ち抜き回路は前記検索キーワードに含まれる符号化文字の文字コードの配列を参照し、前記1番地からN番地に割り付けて記憶された文字記憶素子上の文字列の文字コードの中から隣接する文字コード同士の配列の妥当性を繰り返し判定することで、前記検索キーワードで指定された文字列にマッチする、前記文字記憶素子上の文字列の文字コードの先頭位置(番地)若しくは末尾位置(番地)をN並列で検出する回路である
ことを特徴とする全文検索プロセッサ。
【請求項4】
請求項1記載の全文検索プロセッサにおいて、
前記文字列検出回路は
前記文字検出回路の演算結果をフラグとして記憶すると共に、当該記憶されたFGをN並列にシフトするN個のFGシフト回路と
前記FGシフト回路により前記記憶されたFGをN並列にシフトさせながらシフト前のFGとのN並列論理演算を行い、これを検索キーワードに含まれる全符号化文字分繰り返すことで前記FGの勝ち抜き演算を行うN個のFG勝ち抜き回路と
を有することを特徴とする全文検索プロセッサ。
【請求項5】
請求項1記載の全文検索プロセッサにおいて、
前記検索キーワードがnバイトの符号化文字で構成される場合、
前記FGシフト回路のシフト回数及びそれに伴うFG勝ち抜き演算回路による勝ち抜き演算の回数はn×2-1回である
ことを特徴とする全文検索プロセッサ。
【請求項6】
請求項1記載の全文検索プロセッサにおいて、
前記FG勝ち抜き回路は、演算のマスク(無視)を可能にする機能を有し、検索キーワード中にワイルドカードを用いた場合の全文検索を可能にするものである
ことを特徴とする全文検索プロセッサ。
【請求項7】
請求項1記載の全文検索プロセッサにおいて、
前記FG勝ち抜き回路は、2組のレジスタが組み込まれ、検索キーワード中に文字のギャップを含む全文検索を可能にするものである
ことを特徴とする全文検索プロセッサ。
【請求項8】
請求項1記載の全文検索プロセッサにおいて、
前記結果出力回路により出力される前記N並列(全並列)の検出結果の論理和(OR)演算を行い、全文検出結果の有無を出力するものである
ことを特徴とする全文検索プロセッサ。
【請求項9】
請求項1記載の全文検索プロセッサにおいて、
前記全文検索プロセッサ外部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列(全並列)による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
【請求項10】
請求項1記載の全文検索プロセッサにおいて、
前記全文検索プロセッサの内部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列(全並列)による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、半導体デバイス内でテキストデータに対するキーワードを用いた全文検索を実行する全文検索プロセッサに関するものである。
続きを表示(約 1,000 文字)【背景技術】
【0002】
一般に、大量の文書類(文章・文献・文などを含む)のデータの中から特定の文書類のデータを探し出す処理は全文検索やキーワード検索と呼ばれ、WEB検索や特許情報検索、社内文書データベース、更にはPCやスマートフォンに至るまであらゆる分野で頻繁に利用されている。
【0003】
ここで、全文検索やキーワード検索は自然言語処理の基本となる情報処理である。
【0004】
全文検索の処理は、キーワード(「search」、「検索」、「情報」などのキーとなる文字や文字列)を検索条件として与え、これらの文字や文字列が文書類に含まれているかどうかを探索し、含まれている文書類のデータを特定するものである。
【0005】
従来型のプロセッサであるCPUやGPUは、一般的に、検索など情報を探し出す処理が得意でなく、見出し(インデックス)なしで全ての文書データを読み込み検索しようとすると大量の時間を要する。このため、通常、転置インデックスと呼ばれるインデックスを時前に作成しておき、この転置インデックスを利用して検索を高速化する方法がとられており、これが検索を高速化する唯一の方法である。
【0006】
ここで、転置インデックスは、辞書の用語を見出し(インデックス)とする方法や、N-gramと呼ばれる文字列を見出し(インデックス)とする手法が一般的である。
【0007】
辞書用語をインデックスとして用いる場合については、英文は単語(用語)毎にスペースをはさみ文章を作成する方式、いわゆる「分かち書き」方式であるので単語(用語)の検出は容易であるが、日本語や中国語の場合、この「分かち書き」のルールが適応出来ない。
【0008】
従って日本語の場合、形態素と呼ばれる解析方法で日本語の文法に照らし合わせて単語(用語)を切り出す複雑な方法を採っている。
【0009】
形態素方式インデックスはインデックスの数が少ないのが特徴であるが、前方一致は良いものの、中間一致や後方一致の全文検索が困難、流行語など新しい用語への対応が困難である。
【0010】
一方のN-gram方式インデックスは、情報理論の創始者として名高いクロード・エルウッド・シャノン(Claude Elwood Shannon)が自然言語解析を目的に考案したものである。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

個人
情報検索装置
17日前
個人
ノートPC寝台
19日前
個人
ドットパターン
16日前
個人
環境情報処理装置
1か月前
個人
外食予約システム
1か月前
個人
電子文書の閲覧用電子機器
23日前
個人
サービス提供システム
1か月前
個人
モノ造りプロトコルレイヤー
8日前
ニデック株式会社
冷却装置
1か月前
個人
海外在住支援システム
1か月前
キヤノン電子株式会社
携帯情報端末
18日前
個人
施術スタッフ育成システム
24日前
株式会社ワコム
電子ペン
1か月前
大和製衡株式会社
組合せ計数装置
19日前
東洋電装株式会社
操作装置
1か月前
東洋電装株式会社
操作装置
1か月前
東洋電装株式会社
操作装置
1か月前
有限会社カツミ工業
管理装置
19日前
株式会社SUBARU
画像処理装置
24日前
日本信号株式会社
料金精算システム
1か月前
トヨタ自動車株式会社
図面表示装置
1日前
株式会社SUBARU
操作制御装置
1か月前
株式会社COLORS
表示制御装置
4日前
株式会社ゼロワン
ケア支援システム
18日前
株式会社カロニマ
情報発信システム
1か月前
学校法人修道学園
農地集約システム
1か月前
株式会社広島銀行
本人確認システム
18日前
株式会社ゼロワン
ケア支援システム
18日前
ブラザー工業株式会社
印刷制御装置
19日前
三菱電機株式会社
情報検索装置
9日前
旭精工株式会社
管理装置および管理システム
1か月前
株式会社デンソー
表示装置
26日前
トヨタ車体株式会社
管理システム
17日前
geeva株式会社
ギフト贈呈システム
3日前
株式会社日立国際電気
生産管理システム
3日前
geeva株式会社
ギフト贈呈システム
3日前
続きを見る