TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025168940
公報種別公開特許公報(A)
公開日2025-11-12
出願番号2024073821
出願日2024-04-30
発明の名称データベース管理装置、データベース管理システム及びデータベース管理方法
出願人株式会社日立製作所
代理人弁理士法人第一国際特許事務所
主分類G06N 5/022 20230101AFI20251105BHJP(計算;計数)
要約【課題】知識ベースに格納されている知識を可視化した上、意味的内容がより少ない情報の特定及び知識ベースからの除外を促進すること。
【解決手段】
データベース管理装置は、第1の文書における第1のテキストチャンクのセットの各テキストチャンクに対して、当該テキストチャンクの第1の文書における構成特徴を記述する記述タグを割り当てるタグ管理部と、第1のテキストチャンクのセットに対応し、且つ、テキストチャンク間の意味的類似度に基づいた空間的関係を有するn次元のデータ点のセットを示す第1のグラフ表現を生成する表現生成部と、記述タグを分類ルールに比較することで、各データ点について意味的ラベル又は構造的ラベルを割り当てた第2のグラフ表現を生成する分類部と、データ点のセットの内、構造的ラベルが割り当てられた第1のデータ点に対応する第1のテキストチャンクを第1の文書から除外する除外部とを含む。
【選択図】図3
特許請求の範囲【請求項1】
プロセッサと、
メモリと、
1つ以上の文書を含む知識データベースを格納する記憶部とを備えるデータベース管理装置であって、
前記メモリは、
所定の分類モデルを用いて前記文書に含まれる第1の文書における第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに含まれる各テキストチャンクに対して、当該テキストチャンクの第1の文書における構成特徴を記述する記述タグを割り当てるタグ管理部と、
所定の自然言語処理手段を用いて前記第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに対応し、且つ、テキストチャンク間の意味的類似度に基づいた空間的関係を有するn次元のデータ点のセットを示す第1のグラフ表現を生成する表現生成部と、
前記第1のテキストチャンクのセットに対して割り当てられた前記記述タグを、文書におけるテキストチャンクが文書の意味的要素に対応するか構造的要素に対応するかを規定する分類ルールに比較することで、前記第1のグラフ表現における前記データ点のセットに含まれる各データ点について意味的ラベル又は構造的ラベルを割り当てた第2のグラフ表現を生成し、出力する分類部と、
前記第2のグラフ表現に対して入力されるユーザ指示に基づいて、前記データ点のセットの内、前記構造的ラベルが割り当てられた第1のデータ点に対応する第1のテキストチャンクを前記第1の文書から除外する除外部、
として前記プロセッサを実行させる処理命令を含むことを特徴とするデータベース管理装置。
続きを表示(約 3,500 文字)【請求項2】
前記データベース管理装置は、
前記第1のテキストチャンクのセットを第1の埋め込みベクトルのセットに変換し、
前記第1の埋め込みベクトルのセットに対して所定の次元削減手段を適用することで、次元削減済みの第1の埋め込みベクトルのセットを生成する埋め込み管理部を更に含み、
前記表現生成部は、
前記次元削減済みの第1の埋め込みベクトルのセットを前記所定の自然言語処理手段によって処理することで前記第1のグラフ表現を生成する、
ことを特徴とする、請求項1に記載のデータベース管理装置。
【請求項3】
前記タグ管理部は、
前記第1のテキストチャンクのセットに含まれる各テキストチャンクに対して、HTMLタグを前記記述タグとして割り当てる、
ことを特徴とする、請求項1に記載のデータベース管理装置。
【請求項4】
前記HTMLタグは、
<article>、<p>、<h1>~<h6>、<form>、<figcaption>、<header>、<footer>、<pre>、<address>、<ul>及び<table>を含む、
ことを特徴とする、請求項3に記載のデータベース管理装置。
【請求項5】
前記分類部は、
前記第1のグラフ表現における前記データ点のセットに含まれる各データ点の内、<article>又は<p>のHTMLタグが割り当てられているテキストチャンクに対応するデータ点に対して前記意味的ラベルを割り当て、
前記第1のグラフ表現における前記データ点のセットに含まれる各データ点の内、<h1>~<h6>、<form>、<figcaption>、<header>、<footer>、<pre>、<address>、<ul>及び<table>のいずれか1つのHTMLタグが割り当てられているテキストチャンクに対応するデータ点に対して前記構造的ラベルを割り当てる、
ことを特徴とする、請求項4に記載のデータベース管理装置。
【請求項6】
前記分類部は、
所定の距離アルゴリズムを用いることで、前記第1のグラフ表現における前記データ点のセットをクラスタのセットにグループ化し、
前記クラスタのセットにおける第1のクラスタについて、前記意味的ラベルが割り当てられているデータ点数を示す意味的データ点数と、前記構造的ラベルが割り当てられているデータ点数を示す構造的データ点数とを判定し、
前記意味的データ点数が前記構造的データ点数より大きい場合、前記第2のグラフ表現において、前記第1のクラスタに含まれる各データ点に対して、前記意味的ラベルを割り当て、
前記構造的データ点数が前記意味的データ点数より大きい場合、前記第2のグラフ表現において、前記第1のクラスタに含まれる各データ点に対して、前記構造的ラベルを割り当てる、
ことを特徴とする、請求項5に記載のデータベース管理装置。
【請求項7】
前記分類部は、
前記構造的ラベルが割り当てられているデータ点に対応するテキストチャンクの前記第1の文書からの除外を推奨する除外推奨情報を前記第2のグラフ表現に表示し、ユーザインターフェースを介してユーザに提示する、
ことを特徴とする、請求項1に記載のデータベース管理装置。
【請求項8】
前記分類部は、
前記第1のテキストチャンクを前記第1の文書から除外した後、前記第1のデータ点を前記第2のグラフ表現から除外する、
ことを特徴とする、請求項1に記載のデータベース管理装置。
【請求項9】
データベース管理装置において実施されるデータベース管理方法であって、
前記データベース管理装置は、
プロセッサと、
メモリと、
1つ以上の文書を含む知識データベースを格納する記憶部とを備え、
前記データベース管理方法は、
前記メモリに格納されている処理命令によって、
所定の分類モデルを用いて前記文書に含まれる第1の文書における第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに含まれる各テキストチャンクに対して、当該テキストチャンクの第1の文書における構成特徴を記述するHTMLタグとして、<article>、<p>、<h1>~<h6>、<form>、<figcaption>、<header>、<footer>、<pre>、<address>、<ul>及び<table>のいずれか1つ以上を割り当てる工程と、
所定の自然言語処理手段を用いて前記第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに対応し、且つ、テキストチャンク間の意味的類似度に基づいた空間的関係を有するn次元のデータ点のセットを示す第1のグラフ表現を生成する工程と、
前記第1のテキストチャンクのセットに対して割り当てられた前記HTMLタグを、文書におけるテキストチャンクが文書の意味的要素に対応するか構造的要素に対応するかを規定する分類ルールに比較することで、前記第1のグラフ表現における前記データ点のセットに含まれる各データ点の内、<article>又は<p>のHTMLタグが割り当てられているテキストチャンクに対応するデータ点に対して意味的ラベルを割り当て、前記第1のグラフ表現における前記データ点のセットに含まれる各データ点の内、<h1>~<h6>、<form>、<figcaption>、<header>、<footer>、<pre>、<address>、<ul>及び<table>のいずれか1つのHTMLタグが割り当てられているテキストチャンクに対応するデータ点に対して構造的ラベルを割り当てた第2のグラフ表現を生成する工程と、
前記第2のグラフ表現に対して入力されるユーザ指示に基づいて、前記データ点のセットの内、前記構造的ラベルが割り当てられた第1のデータ点に対応する第1のテキストチャンクを前記第1の文書から除外する工程と、
前記第1のテキストチャンクを前記第1の文書から除外した後、前記第1のデータ点を前記第2のグラフ表現から除外する工程と、
を前記プロセッサに実行させることを特徴とするデータベース管理方法。
【請求項10】
データベース管理装置と、
ユーザ端末とが通信ネットワークを介して接続されているデータベース管理システムであって、
前記データベース管理装置は、
プロセッサと、
メモリと、
1つ以上の文書を含む知識データベースを格納する記憶部とを備え、
前記メモリは、
所定の分類モデルを用いて前記文書に含まれる第1の文書における第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに含まれる各テキストチャンクに対して、当該テキストチャンクの第1の文書における構成特徴を記述する記述タグを割り当てるタグ管理部と、
所定の自然言語処理手段を用いて前記第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに対応し、且つ、テキストチャンク間の意味的類似度に基づいた空間的関係を有するn次元のデータ点のセットを示す第1のグラフ表現を生成する表現生成部と、
前記第1のテキストチャンクのセットに対して割り当てられた前記記述タグを、文書におけるテキストチャンクが文書の意味的要素に対応するか構造的要素に対応するかを規定する分類ルールに比較することで、前記第1のグラフ表現における前記データ点のセットに含まれる各データ点について意味的ラベル又は構造的ラベルを割り当てた第2のグラフ表現を生成し、前記ユーザ端末に出力する分類部と、
前記第2のグラフ表現に対して入力されるユーザ指示に基づいて、前記データ点のセットの内、前記構造的ラベルが割り当てられた第1のデータ点に対応する第1のテキストチャンクを前記第1の文書から除外する除外部、
として前記プロセッサを実行させる処理命令を含むことを特徴とするデータベース管理システム。

発明の詳細な説明【技術分野】
【0001】
本開示は、データベース管理装置、データベース管理システム及びデータベース管理方法に関する。
続きを表示(約 2,300 文字)【背景技術】
【0002】
近年、デジタル時代の急速な進展により、膨大な情報を格納し、利用可能な形態で維持することがますます求められている。情報の整理、検索及び組織化を容易にするツールの1つとして、いわゆる知識ベースが知られている。
【0003】
知識ベースに含まれるデータを可視化し、ユーザに提示する手段として、米国特許第10956790号(特許文献1)が存在する。
特許文献1には、「一連のテキスト文書を受信するためのデータインターフェースと、受け取った各テキスト文書をn次元多様体のベクトル(nは2より大きい)に変換し、各n次元多様体ベクトルを2次元データに変換し、どの2次元データがどのn次元多様体ベクトルに対応するかを示す第1のマッピングを生成し、どの2次元データがどの受信テキスト文書に対応するかを示す第2のマッピングを生成する計算部と、各2次元データを2D平面上に表示するように構成されている第1のユーザディスプレイと、表示される2次元データのサブセットをユーザに選択させ、2次元データの前記サブセットが選択されると、2次元データの前記サブセットに対応するn次元多様体ベクトルを自動的に選択するように構成された第1のユーザインターフェースと、2次元データの前記サブセットに対応するテキスト文書のリストを表示するように構成されている第2のユーザディスプレイを備えるグラフィカルユーザーインターフェース」に関する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
米国特許第10956790号
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、知識ベースに含まれる情報に対する自動推理を行うために、知識ベースをRAG(Retrieval Augmented Generation)手段と連携して用いることがある。RAGとは、知識ベースに格納されている情報を検索し、大規模言語モデル(LLM)に回答を生成させるための手段である。LLMが持つ知識を知識ベースで補うことで、より信頼性及び正確性が高い回答を得ることができる。
【0006】
RAGの精度を向上させるためには、最新の知識を知識ベースに追加すると共に、知識ベースに含まれている知識に対するメンテナンスを行う必要がある。
より具体的には、知識ベースに含まれる情報が多くなればなるほど、適切な知識を特定するための検索の精度が落ちてしまうことがある。このため、知識ベースに含まれる情報の内、LLMによる回答の生成に不要な情報を知識ベースから削除することが望ましい。
【0007】
ただし、特許文献1のような従来の手段では、不要な情報を特定し、知識ベースから削除することは想定されていない。このため、知識ベースに含まれる情報が膨大となり、有意義な知識の検索が困難となり、RAGの精度が限定されてしまうことが考えられる。
【0008】
そこで、本開示は、知識ベースに格納されている知識を可視化した上、意味的内容(semantic content)がより少ない情報の特定及び知識ベースからの除外を促進することが可能なデータベース管理手段を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、代表的な本発明のデータベース管理装置は、プロセッサと、メモリと、1つ以上の文書を含む知識データベースを格納する記憶部とを備え、前記メモリは、所定の分類モデルを用いて前記文書に含まれる第1の文書における第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに含まれる各テキストチャンクに対して、当該テキストチャンクの第1の文書における構成特徴を記述する記述タグを割り当てるタグ管理部と、所定の自然言語処理手段を用いて前記第1のテキストチャンクのセットを処理することで、前記第1のテキストチャンクのセットに対応し、且つ、テキストチャンク間の意味的類似度に基づいた空間的関係を有するn次元のデータ点のセットを示す第1のグラフ表現を生成する表現生成部と、前記第1のテキストチャンクのセットに対して割り当てられた前記記述タグを、文書におけるテキストチャンクが文書の意味的要素に対応するか構造的要素に対応するかを規定する分類ルールに比較することで、前記第1のグラフ表現における前記データ点のセットに含まれる各データ点について意味的ラベル又は構造的ラベルを割り当てた第2のグラフ表現を生成し、出力する分類部と、前記第2のグラフ表現に対して入力されるユーザ指示に基づいて、前記データ点のセットの内、前記構造的ラベルが割り当てられた第1のデータ点に対応する第1のテキストチャンクを前記第1の文書から除外する除外部として前記プロセッサを実行させる処理命令を含む。
【発明の効果】
【0010】
本開示によれば、知識ベースに格納されている知識を可視化した上、意味的内容(semantic content)がより少ない情報の特定及び知識ベースからの除外を促進することが可能なデータベース管理手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
5掛けポイント
20日前
個人
RFタグシート
1か月前
個人
職業自動販売機
13日前
個人
地球保全システム
1か月前
個人
QRコードの彩色
1か月前
個人
ペルソナ認証方式
28日前
個人
情報処理装置
23日前
個人
自動調理装置
1か月前
個人
残土処理システム
1か月前
個人
農作物用途分配システム
1か月前
個人
知的財産出願支援システム
1か月前
個人
インターネットの利用構造
27日前
個人
タッチパネル操作指代替具
1か月前
個人
サービス情報提供システム
15日前
個人
スケジュール調整プログラム
1か月前
個人
携帯端末障害問合せシステム
1か月前
個人
エリアガイドナビAIシステム
28日前
株式会社キーエンス
受発注システム
1か月前
株式会社キーエンス
受発注システム
1か月前
個人
海外支援型農作物活用システム
2か月前
個人
食品レシピ生成システム
1か月前
株式会社キーエンス
受発注システム
1か月前
エッグス株式会社
情報処理装置
1か月前
トヨタ自動車株式会社
通知装置
1か月前
個人
未来型家系図構築システム
2か月前
大同特殊鋼株式会社
疵判定方法
2か月前
キヤノン株式会社
情報処理装置
7日前
キヤノン株式会社
情報処理装置
7日前
キヤノン株式会社
表示システム
1か月前
キヤノン株式会社
印刷システム
1か月前
キヤノン株式会社
画像認識装置
7日前
個人
帳票自動生成型SaaSシステム
1か月前
株式会社ワコム
電子ペン
22日前
株式会社ワコム
電子ペン
22日前
続きを見る