TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024172179
公報種別公開特許公報(A)
公開日2024-12-12
出願番号2023089732
出願日2023-05-31
発明の名称文書分類装置並びに文書分類方法
出願人株式会社日立製作所
代理人ポレール弁理士法人
主分類G06F 16/35 20190101AFI20241205BHJP(計算;計数)
要約【課題】テキスト間の類似度スコアを正しく求めることができる文書分類装置並びに文書分類方法を提供する。
【解決手段】類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。
【選択図】図7
特許請求の範囲【請求項1】
類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、
複数の前記分類基準の組み合わせから前記類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、前記生成された疑似データを用いて、前記類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。
続きを表示(約 1,200 文字)【請求項2】
請求項1に記載の文書分類装置であって、
前記生成部は、前記分類基準と過去の文書と過去の分類結果からの疑似データ生成を行うことを特徴とする文書分類装置。
【請求項3】
請求項2に記載の文書分類装置であって、
前記生成部は、生成した疑似データについて、前記分類基準から生成した疑似データと類似している、基準と過去の文書と過去の分類結果から生成した疑似データは削除することを特徴とする文書分類装置。
【請求項4】
請求項1に記載の文書分類装置であって、
前記学習部は、生成した疑似データの内容、並びに複数組の疑似データの適用順序を考慮した複数回のファインチューニングを実施することを特徴とする文書分類装置。
【請求項5】
請求項4に記載の文書分類装置であって、
前記学習部は、複数回ファインチューニングされた、複数の前記類似度スコア算出モデルを保存することを特徴とする文書分類装置。
【請求項6】
請求項4に記載の文書分類装置であって、
前記学習部は、既存データと前記分類基準から生成した疑似データで前記類似度スコア算出モデルをファインチューニングし、
前記生成部は、学習後の前記類似度スコア算出モデルを使って前記分類基準と過去の文書、過去の分類結果からのデータ生成を行うことを特徴とする文書分類装置。
【請求項7】
請求項6に記載の文書分類装置であって、
前記生成部は、前記分類基準から類似度スコアの正解データを自動生成しておき、
前記学習部は、精度の高い疑似データ、並びに複数組の疑似データの適用順序を、前記類似度スコア算出モデルをファインチューニングするための疑似データとして採用することを特徴とする文書分類装置。
【請求項8】
請求項7に記載の文書分類装置であって、
前記学習部は、既存の類似データと、前記分類基準から生成した疑似データまたは基準と過去の文書と過去の分類結果から生成した疑似データによるファインチューニングを行うことを特徴とする文書分類装置。
【請求項9】
請求項7に記載の文書分類装置であって、
前記学習部は、既存の類似データと、前記分類基準から生成した疑似データと、基準と過去の文書と過去の分類結果から生成した疑似データによるファインチューニングを行うことを特徴とする文書分類装置。
【請求項10】
請求項1に記載の文書分類装置であって、
文書分類装置は表示手段を含み、
表示手段には、疑似データ生成画面、類似度スコア算出モデルの学習画面、類似度スコア算出画面、文書分類画面の少なくとも1つが表示されることを特徴とする文書分類装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、文書分類装置並びに文書分類方法に係り、特に、文書を予め定められたクラスごとに分類するのに適した文書分類装置並びに文書分類方法に関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
自然言語処理の応用の一つである文書分類技術は記事の分類や申請書の審査などさまざまな用途に使われている。その一つの方法にテキスト間の類似性を使って文書分類する手法がある。あるいはテキストで書かれた基準に基づいて分類する場合がある。
【0003】
特許文献1では文献に含まれるテキスト間の類似性を用いた類似文献検索において、適合率の高い文献を発見しやすくするための教師データを収集することを目的として、「基準文献の特徴ベクトルを導出するとともに、母集団に属する各文献の特徴ベクトルを導出するベクトル生成部と、(a)前記特徴ベクトルの次元数を削減する次元削減処理を実行して、前記特徴ベクトルに対する前記次元削減処理で得られた次元の値を第1特徴量とし、(b)前記基準文献の特徴ベクトルと前記母集団に属する各文献の特徴ベクトルとのコサイン類似度を第2特徴量として導出する特徴量抽出部と、前記第1特徴量の特徴量空間において前記基準文献と前記母集団に属する文献との間の距離が最も短いものから所定数の文献を前記母集団から抽出して検索範囲を限定する検索範囲制御部と、抽出された前記文献のうち、前記コサイン類似度が最も低いものから所定数の文献を教師データとして抽出する教師データ抽出部と、を備えることを特徴とする教師データ収集システム。」を提案している。
【先行技術文献】
【特許文献】
【0004】
特開2023-19235号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、母集団の文献とユーザにより入力された検索条件が指定する基準文献との類似度を算出し、その類似度に基づいて適合率が高くなるように母集団の文献から教師データを抽出する。この場合、テキストで書かれた基準のある文書分類に用いることを想定していないため、基準と分類対象の文書データの類似度スコアを正しく出力できないことがある。
【0006】
以上のことから本発明においては、テキスト間の類似度スコアを正しく求めることができる文書分類装置並びに文書分類方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
以上のことから本発明においては、「類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。」としたものである。
【0008】
また本発明においては、「計算機の記憶部に類似度スコア算出モデルを備え、計算機の演算部において文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類方法であって、計算機の演算部は、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成し、前記生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングすることを特徴とする文書分類方法。」としたものである。
【発明の効果】
【0009】
本発明によれば、テキストで書かれた基準に基づく文書分類において、テキスト間の類似度スコアを正しく求めることができる。
【図面の簡単な説明】
【0010】
文書分類システムの全体構成例を示す図。
文書分類システム10および端末装置20のハードウェア構成を示す図。
文書分類システム10が実行する処理内容を機能的に表現した図。
分類基準が与えられている場合の文書分類システム10における処理内容例を示した図。
数値根拠に基づいて分類根拠を生成する機能部分である分類器20の構成例を示す図。
類似度スコア算出における失敗事例と利用事例を例示した図。
本発明の実施例1に係る文書分類装置の構成例を示す図。
類似度スコア算出モデルのファインチューニングによる効果を示す図。
類似度スコア算出モデルのファインチューニングによる効果を示す図。
ユーザが疑似データ生成を指令する場合のモニタ画面構成例を示す図。
ユーザが類似度スコア算出モデルの学習を指令する場合のモニタ画面構成例を示す図。
ユーザが類似度スコア算出を指令する場合のモニタ画面構成例を示す図。
ユーザが文書分類を指令する場合のモニタ画面構成例を示す図。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
物品
8日前
個人
認証システム
22日前
個人
自動精算システム
1日前
個人
保証金管理システム
16日前
個人
鑑定証明システム
22日前
個人
救急搬送システム
8日前
キヤノン株式会社
印刷装置
1日前
個人
業界地図作成システム
1か月前
個人
人的価値発掘システム
1か月前
株式会社MRC
集客システム
16日前
株式会社宗建
SNSサーバー
1か月前
キヤノン電子株式会社
情報処理装置
1か月前
個人
技術マッチングシステム
28日前
個人
生成AIとの常時接続システム
8日前
株式会社ネットブリッジ
展示販売装置
23日前
トヨタ自動車株式会社
分析装置
16日前
個人
配送システムおよび同包箱
1か月前
ミサワホーム株式会社
システム
1か月前
ミサワホーム株式会社
管理装置
1か月前
個人
コンテンツ開示順位判定システム
3日前
株式会社COLORS
表示装置
2日前
キヤノン株式会社
印刷管理装置
14日前
キヤノン株式会社
印刷制御装置
1か月前
オムロン株式会社
認証中継サーバ
1か月前
ミサワホーム株式会社
プログラム
22日前
個人
動作のデザイン評価の方法及び装置
1か月前
個人
文字入力方法、文字入力プログラム
29日前
キヤノン電子株式会社
業務管理システム
1日前
大同特殊鋼株式会社
棒材計数装置
1か月前
ローム株式会社
ソース機器
8日前
トヨタ自動車株式会社
車載機
22日前
個人
口座悪用を防止する口座管理システム
1か月前
トヨタ自動車株式会社
作業評価装置
1か月前
株式会社チノー
ユーザ認証システム
1か月前
日本精機株式会社
コミュニケーション端末
8日前
トヨタ自動車株式会社
作業評価装置
8日前
続きを見る