TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025040662
公報種別
公開特許公報(A)
公開日
2025-03-25
出願番号
2023147592
出願日
2023-09-12
発明の名称
修正候補特定方法及び修正候補特定プログラム
出願人
富士通株式会社
代理人
個人
主分類
G06F
16/33 20250101AFI20250317BHJP(計算;計数)
要約
【課題】テキストの修正候補を特定する修正候補特定方法を提供する。
【解決手段】複数のテキストを含む複数のクラスの中のいずれかのクラスから、複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、複数のクラスのそれぞれにつき、複数のテキストの中から複数のテキストを代表する代表テキストを特定し、代表テキストを含む、複数のテキストの中の一部のテキストを教師あり機械学習の正解データとしてクラスタリングモデルを生成し、クラスタリングモデルで複数のテキストをクラスタリングし、複数のクラスのそれぞれにつき、複数のテキストの特徴量に基づき、クラスタリングによる所定クラスから外れていずれかのクラスから別のいずれかのクラスに含まれる可能性がある所定テキストを候補として特定する、処理をコンピュータが実行する修正候補特定方法である。
【選択図】図15
特許請求の範囲
【請求項1】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータが実行する修正候補特定方法。
続きを表示(約 1,000 文字)
【請求項2】
前記所定テキストを特定する処理は、前記所定テキストの指定個数を前記可能性が高い順に表示装置に表示する、
ことを特徴とする請求項1に記載の修正候補特定方法。
【請求項3】
前記代表テキストを特定する処理は、前記複数のテキストの特徴量を平均して、前記複数のクラスのそれぞれについて、前記複数のクラスの中心部を抽出し、前記中心部から第1範囲内に属するテキストを抽出し、抽出した前記テキストの中から前記中心部の第2範囲内に属する単語を抽出することにより、前記代表テキストを特定する、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項4】
前記クラスタリングを行う処理は、前記クラスタリングモデルに基づいて、前記一部のテキストと、前記代表テキストを含まない、前記複数のテキストの中の残部のテキストの両方に対する前記クラスタリングを行う、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項5】
前記代表テキストを特定する前に、前記複数のテキストに対し、前記クラスタリングモデルから独立した、前記クラスタリングとは異なる別のクラスタリングを行うことにより、前記複数のクラスを生成する処理を含む、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項6】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータに特定させる修正候補特定プログラムであって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータに実行させる修正候補特定プログラム。
発明の詳細な説明
【技術分野】
【0001】
本件は、修正候補特定方法及び修正候補特定プログラムに関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
データをクラスタリングする技術が知られている(例えば特許文献1参照)。また、テキストデータをカテゴリ毎に自動的に分類する技術や、テキスト情報を分類するシステムも知られている(例えば特許文献2及び3参照)。
【先行技術文献】
【特許文献】
【0003】
特表2011-509472号公報
特開2008-071283号公報
特開2004-126815号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、テキストデータ(以下、単にテキストという)をWord2Vecといった所定の変換手法に基づいてベクトル形式の特徴量に変換し、この特徴量に基づいてテキストをクラスタリングする場合がある。このような場合、特徴量の距離が近いテキスト同士が同じクラスタに含まれることが多い。特徴量間の距離が近いものは、ある程度意味が近いテキストを表しているため、これにより、ある程度意味が近いテキストをクラスタとしてまとめることができ、テキストを数値として扱った解析等に利用することができる。
【0005】
一方で、業界用語に相当するテキストをクラスタリングした場合、テキストがユーザの意図とは異なるクラスタに含まれることがある。例えば、車両の運転免許証には普通自動車の運転免許証もあれば、クレーン車といった重機の運転免許証もある。この場合、重機の運転免許証を表すテキストは、普通自動車の運転免許証を表すテキストが属するクラスタより、建築士といった建築系のテキストが属するクラスタに含まれた方がユーザの意図に沿うこともある。
【0006】
このように、テキストがユーザの意図とは異なるクラスタに含まれた場合、ユーザはそのテキストをユーザの意図に沿うクラスタに修正する作業が求められる。しかしながら、膨大のテキストがクラスタリングされて様々なクラスタが生成されると、ユーザの意図と異なるクラスタに含まれるテキストを発見することは難しい。これにより、ユーザが意図するクラスタにテキストを修正する作業に時間がかかる可能性がある。
【0007】
そこで、1つの側面では、テキストの修正候補を特定する修正候補特定方法及び修正候補特定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの実施態様では、修正候補特定方法は、複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、処理を前記コンピュータが実行する修正候補特定方法である。
【発明の効果】
【0009】
テキストの修正候補を特定することができる。
【図面の簡単な説明】
【0010】
修正候補特定装置のハードウェア構成の一例である。
修正候補特定装置の機能構成の一例である。
修正候補特定装置に入力されるテキストの一例である。
修正候補特定装置が実行する処理を例示するフローチャートである。
各テキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
特定のテキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
単語群に対するクラスタリングとクラスタリングで生成された複数のクラスタの一例を説明する図である。
代表テキストを特定する処理の一例を説明する図である。
単語群ごとにクラスタ番号と非クラスタ番号のいずれかを設定した学習データの一例である。
単語群の確度行列の一例である。
修正推奨画面の一例である。
代表テキスト特定処理の一例を示すフローチャートである。
単語群の特徴量からテキストの特徴量を抽出する処理の一例を説明する図である。
テキストの中心ベクトルを抽出する処理と代表テキストを特定する処理の一例を説明する図である。
本件の作用と効果の一例を説明する図である。
(a)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その1)である。(b)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その2)である。
サブクラスタを生成する処理の一例を説明する図である。
サブクラスタの確度行列の一例である。
代表テキスト特定処理の他の一例を示すフローチャートである。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
富士通株式会社
半導体装置
11日前
富士通株式会社
メッシュ微細化
12日前
富士通株式会社
半導体デバイス
11日前
富士通株式会社
演算器及び演算方法
12日前
富士通株式会社
ポイントクラウド分類
6日前
富士通株式会社
電子機器筐体及び電子機器
10日前
富士通株式会社
アレイアンテナモジュール
13日前
富士通株式会社
光送信器及び光トランシーバ
10日前
富士通株式会社
基板及びこれを備えた電子装置
13日前
富士通株式会社
テキスト案内される画像エディタ
6日前
富士通株式会社
メモリ管理装置及びメモリ管理方法
5日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
4日前
富士通株式会社
探索プログラム、探索方法、および情報処理装置
10日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
11日前
富士通株式会社
キャッシュ装置およびキャッシュ装置の制御方法
11日前
富士通株式会社
出張情報受付方法および出張情報受付プログラム
10日前
富士通株式会社
並列コンピューティング・カテゴリー分けプロセス
6日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
4日前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
11日前
富士通株式会社
チェックプログラム、チェック方法及び情報処理装置
10日前
富士通株式会社
凝縮グラフ分布(CGD)に基づいたグラフ連続学習
6日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
10日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
10日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
10日前
富士通株式会社
施策特定プログラム、施策特定方法および情報処理装置
17日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
10日前
富士通株式会社
機械学習プログラム、機械学習方法および情報処理装置
17日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
4日前
富士通株式会社
表示制御プログラム、表示制御方法および情報処理装置
13日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
11日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
12日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
12日前
富士通株式会社
リスク推定プログラム、リスク推定方法および情報処理装置
10日前
富士通株式会社
マトリクススケジューラを備えるプロセッサ及び情報処理装置
10日前
富士通株式会社
タスクチューニングプログラムおよびタスクチューニング方法
12日前
富士通株式会社
ジョセフソン素子、量子ビット、及びジョセフソン素子の製造方法
12日前
続きを見る
他の特許を見る