TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025040662
公報種別
公開特許公報(A)
公開日
2025-03-25
出願番号
2023147592
出願日
2023-09-12
発明の名称
修正候補特定方法及び修正候補特定プログラム
出願人
富士通株式会社
代理人
個人
主分類
G06F
16/33 20250101AFI20250317BHJP(計算;計数)
要約
【課題】テキストの修正候補を特定する修正候補特定方法を提供する。
【解決手段】複数のテキストを含む複数のクラスの中のいずれかのクラスから、複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、複数のクラスのそれぞれにつき、複数のテキストの中から複数のテキストを代表する代表テキストを特定し、代表テキストを含む、複数のテキストの中の一部のテキストを教師あり機械学習の正解データとしてクラスタリングモデルを生成し、クラスタリングモデルで複数のテキストをクラスタリングし、複数のクラスのそれぞれにつき、複数のテキストの特徴量に基づき、クラスタリングによる所定クラスから外れていずれかのクラスから別のいずれかのクラスに含まれる可能性がある所定テキストを候補として特定する、処理をコンピュータが実行する修正候補特定方法である。
【選択図】図15
特許請求の範囲
【請求項1】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータが実行する修正候補特定方法。
続きを表示(約 1,000 文字)
【請求項2】
前記所定テキストを特定する処理は、前記所定テキストの指定個数を前記可能性が高い順に表示装置に表示する、
ことを特徴とする請求項1に記載の修正候補特定方法。
【請求項3】
前記代表テキストを特定する処理は、前記複数のテキストの特徴量を平均して、前記複数のクラスのそれぞれについて、前記複数のクラスの中心部を抽出し、前記中心部から第1範囲内に属するテキストを抽出し、抽出した前記テキストの中から前記中心部の第2範囲内に属する単語を抽出することにより、前記代表テキストを特定する、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項4】
前記クラスタリングを行う処理は、前記クラスタリングモデルに基づいて、前記一部のテキストと、前記代表テキストを含まない、前記複数のテキストの中の残部のテキストの両方に対する前記クラスタリングを行う、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項5】
前記代表テキストを特定する前に、前記複数のテキストに対し、前記クラスタリングモデルから独立した、前記クラスタリングとは異なる別のクラスタリングを行うことにより、前記複数のクラスを生成する処理を含む、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項6】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータに特定させる修正候補特定プログラムであって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータに実行させる修正候補特定プログラム。
発明の詳細な説明
【技術分野】
【0001】
本件は、修正候補特定方法及び修正候補特定プログラムに関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
データをクラスタリングする技術が知られている(例えば特許文献1参照)。また、テキストデータをカテゴリ毎に自動的に分類する技術や、テキスト情報を分類するシステムも知られている(例えば特許文献2及び3参照)。
【先行技術文献】
【特許文献】
【0003】
特表2011-509472号公報
特開2008-071283号公報
特開2004-126815号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、テキストデータ(以下、単にテキストという)をWord2Vecといった所定の変換手法に基づいてベクトル形式の特徴量に変換し、この特徴量に基づいてテキストをクラスタリングする場合がある。このような場合、特徴量の距離が近いテキスト同士が同じクラスタに含まれることが多い。特徴量間の距離が近いものは、ある程度意味が近いテキストを表しているため、これにより、ある程度意味が近いテキストをクラスタとしてまとめることができ、テキストを数値として扱った解析等に利用することができる。
【0005】
一方で、業界用語に相当するテキストをクラスタリングした場合、テキストがユーザの意図とは異なるクラスタに含まれることがある。例えば、車両の運転免許証には普通自動車の運転免許証もあれば、クレーン車といった重機の運転免許証もある。この場合、重機の運転免許証を表すテキストは、普通自動車の運転免許証を表すテキストが属するクラスタより、建築士といった建築系のテキストが属するクラスタに含まれた方がユーザの意図に沿うこともある。
【0006】
このように、テキストがユーザの意図とは異なるクラスタに含まれた場合、ユーザはそのテキストをユーザの意図に沿うクラスタに修正する作業が求められる。しかしながら、膨大のテキストがクラスタリングされて様々なクラスタが生成されると、ユーザの意図と異なるクラスタに含まれるテキストを発見することは難しい。これにより、ユーザが意図するクラスタにテキストを修正する作業に時間がかかる可能性がある。
【0007】
そこで、1つの側面では、テキストの修正候補を特定する修正候補特定方法及び修正候補特定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの実施態様では、修正候補特定方法は、複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、処理を前記コンピュータが実行する修正候補特定方法である。
【発明の効果】
【0009】
テキストの修正候補を特定することができる。
【図面の簡単な説明】
【0010】
修正候補特定装置のハードウェア構成の一例である。
修正候補特定装置の機能構成の一例である。
修正候補特定装置に入力されるテキストの一例である。
修正候補特定装置が実行する処理を例示するフローチャートである。
各テキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
特定のテキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
単語群に対するクラスタリングとクラスタリングで生成された複数のクラスタの一例を説明する図である。
代表テキストを特定する処理の一例を説明する図である。
単語群ごとにクラスタ番号と非クラスタ番号のいずれかを設定した学習データの一例である。
単語群の確度行列の一例である。
修正推奨画面の一例である。
代表テキスト特定処理の一例を示すフローチャートである。
単語群の特徴量からテキストの特徴量を抽出する処理の一例を説明する図である。
テキストの中心ベクトルを抽出する処理と代表テキストを特定する処理の一例を説明する図である。
本件の作用と効果の一例を説明する図である。
(a)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その1)である。(b)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その2)である。
サブクラスタを生成する処理の一例を説明する図である。
サブクラスタの確度行列の一例である。
代表テキスト特定処理の他の一例を示すフローチャートである。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
測定装置
20日前
富士通株式会社
光伝送装置
1か月前
富士通株式会社
画像変換機器と方法
23日前
富士通株式会社
データセット特徴タイプ推論
6日前
富士通株式会社
信号相関量の確定装置と方法
6日前
富士通株式会社
光伝送装置および光伝送方法
28日前
富士通株式会社
制御プログラム、および制御方法
29日前
富士通株式会社
光伝送装置および光伝送システム
7日前
富士通株式会社
双方向光リンクの異常モニタリング
9日前
富士通株式会社
大規模言語モデルを使用したデータ調整
6日前
富士通株式会社
情報処理プログラムおよび情報処理方法
6日前
富士通株式会社
制御プログラム、制御方法及び決済装置
2日前
富士通株式会社
管理装置、管理方法および管理プログラム
1か月前
富士通株式会社
圧縮プログラム、圧縮方法および圧縮装置
20日前
富士通株式会社
通信管理装置および無線リソース予測方法
1か月前
富士通株式会社
選択プログラム、選択装置、及び選択方法
9日前
富士通株式会社
無線アクセスネットワークプロビジョニング
6日前
富士通株式会社
赤外線センサ、及び赤外線センサの製造方法
15日前
富士通株式会社
広告画像を生成する方法、装置及び記憶媒体
13日前
富士通株式会社
ホモグラフィの取得装置、方法及び電子機器
1か月前
富士通株式会社
光送信機サブ信号光位相差の確定装置と方法
6日前
富士通株式会社
因果関係分析方法及び因果関係分析プログラム
1か月前
富士通株式会社
演算プログラム、演算方法、および情報処理装置
6日前
富士通株式会社
量子ビットデバイス及び量子ビットデバイスの製造方法
13日前
富士通株式会社
情報処理プログラム、情報処理方法、及び情報処理装置
7日前
富士通株式会社
レース投票券購入方法及びレース投票券購入プログラム
29日前
富士通株式会社
強化学習プログラム、強化学習方法および情報処理装置
1か月前
富士通株式会社
メモリ駆動装置、光伝送システム、及びメモリ駆動方法
1か月前
富士通株式会社
画像に基づいて視程値を計算する装置、方法及び電子機器
1か月前
富士通株式会社
情報処理プログラム、情報処理装置、および情報処理方法
2日前
富士通株式会社
出力制御プログラム、出力制御方法およびナビゲーション装置
27日前
富士通株式会社
光送信機のサブ信号の遅延差のリアルタイム監視装置及び方法
6日前
富士通株式会社
ブロックチェーンに基づくエスクローされたマーケットプレイス
6日前
富士通株式会社
光伝送路特性推定装置、光伝送システム、及び光伝送路特性推定方法
7日前
富士通株式会社
リソース管理装置、リソース管理方法およびリソース管理プログラム
1か月前
富士通株式会社
共有メモリ制御プログラム、共有メモリ制御方法および情報処理装置
6日前
続きを見る
他の特許を見る