TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025040662
公報種別
公開特許公報(A)
公開日
2025-03-25
出願番号
2023147592
出願日
2023-09-12
発明の名称
修正候補特定方法及び修正候補特定プログラム
出願人
富士通株式会社
代理人
個人
主分類
G06F
16/33 20250101AFI20250317BHJP(計算;計数)
要約
【課題】テキストの修正候補を特定する修正候補特定方法を提供する。
【解決手段】複数のテキストを含む複数のクラスの中のいずれかのクラスから、複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、複数のクラスのそれぞれにつき、複数のテキストの中から複数のテキストを代表する代表テキストを特定し、代表テキストを含む、複数のテキストの中の一部のテキストを教師あり機械学習の正解データとしてクラスタリングモデルを生成し、クラスタリングモデルで複数のテキストをクラスタリングし、複数のクラスのそれぞれにつき、複数のテキストの特徴量に基づき、クラスタリングによる所定クラスから外れていずれかのクラスから別のいずれかのクラスに含まれる可能性がある所定テキストを候補として特定する、処理をコンピュータが実行する修正候補特定方法である。
【選択図】図15
特許請求の範囲
【請求項1】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータが実行する修正候補特定方法。
続きを表示(約 1,000 文字)
【請求項2】
前記所定テキストを特定する処理は、前記所定テキストの指定個数を前記可能性が高い順に表示装置に表示する、
ことを特徴とする請求項1に記載の修正候補特定方法。
【請求項3】
前記代表テキストを特定する処理は、前記複数のテキストの特徴量を平均して、前記複数のクラスのそれぞれについて、前記複数のクラスの中心部を抽出し、前記中心部から第1範囲内に属するテキストを抽出し、抽出した前記テキストの中から前記中心部の第2範囲内に属する単語を抽出することにより、前記代表テキストを特定する、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項4】
前記クラスタリングを行う処理は、前記クラスタリングモデルに基づいて、前記一部のテキストと、前記代表テキストを含まない、前記複数のテキストの中の残部のテキストの両方に対する前記クラスタリングを行う、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項5】
前記代表テキストを特定する前に、前記複数のテキストに対し、前記クラスタリングモデルから独立した、前記クラスタリングとは異なる別のクラスタリングを行うことにより、前記複数のクラスを生成する処理を含む、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項6】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータに特定させる修正候補特定プログラムであって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータに実行させる修正候補特定プログラム。
発明の詳細な説明
【技術分野】
【0001】
本件は、修正候補特定方法及び修正候補特定プログラムに関する。
続きを表示(約 2,200 文字)
【背景技術】
【0002】
データをクラスタリングする技術が知られている(例えば特許文献1参照)。また、テキストデータをカテゴリ毎に自動的に分類する技術や、テキスト情報を分類するシステムも知られている(例えば特許文献2及び3参照)。
【先行技術文献】
【特許文献】
【0003】
特表2011-509472号公報
特開2008-071283号公報
特開2004-126815号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、テキストデータ(以下、単にテキストという)をWord2Vecといった所定の変換手法に基づいてベクトル形式の特徴量に変換し、この特徴量に基づいてテキストをクラスタリングする場合がある。このような場合、特徴量の距離が近いテキスト同士が同じクラスタに含まれることが多い。特徴量間の距離が近いものは、ある程度意味が近いテキストを表しているため、これにより、ある程度意味が近いテキストをクラスタとしてまとめることができ、テキストを数値として扱った解析等に利用することができる。
【0005】
一方で、業界用語に相当するテキストをクラスタリングした場合、テキストがユーザの意図とは異なるクラスタに含まれることがある。例えば、車両の運転免許証には普通自動車の運転免許証もあれば、クレーン車といった重機の運転免許証もある。この場合、重機の運転免許証を表すテキストは、普通自動車の運転免許証を表すテキストが属するクラスタより、建築士といった建築系のテキストが属するクラスタに含まれた方がユーザの意図に沿うこともある。
【0006】
このように、テキストがユーザの意図とは異なるクラスタに含まれた場合、ユーザはそのテキストをユーザの意図に沿うクラスタに修正する作業が求められる。しかしながら、膨大のテキストがクラスタリングされて様々なクラスタが生成されると、ユーザの意図と異なるクラスタに含まれるテキストを発見することは難しい。これにより、ユーザが意図するクラスタにテキストを修正する作業に時間がかかる可能性がある。
【0007】
そこで、1つの側面では、テキストの修正候補を特定する修正候補特定方法及び修正候補特定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの実施態様では、修正候補特定方法は、複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、処理を前記コンピュータが実行する修正候補特定方法である。
【発明の効果】
【0009】
テキストの修正候補を特定することができる。
【図面の簡単な説明】
【0010】
修正候補特定装置のハードウェア構成の一例である。
修正候補特定装置の機能構成の一例である。
修正候補特定装置に入力されるテキストの一例である。
修正候補特定装置が実行する処理を例示するフローチャートである。
各テキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
特定のテキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
単語群に対するクラスタリングとクラスタリングで生成された複数のクラスタの一例を説明する図である。
代表テキストを特定する処理の一例を説明する図である。
単語群ごとにクラスタ番号と非クラスタ番号のいずれかを設定した学習データの一例である。
単語群の確度行列の一例である。
修正推奨画面の一例である。
代表テキスト特定処理の一例を示すフローチャートである。
単語群の特徴量からテキストの特徴量を抽出する処理の一例を説明する図である。
テキストの中心ベクトルを抽出する処理と代表テキストを特定する処理の一例を説明する図である。
本件の作用と効果の一例を説明する図である。
(a)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その1)である。(b)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その2)である。
サブクラスタを生成する処理の一例を説明する図である。
サブクラスタの確度行列の一例である。
代表テキスト特定処理の他の一例を示すフローチャートである。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
富士通株式会社
電源装置
17日前
富士通株式会社
画像生成方法
23日前
富士通株式会社
車線区分装置及び方法
3日前
富士通株式会社
評価プログラム、方法、及び装置
23日前
富士通株式会社
情報処理装置,プログラムおよび制御方法
3日前
富士通株式会社
分子動力学計算プログラム、方法、及び装置
3日前
富士通株式会社
予測プログラム、予測方法及び情報処理装置
18日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
23日前
富士通株式会社
方策学習装置、方策学習方法及び通信システム
18日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
24日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
24日前
富士通株式会社
医薬品管理装置、医薬品管理方法、医薬品管理プログラム
4日前
富士通株式会社
業務管理プログラム、業務管理方法、および情報処理装置
10日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
19日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
4日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
23日前
富士通株式会社
タスク制御プログラム、情報処理装置及びタスク制御方法
3日前
富士通株式会社
期待値算出システム、期待値算出装置、及び期待値算出方法
19日前
富士通株式会社
量子計算支援プログラム、量子計算支援方法、および情報処理装置
11日前
富士通株式会社
歩行訓練支援プログラム、歩行訓練支援方法、および情報処理装置
5日前
富士通株式会社
エレベータ管理プログラム、エレベータ管理方法、エレベータ管理装置
20日前
富士通株式会社
リソース割当て装置、リソース割当て方法、およびリソース割当てプログラム
17日前
富士通株式会社
基底エネルギー算出プログラム、基底エネルギー算出装置、および基底エネルギー算出方法
12日前
富士通株式会社
サイドリンクリソースの再選択方法及び装置
4日前
富士通株式会社
基地局、移動局、通信システム、及び通信方法
16日前
富士通株式会社
ワイヤーハーネス製造図設計支援プログラム、ワイヤーハーネス製造図設計支援方法、および情報処理装置
3日前
個人
非正規コート
13日前
個人
人物再現システム
10日前
個人
AI飲食最適化プラグイン
3日前
個人
電話管理システム及び管理方法
4日前
有限会社ノア
データ読取装置
11日前
株式会社ザメディア
出席管理システム
18日前
個人
広告提供システムおよびその方法
13日前
個人
日誌作成支援システム
10日前
個人
ポイント還元付き配送システム
11日前
トヨタ自動車株式会社
工程計画装置
18日前
続きを見る
他の特許を見る