TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025040662
公報種別公開特許公報(A)
公開日2025-03-25
出願番号2023147592
出願日2023-09-12
発明の名称修正候補特定方法及び修正候補特定プログラム
出願人富士通株式会社
代理人個人
主分類G06F 16/33 20250101AFI20250317BHJP(計算;計数)
要約【課題】テキストの修正候補を特定する修正候補特定方法を提供する。
【解決手段】複数のテキストを含む複数のクラスの中のいずれかのクラスから、複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、複数のクラスのそれぞれにつき、複数のテキストの中から複数のテキストを代表する代表テキストを特定し、代表テキストを含む、複数のテキストの中の一部のテキストを教師あり機械学習の正解データとしてクラスタリングモデルを生成し、クラスタリングモデルで複数のテキストをクラスタリングし、複数のクラスのそれぞれにつき、複数のテキストの特徴量に基づき、クラスタリングによる所定クラスから外れていずれかのクラスから別のいずれかのクラスに含まれる可能性がある所定テキストを候補として特定する、処理をコンピュータが実行する修正候補特定方法である。
【選択図】図15

特許請求の範囲【請求項1】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータが実行する修正候補特定方法。
続きを表示(約 1,000 文字)【請求項2】
前記所定テキストを特定する処理は、前記所定テキストの指定個数を前記可能性が高い順に表示装置に表示する、
ことを特徴とする請求項1に記載の修正候補特定方法。
【請求項3】
前記代表テキストを特定する処理は、前記複数のテキストの特徴量を平均して、前記複数のクラスのそれぞれについて、前記複数のクラスの中心部を抽出し、前記中心部から第1範囲内に属するテキストを抽出し、抽出した前記テキストの中から前記中心部の第2範囲内に属する単語を抽出することにより、前記代表テキストを特定する、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項4】
前記クラスタリングを行う処理は、前記クラスタリングモデルに基づいて、前記一部のテキストと、前記代表テキストを含まない、前記複数のテキストの中の残部のテキストの両方に対する前記クラスタリングを行う、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項5】
前記代表テキストを特定する前に、前記複数のテキストに対し、前記クラスタリングモデルから独立した、前記クラスタリングとは異なる別のクラスタリングを行うことにより、前記複数のクラスを生成する処理を含む、
ことを特徴とする請求項1又は2に記載の修正候補特定方法。
【請求項6】
複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータに特定させる修正候補特定プログラムであって、
前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、
前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、
前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、
前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、
処理を前記コンピュータに実行させる修正候補特定プログラム。

発明の詳細な説明【技術分野】
【0001】
本件は、修正候補特定方法及び修正候補特定プログラムに関する。
続きを表示(約 2,200 文字)【背景技術】
【0002】
データをクラスタリングする技術が知られている(例えば特許文献1参照)。また、テキストデータをカテゴリ毎に自動的に分類する技術や、テキスト情報を分類するシステムも知られている(例えば特許文献2及び3参照)。
【先行技術文献】
【特許文献】
【0003】
特表2011-509472号公報
特開2008-071283号公報
特開2004-126815号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、テキストデータ(以下、単にテキストという)をWord2Vecといった所定の変換手法に基づいてベクトル形式の特徴量に変換し、この特徴量に基づいてテキストをクラスタリングする場合がある。このような場合、特徴量の距離が近いテキスト同士が同じクラスタに含まれることが多い。特徴量間の距離が近いものは、ある程度意味が近いテキストを表しているため、これにより、ある程度意味が近いテキストをクラスタとしてまとめることができ、テキストを数値として扱った解析等に利用することができる。
【0005】
一方で、業界用語に相当するテキストをクラスタリングした場合、テキストがユーザの意図とは異なるクラスタに含まれることがある。例えば、車両の運転免許証には普通自動車の運転免許証もあれば、クレーン車といった重機の運転免許証もある。この場合、重機の運転免許証を表すテキストは、普通自動車の運転免許証を表すテキストが属するクラスタより、建築士といった建築系のテキストが属するクラスタに含まれた方がユーザの意図に沿うこともある。
【0006】
このように、テキストがユーザの意図とは異なるクラスタに含まれた場合、ユーザはそのテキストをユーザの意図に沿うクラスタに修正する作業が求められる。しかしながら、膨大のテキストがクラスタリングされて様々なクラスタが生成されると、ユーザの意図と異なるクラスタに含まれるテキストを発見することは難しい。これにより、ユーザが意図するクラスタにテキストを修正する作業に時間がかかる可能性がある。
【0007】
そこで、1つの側面では、テキストの修正候補を特定する修正候補特定方法及び修正候補特定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの実施態様では、修正候補特定方法は、複数のテキストを含む複数のクラスの中のいずれかのクラスから、前記複数のクラスの中の別のいずれかのクラスへの修正が推奨されるテキストの候補をコンピュータが特定する修正候補特定方法であって、前記複数のクラスのそれぞれについて、前記複数のテキストの中から前記複数のテキストを代表する代表テキストを特定し、前記代表テキストを含む、前記複数のテキストの中の一部のテキストを教師あり機械学習の正解データとして、クラスタリングモデルを生成し、前記クラスタリングモデルに基づいて、前記複数のテキストに対するクラスタリングを行い、前記複数のクラスのそれぞれについて、前記複数のテキストの特徴量に基づいて、前記クラスタリングによる所定クラスから外れて前記いずれかのクラスから前記別のいずれかのクラスに含まれる可能性がある所定テキストを前記候補として特定する、処理を前記コンピュータが実行する修正候補特定方法である。
【発明の効果】
【0009】
テキストの修正候補を特定することができる。
【図面の簡単な説明】
【0010】
修正候補特定装置のハードウェア構成の一例である。
修正候補特定装置の機能構成の一例である。
修正候補特定装置に入力されるテキストの一例である。
修正候補特定装置が実行する処理を例示するフローチャートである。
各テキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
特定のテキストから単語と単語群の特徴量を抽出する処理の一例を説明する図である。
単語群に対するクラスタリングとクラスタリングで生成された複数のクラスタの一例を説明する図である。
代表テキストを特定する処理の一例を説明する図である。
単語群ごとにクラスタ番号と非クラスタ番号のいずれかを設定した学習データの一例である。
単語群の確度行列の一例である。
修正推奨画面の一例である。
代表テキスト特定処理の一例を示すフローチャートである。
単語群の特徴量からテキストの特徴量を抽出する処理の一例を説明する図である。
テキストの中心ベクトルを抽出する処理と代表テキストを特定する処理の一例を説明する図である。
本件の作用と効果の一例を説明する図である。
(a)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その1)である。(b)は修正候補特定装置が実行する処理の一部を例示するフローチャート(その2)である。
サブクラスタを生成する処理の一例を説明する図である。
サブクラスタの確度行列の一例である。
代表テキスト特定処理の他の一例を示すフローチャートである。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

富士通株式会社
画像生成方法
1日前
富士通株式会社
冷却モジュール
3日前
富士通株式会社
評価プログラム、方法、及び装置
1日前
富士通株式会社
プログラム、情報処理方法および情報処理装置
1日前
富士通株式会社
情報処理装置、手続きプログラムおよび手続き方法
2日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
2日前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理システム
1日前
個人
プログラム
1か月前
個人
情報検索システム
10日前
個人
確率場データ同化演算手法
22日前
個人
AI旅行最適化プラグイン
1か月前
キヤノン株式会社
電子機器
9日前
個人
納骨堂システム
29日前
シャープ株式会社
電子機器
23日前
キヤノン株式会社
電子機器
9日前
キヤノン株式会社
電子機器
9日前
個人
技術実行管理システム
24日前
キヤノン電子株式会社
通信システム
2日前
株式会社イノベイト
広告装置
12日前
個人
不動産情報提供システム
19日前
個人
ネイルスキルテストシステム
23日前
合同会社IPマネジメント
内部不正対策
17日前
トヨタ自動車株式会社
管理システム
4日前
トヨタ自動車株式会社
作業評価装置
2日前
ローム株式会社
半導体集積回路
1か月前
TDK株式会社
等価回路
4日前
西松建設株式会社
計測システム
8日前
株式会社TIMEWELL
情報処理システム
1か月前
株式会社NURSY
再就職の支援装置
3日前
個人
生成AI向けデータ保管及び活用システム
1か月前
株式会社ヒニアラタ
障害者支援システム
17日前
個人
公益寄付インタラクティブシステム
2日前
個人
収納装置および収納システム
1か月前
株式会社サマデイ
メンタリングシステム
24日前
株式会社JVCケンウッド
情報処理装置
23日前
トヨタ自動車株式会社
電池評価システム
29日前
続きを見る