TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025173359
公報種別
公開特許公報(A)
公開日
2025-11-27
出願番号
2024078914
出願日
2024-05-14
発明の名称
類似度算出プログラム及びコンピュータ
出願人
MFオプテックス株式会社
代理人
弁理士法人前田特許事務所
主分類
G06F
16/35 20250101AFI20251119BHJP(計算;計数)
要約
【課題】テキストファイル対の類似度をユーザにわかりやすく提示する。
【解決手段】複数のテキストファイルに対して名詞の抽出を行い、各テキストファイルにおいて抽出された各名詞の出現回数を算出するステップと、複数のテキストファイルについてそれぞれ算出された前記出現回数に基づいて、複数のテキストファイルから抽出された複数の名詞のTF-IDFを、各テキストファイルについて算出するステップと、算出したTF-IDFを成分とする特徴度ベクトルの内積を、各複数のテキストファイルに含まれる各テキストファイル対について算出するステップと、少なくとも一部のテキストファイル対について算出した内積に基づく類似度指標を表示装置に表示させるステップとをコンピュータに実行させる。
【選択図】図2
特許請求の範囲
【請求項1】
複数のテキストファイルに対して名詞の抽出を行い、各テキストファイルにおいて抽出された各名詞の出現回数を算出するステップと、
前記複数のテキストファイルについてそれぞれ算出された前記出現回数に基づいて、前記複数のテキストファイルから抽出された複数の名詞のTF-IDFを、各前記テキストファイルについて算出するステップと、
算出した前記TF-IDFを成分とする特徴度ベクトルの内積を、前記複数のテキストファイルに含まれるテキストファイル対について算出するステップと、
前記テキストファイル対について算出した前記内積に基づく類似度指標を表示装置に表示させるステップとをコンピュータに実行させる類似度算出プログラム。
続きを表示(約 860 文字)
【請求項2】
請求項1に記載の類似度算出プログラムにおいて、
前記類似度指標は、前記内積に基づく値の対数に応じた値であることを特徴とする類似度算出プログラム。
【請求項3】
請求項2に記載の類似度算出プログラムにおいて、
前記類似度指標をIS、前記内積をγ、Dを正の実数、mを1を超える実数、εを10^
(-4)
以下の値としたときに、類似度指標は以下の式で表されることを特徴とする類似度算出プログラム。
IS=D+log
m
(γ+ε)
【請求項4】
請求項3に記載の類似度算出プログラムにおいて、
前記式において、
D=10、m=10であることを特徴とする類似度算出プログラム。
【請求項5】
請求項1に記載の類似度算出プログラムにおいて、
0.05以上0.2以下である所定の閾値よりも前記内積が大きくなる前記テキストファイル対を特定する情報を前記表示装置に表示させるステップをさらに前記コンピュータに実行させる類似度算出プログラム。
【請求項6】
請求項5に記載の類似度算出プログラムにおいて、
前記所定の閾値は、0.063以上0.1以下であることを特徴とする類似度算出プログラム。
【請求項7】
請求項1に記載の類似度算出プログラムにおいて、
前記複数のテキストファイルの題名に対して名詞の抽出を行い、
各前記テキストファイルの題名において抽出された名詞の前記出現回数に所定のシード値を加算する加算処理を行い、
前記TF-IDFの算出を、前記加算処理後の前記出現回数に基づいて行うことを特徴とする類似度算出プログラム。
【請求項8】
請求項1~7のいずれか1項に記載の類似度算出プログラムを記憶する記憶部と、
前記記憶部に記憶された類似度算出プログラムを実行する制御部とを備えるコンピュータ。
発明の詳細な説明
【技術分野】
【0001】
本開示は、複数のテキストファイルの互いの類似度に関する情報を生成して表示する技術に関する。
続きを表示(約 1,300 文字)
【背景技術】
【0002】
特許文献1に開示された文書分析装置は、文書の内容をベクトル化し、文書ベクトルを算出し、文書ベクトルに基づいて、クラスタリングを行い、クラスタ中心点と最もコサイン距離が近い代表の文書を選択する処理を行う。
【先行技術文献】
【特許文献】
【0003】
特開2020-166426号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、多数のテキストファイルを含むテキストファイル群から所望の情報を取得したいが、テキストファイル全てを人間が読み込むことは容易でない場合がある。このようなテキストファイル群としては、時系列に蓄積された社内技術情報(技術資料)、所定のデータベース(例えば、特許のデータベース)から抽出された特定のキーワードを含む文書等がある。したがって、テキストファイル群に含まれるテキストファイル同士の類似度を、容易に理解できるルールで簡潔に提示することが非常に有用となる。
【0005】
本開示は、かかる点に鑑みてなされたものであり、その目的とするところは、テキストファイル同士の類似度をユーザにわかりやすく提示することにある。
【課題を解決するための手段】
【0006】
上記の目的を達成するため、本開示の第1の実施態様に係る類似度算出プログラムは、複数のテキストファイルに対して名詞の抽出を行い、各テキストファイルにおいて抽出された各名詞の出現回数を算出するステップと、前記複数のテキストファイルについてそれぞれ算出された前記出現回数に基づいて、前記複数のテキストファイルから抽出された複数の名詞のTF-IDFを、各前記テキストファイルについて算出するステップと、算出した前記TF-IDFを成分とする特徴度ベクトルの内積を、前記複数のテキストファイルに含まれるテキストファイル対について算出するステップと、前記テキストファイル対について算出した前記内積に基づく類似度指標を表示装置に表示させるステップとをコンピュータに実行させることを特徴とする。
【0007】
これにより、テキストファイル対の類似度を、類似度指標によってユーザにわかりやすく提示できる。
【0008】
また、本開示の第2の実施態様は、第1の実施態様において、前記類似度指標は、前記内積に基づく値の対数に応じた値であることを特徴とする。
【0009】
これにより、表示装置に表示させる類似度指標を人間の感じる類似度に近づけることができる。したがって、テキストファイル対の類似度を、類似度指標によってユーザによりわかりやすく提示できる。
【0010】
また、本開示の第3の実施態様は、第2の実施態様において、前記類似度指標をIS、前記内積をγ、Dを正の実数、mを1を超える実数、εを10^
(-4)
以下の値としたときに、類似度指標は以下の式で表されることを特徴とする。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
MFオプテックス株式会社
光照射装置及び光照射方法
2か月前
MFオプテックス株式会社
類似度算出プログラム及びコンピュータ
1日前
個人
詐欺保険
1か月前
個人
縁伊達ポイン
1か月前
個人
職業自動販売機
14日前
個人
RFタグシート
1か月前
個人
5掛けポイント
21日前
個人
QRコードの彩色
1か月前
個人
地球保全システム
1か月前
個人
ペルソナ認証方式
29日前
個人
自動調理装置
1か月前
個人
情報処理装置
24日前
個人
残土処理システム
1か月前
個人
農作物用途分配システム
1か月前
個人
知的財産出願支援システム
1か月前
個人
サービス情報提供システム
16日前
個人
インターネットの利用構造
28日前
個人
タッチパネル操作指代替具
1か月前
個人
携帯端末障害問合せシステム
1か月前
個人
スケジュール調整プログラム
1か月前
株式会社キーエンス
受発注システム
1か月前
株式会社キーエンス
受発注システム
1か月前
株式会社キーエンス
受発注システム
1か月前
個人
食品レシピ生成システム
1か月前
個人
海外支援型農作物活用システム
2か月前
個人
エリアガイドナビAIシステム
29日前
個人
システム及びプログラム
2か月前
キヤノン株式会社
印刷システム
1か月前
エッグス株式会社
情報処理装置
1か月前
個人
未来型家系図構築システム
2か月前
個人
帳票自動生成型SaaSシステム
1か月前
トヨタ自動車株式会社
通知装置
1か月前
個人
音声・通知・再配達UX制御構造
1か月前
株式会社ケアコム
項目選択装置
24日前
キヤノン株式会社
表示システム
1か月前
株式会社ワコム
電子ペン
23日前
続きを見る
他の特許を見る