TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025062945
公報種別公開特許公報(A)
公開日2025-04-15
出願番号2023172339
出願日2023-10-03
発明の名称分析装置、分析方法および分析プログラム
出願人株式会社日立製作所
代理人藤央弁理士法人
主分類G06N 20/00 20190101AFI20250408BHJP(計算;計数)
要約【課題】サンプル間の解釈の揺らぎを抑制すること。
【解決手段】分析装置は、第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットを取得する取得処理と、前記取得処理によって取得されたサンプルデータセット内の複数の第1サンプルの中の2つの第1サンプルを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記2つの第1サンプル間の類似度を算出する類似度算出処理と、前記類似度算出処理によって算出された類似度に基づいて、前記第1ラベルが同一である他の第1サンプルの個数を前記第1サンプルごとに集計し、集計結果に基づいて、前記第1サンプルの解釈の揺らぎの低さを示す第1信頼度を前記第1サンプルごとに算出する信頼度算出処理と、を実行する。
【選択図】図2
特許請求の範囲【請求項1】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置であって、
前記プロセッサは、
第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットを取得する取得処理と、
前記取得処理によって取得されたサンプルデータセット内の複数の第1サンプルの中の2つの第1サンプルを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記2つの第1サンプル間の類似度を算出する類似度算出処理と、
前記類似度算出処理によって算出された類似度に基づいて、前記第1ラベルが同一である他の第1サンプルの個数を前記第1サンプルごとに集計し、集計結果に基づいて、前記第1サンプルの解釈の揺らぎの低さを示す第1信頼度を前記第1サンプルごとに算出する信頼度算出処理と、
を実行することを特徴とする分析装置。
続きを表示(約 2,300 文字)【請求項2】
請求項1に記載の分析装置であって、
前記取得処理では、前記プロセッサは、さらに、ラベルが無い複数の第2サンプルを取得し、
前記類似度算出処理では、前記プロセッサは、前記第1サンプルと前記第2サンプルとの組み合わせを、前記複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記組み合わせ間の類似度を算出し、前記類似度に基づいて、前記組み合わせ内の前記第1ラベルを第2ラベルとして前記第2サンプルに付与し、前記類似度に基づいて、前記第1信頼度を前記第1サンプルごとに算出し、前記類似度に基づいて、前記第2サンプルの解釈の揺らぎの低さを示す第2信頼度を前記第2サンプルごとに算出する、
ことを特徴とする分析装置。
【請求項3】
請求項1に記載の分析装置であって、
前記信頼度算出処理では、前記プロセッサは、前記類似度が所定の順位までの特定の第1サンプルについて、前記第1信頼度を算出する、
ことを特徴とする分析装置。
【請求項4】
請求項1に記載の分析装置であって、
前記信頼度算出処理では、前記プロセッサは、前記類似度が所定のしきい値以上である特定の第1サンプルについて、前記第1信頼度を算出する、
ことを特徴とする分析装置。
【請求項5】
請求項1に記載の分析装置であって、
前記プロセッサは、
前記算出処理によって算出された前記第1サンプルごとの第1信頼度を出力する出力処理を実行することを特徴とする分析装置。
【請求項6】
請求項1に記載の分析装置であって、
前記プロセッサは、
入力データを判別した結果を出力する判別モデルに前記複数の第1サンプルを入力した結果、前記判別モデルから出力される前記第1サンプルごとの判別結果と、前記第1サンプルごとの前記第1ラベルと、の誤差と、前記第1サンプルごとの第1信頼度と、に基づいて、前記判別モデルを学習する学習処理を実行することを特徴とする分析装置。
【請求項7】
請求項6に記載の分析装置であって、
前記プロセッサは、
前記判別モデルに予測対象データを入力することにより前記判別モデルから得られる予測結果を出力する予測処理を実行することを特徴とする分析装置。
【請求項8】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置であって、
前記プロセッサは、
第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットと、ラベルが無い複数の第2サンプルと、を取得する取得処理と、
前記取得処理によって取得されたサンプルデータセット内の前記第1サンプルと前記第2サンプルとの組み合わせを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記組み合わせ間の類似度を算出し、前記類似度に基づいて、前記組み合わせ内の前記第1ラベルを前記第2サンプルと対になる第2ラベルとして前記第2サンプルに付与する類似度算出処理と、
入力データを判別した結果を出力する前記類似度評価指標ごとの判別モデルの各々に、前記類似度算出処理によって前記第2ラベルが付与された前記複数の第2サンプルを入力した結果、前記判別モデルの各々から出力される前記第2サンプルごとの判別結果と、前記第2サンプルごとの前記第2ラベルと、の誤差と、に基づいて、前記判別モデルの各々を学習する学習処理を実行することを特徴とする分析装置。
【請求項9】
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置が実行する分析方法であって、
前記プロセッサは、
第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットを取得する取得処理と、
前記取得処理によって取得されたサンプルデータセット内の複数の第1サンプルの中の2つの第1サンプルを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記2つの第1サンプル間の類似度を算出する類似度算出処理と、
前記類似度算出処理によって算出された類似度に基づいて、前記第1ラベルが同一である他の第1サンプルの個数を前記第1サンプルごとに集計し、集計結果に基づいて、前記第1サンプルの解釈の揺らぎの低さを示す第1信頼度を前記第1サンプルごとに算出する信頼度算出処理と、
を実行することを特徴とする分析方法。
【請求項10】
プロセッサに、
第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットを取得する取得処理と、
前記取得処理によって取得されたサンプルデータセット内の複数の第1サンプルの中の2つの第1サンプルを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記2つの第1サンプル間の類似度を算出する類似度算出処理と、
前記類似度算出処理によって算出された類似度に基づいて、前記第1ラベルが同一である他の第1サンプルの個数を前記第1サンプルごとに集計し、集計結果に基づいて、前記第1サンプルの解釈の揺らぎの低さを示す第1信頼度を前記第1サンプルごとに算出する信頼度算出処理と、
を実行させることを特徴とする分析プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、データを分析する分析装置、分析方法および分析プログラムに関する。
続きを表示(約 2,300 文字)【背景技術】
【0002】
人が分類したテキストをArtificial Intelligence(AI)で再現して自動判定したいという問題がある。人による判定は揺らぐため一貫性が保証されていない。このような判定の揺らぎは、noisy oracleと呼ばれ、人の体調で変化するこのnoisy oracleを低減するため、判定を行う評価者を増加して合意を取ったり、判定対象となるサンプルを増加して統計的安定性を得たりする、といった改善があるが、人的コストおよび金銭的コストがかかる。したがって、結果的に、人手による判別データに基づく分類を精緻に行うのは困難である。
【0003】
このため、従来では、下記特許文献1~3のようなラベル伝播法が用いられている。ラベル伝播法は、サンプルが近いとラベルも近いはず、という考え方で、ラベル付きのサンプルについて再ラベリングする方法である。また、ラベル付きのサンプルを使って、ラベルなしのサンプルにも疑似ラベルを付与するラベル伝播法による半教師学習方法もある。
【0004】
特許文献1は、質の悪い教師データが含まれていても精度の良い分類モデルを構築する分類モデル学習装置を開示する。この分類モデル学習装置は、ラベル付けの信頼度が所定の基準を満たすエキスパートデータおよびラベル付けの信頼度が不明な非エキスパートデータの各々が対応する座標を取得して非エキスパートデータからエキスパートデータまでの距離を各々算出し、所定の規則に当てはめて近傍距離を定義する。次に、選択した非エキスパートデータから近傍距離の範囲内にあるエキスパートデータを探索して同ラベル確率を算出し、付されたラベルが近傍距離の範囲内にあるエキスパートデータのラベルに一致する確率に基づく信頼度関数に当てはめて非エキスパートデータの信頼度を決定し、付加する。そして、エキスパートデータおよび信頼度が付加された非エキスパートデータに基づいて所望のデータにラベル付けを行う分類モデルを学習する。
【0005】
特許文献2は、注目事象を見逃すリスクを低減することができるモデル作成装置を開示する。このモデル作成装置は、第1データが観測された状況を表す観測情報と、第2データが観測された状況を表す観測情報とが類似している程度に基づき、該第1データに関するラベルと該第2データに関するラベルとが類似しているか否かを判定し、類似していると判定した場合に該第1データに関するラベルとして、該第2データに関するラベルを付与し、該第1データ及び該第2データを含むデータ情報と、付与された該ラベル及び該第2データに関する該ラベルを含むラベル情報との関係性を表すモデルを算出する。
【0006】
特許文献3は、誤ラベルの特定に要する時間の削減を図る処理システムを開示する。この処理システムは、第1取得部と、第2取得部と、第3取得部と、識別部と、抽出部と、を備える。第1取得部は、ラベルが付与された複数の学習データを取得する。第2取得部は、複数の学習データに基づき生成された学習済みモデルを取得する。第3取得部は、ラベルが付与された識別データを取得する。識別部は、学習済みモデルを用いて識別データを識別する。抽出部は、学習済みモデルで適用される識別データと複数の学習データの各々との類似度に関する指標に基づき、複数の学習データから、識別データと類似する1以上の学習データを抽出する。
【先行技術文献】
【特許文献】
【0007】
特開2009-282686号公報
国際公開第2020/026395号
国際公開第2022/123905号
【発明の概要】
【発明が解決しようとする課題】
【0008】
人の判定が揺らぐ原因仮説として、入力となるサンプルの分かりやすさに影響を受けてラベルが揺らぐという仮説がある。すなわち、サンプル間の近さでラベルを修正してもあまり意味はなく、サンプル自体の分かりやすさをとらえるようなアプローチが望ましいが、そのようなアプローチについては、上記特許文献1~3には開示されていない。
【0009】
本発明は、サンプル間の解釈の揺らぎを抑制することを目的とする。
【課題を解決するための手段】
【0010】
本願において開示される発明の一側面となる分析装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置であって、前記プロセッサは、第1サンプルと前記第1サンプルと対になる第1ラベルとを有する複数のサンプルデータセットを取得する取得処理と、前記取得処理によって取得されたサンプルデータセット内の複数の第1サンプルの中の2つの第1サンプルを、2つのデータ間の類似度を評価する複数の類似度評価指標の各々に入力することにより、前記類似度評価指標ごとの前記2つの第1サンプル間の類似度を算出する類似度算出処理と、前記類似度算出処理によって算出された類似度に基づいて、前記第1ラベルが同一である他の第1サンプルの個数を前記第1サンプルごとに集計し、集計結果に基づいて、前記第1サンプルの解釈の揺らぎの低さを示す第1信頼度を前記第1サンプルごとに算出する信頼度算出処理と、を実行することを特徴とする。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
非正規コート
4日前
個人
人物再現システム
1日前
有限会社ノア
データ読取装置
2日前
個人
広告提供システムおよびその方法
4日前
株式会社ザメディア
出席管理システム
9日前
個人
日誌作成支援システム
1日前
株式会社タクテック
商品取出集品システム
8日前
個人
ポイント還元付き配送システム
2日前
トヨタ自動車株式会社
工程計画装置
9日前
ミサワホーム株式会社
情報処理装置
8日前
トヨタ自動車株式会社
作業判定方法
10日前
オベック実業株式会社
接続構造
1日前
株式会社村田製作所
動き検知装置
8日前
トヨタ自動車株式会社
情報処理システム
10日前
ゼネラル株式会社
RFIDタグ付き物品
11日前
個人
コンテンツ配信システム
8日前
株式会社国際電気
支援システム
11日前
トヨタ自動車株式会社
情報処理方法
10日前
株式会社実身美
ワーキングシェアリングシステム
2日前
株式会社ドクター中松創研
生成AIの適切使用法
1日前
富士通株式会社
画像生成方法
14日前
個人
プラットフォームシステム
8日前
ブラザー工業株式会社
ラベルプリンタ
10日前
株式会社エスシーシー
置き配システム
2日前
株式会社知財事業研究所
運行計画作成システム
8日前
トヨタ自動車株式会社
作業支援システム
8日前
個人
注文管理システム及び注文管理プログラム
1日前
甍エンジニアリング株式会社
屋根材買い取りシステム
14日前
株式会社 喜・扇
緊急事態対応円滑化システム
1日前
株式会社K-model
運用設計資料作成装置
4日前
トヨタ自動車株式会社
情報処理装置
1日前
日立建機株式会社
作業機械の管理装置
11日前
日立建機株式会社
潤滑油診断システム
9日前
株式会社日立製作所
設計支援装置
9日前
株式会社マーケットヴィジョン
情報処理システム
1日前
三菱ケミカル株式会社
芯鞘複合導電繊維および繊維集合体
1日前
続きを見る