特許ウォッチ

公開番号2025025505
公報種別公開特許公報(A)
公開日2025-02-21
出願番号2023130323
出願日2023-08-09
発明の名称分散学習システムおよび学習データ評価方法
出願人株式会社日立製作所
代理人青稜弁理士法人
主分類G06N 3/098 20230101AFI20250214BHJP(計算;計数)
要約【課題】中央サーバーを用いない分散システムにおいて、任意の計算機が自身が格納する学習データの除外することが、分散学習によって得られる全計算機の機械学習モデルの性能の合計に与える影響を評価する。
【解決手段】分散学習システムは、一つ以上の分散学習装置が通信可能なようにネットワークで接続されていて、分散学習装置は、学習モデル情報に学習済みパラメータを含む。検証データは、分散学習装置の各々が保持する学習データに含まれない評価対象データを一つ以上有し、分散学習装置は、それに接続された他の分散学習装置から各々の分散学習装置における検証データの損失の総和に基づいた受渡値を受信し、学習済みパラメータと評価対象データを引数とする損失関数の勾配と、受渡値とにより、評価対象データに対する学習における寄与値を推定する。
【選択図】図5
特許請求の範囲【請求項１】
一つ以上の分散学習装置が通信可能なようにネットワークで接続された分散学習システムであって、
前記分散学習装置は、
学習データと、
検証データと、
学習に関する学習モデル情報とを保持し、
前記学習モデル情報は、機械学習モデル構造情報とモデルパラメータとを含み、
学習済みパラメータは、前記分散学習システムのモデルパラメータと学習データを引数とする損失関数の前記分散学習システムの分散学習装置にわたる総和を最小化するモデルパラメータであり、
前記検証データは、前記分散学習装置の各々が保持する学習データに含まれない評価対象データを一つ以上有し、
前記分散学習装置は、前記分散学習装置に接続された自他の分散学習装置から各々の分散学習装置における検証データの損失の総和に基づいた受渡値を受信し、
前記学習済みパラメータと前記評価対象データを引数とする損失関数の勾配と、前記受渡値とにより、前記評価対象データに対する学習における寄与値を推定することを特徴とする分散学習システム。
続きを表示（約 1,300 文字）【請求項２】
前記受渡値は、複数のステップにより計算され、
あるステップの受渡値は、
直前のステップにおける前記分散学習装置の受渡値と直前のステップにおける自他の分散学習装置から受信した受渡値とにそれぞれ重み付けた値の総和と、
前記学習済みパラメータと前記分散学習装置の学習データを引数とする損失関数の二階微分の行列と直前のステップにおける前記分散学習装置の受渡値をかけた値の全ての学習データにわたる総和と、
前記学習済みパラメータと前記分散学習装置の検証データの損失関数の勾配の全ての検証データにわたる総和とに基づいて計算されることを特徴とする請求項１記載の分散学習システム。
【請求項３】
前記評価対象データに対して、推定された寄与値に基づいて、前記学習データを修正することを特徴とする請求項１記載の分散学習システム。
【請求項４】
前記評価対象データに対して、推定された寄与値を表示し、前記学習データを修正する入力手段を有することを特徴とする請求項１記載の分散学習システム。
【請求項５】
一つ以上の分散学習装置が通信可能なようにネットワークで接続された分散学習システムの学習データ評価方法であって、
前記分散学習装置は、
学習データと、
検証データと、
学習に関する学習モデル情報とを保持し、
前記学習モデル情報は、機械学習モデル構造情報とモデルパラメータとを含み、
学習済みパラメータは、前記分散学習システムのモデルパラメータと学習データを引数とする損失関数の前記分散学習システムの分散学習装置にわたる総和を最小化するモデルパラメータであり、
前記検証データは、前記分散学習装置の各々が保持する学習データに含まれない評価対象データを一つ以上有し、
前記分散学習装置は、前記分散学習装置に接続された他の分散学習装置から各々の分散学習装置における検証データの損失の総和に基づいた受渡値を受信するステップと、
前記分散学習装置は、前記学習済みパラメータと前記評価対象データを引数とする損失関数の勾配と、前記受渡値とにより、前記評価対象データに対する学習における寄与値を推定するステップを有することを特徴とする学習データ評価方法。
【請求項６】
前記受渡値は、複数のステップにより計算され、
あるステップの受渡値は、
直前のステップにおける前記分散学習装置の受渡値と直前のステップにおける他の分散学習装置から受信した受渡値とにそれぞれ重み付けた値の総和と、
前記学習済みパラメータと前記分散学習装置の学習データを引数とする損失関数の二階微分の行列と直前のステップにおける前記分散学習装置の受渡値をかけた値の全ての学習データにわたる総和と、
前記学習済みパラメータと前記分散学習装置の検証データの損失関数の勾配の全ての検証データにわたる総和とに基づいて計算されることを特徴とする請求項５記載の学習データ評価方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、分散学習システムおよび学習データ評価方法に係り、特に、教師データあり機械学習に関して、分散型の計算機システムに適した学習データの学習に関する寄与度を評価するのに好適な分散学習システムおよび学習データ評価方法に関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
教師データあり機械学習は、大量の学習データを学習することにより、解決しようとする問題の推論のための学習モデルを最適なものに近づけていくことにより、計算機により最適な問題解決を図る手法である。
【０００３】
そのときに、学習データとして最適なものを与えることで、ユーザに対して、より性能の高い学習モデルを与えることができる。そのために、学習データの学習に対する寄与度という概念を導入することが考えられる。
【０００４】
機械学習システムに対して、寄与度という概念を用いた技術は、例えば、特許文献１がある。特許文献１の記載された技術では、機械学習システムでは、評価対象データは、初期データ群に対して追加又は除外するデータであり、寄与度計算部が、学習モデルによる出力値と、初期データ群に対して評価対象データを追加又は除外して学習した再学習モデルによる出力値とに基づいて、評価対象データが学習モデルの性能に与える影響を評価する寄与度を計算するとしている。
【０００５】
これにより、学習データに対する評価対象データの除外及び追加が機械学習モデルの性能に与える影響の良否を知り得ることができるとしている。
【０００６】
また、パラメータの予測に対する影響を影響関数（influence function）として評価する技術が、非特許文献１に開示されている。
【０００７】
非特許文献１には、「影響関数が専門家に注意を惹起させて、実際に役立つ事項のみを検査することができることを説明する」（We show that influence functions can help human experts prioritize their attention, allowing them to inspect only the examples that actually matter）という記載と、「Ｌ
ｕｐ，ｌｏｓｓ
（Ｚ
ｉ
，Ｚ
ｉ
）により、Ｚ
ｉ
の影響を測定する。これにより、訓練データセットから、Ｚ
ｉ
を削除した場合のＺ
ｉ
に発生する誤差を近似する」（we measure the influence of Z
i
with L
up,loss
(Z
i
,Z
i
), which approximates the error incurred on Z
i
if we remove Z
i
from the training set）との記載がある（いずれも、5.4 Fixing mislabeled examples）。
【０００８】
また、非特許文献２には、中央サーバーと複数の計算機間の通信を介して実行される機械学習において、ある計算機を除外することにより、機械学習で得られるモデルの性能に与える影響を推定する技術が記載されている。非特許文献２には、「広範な研究が、グローバルモデルのパフォーマンス保証について行われているが、個々のクライアントが共同トレーニングプロセスにどのような影響を与えるかは、いまだに明らかにされていない。この研究では、モデルパラメータに対するこの影響を定量化するために『Fed-Influence』と呼ばれる新しい概念を定義し、この指標を推定するための効果的かつ効率的なアルゴリズムを提案する。」（Extensive works have studied the performance guarantee of the global model however, it is still unclear how each individual client influences the collaborative training process. In this work, we defined a new notion, called Fed-Influence, to quantify this influence over the model parameters, and proposed an effective and efficient algorithm to estimate this metric.）との記載（Abstracts）と、「集中型の学習のサーバーは、影響を評価するものとして、考慮されるサンプリングデータを完全にコントロールできるが、一方、連合学習では、サーバーは、プライバシーの要請のために、クライアントのデータにアクセスできない。（The server in centralized learning, as the influence evaluator, has the full control over the considered sampling data, while in federated learning, the server would not be able to access clients’ raw data because of the privacy requirement）との記載（Introduction）がある。
【０００９】
また、複数のエージェントによる分散最適化に関する技術については、非特許文献３に開示がある。
【先行技術文献】
【特許文献】
【００１０】
特開２０２１－１４９８４２号公報
【非特許文献】
（【００１１】以降は省略されています）

関連特許