特許ウォッチ

公開番号2024178811
公報種別公開特許公報(A)
公開日2024-12-25
出願番号2023097239
出願日2023-06-13
発明の名称情報処理装置、学習方法、及びプログラム
出願人日本電信電話株式会社,国立大学法人東京科学大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06N 3/098 20230101AFI20241218BHJP(計算;計数)
要約【課題】分散学習において、高速に合意形成に至ることを可能とする技術を提供する。
【解決手段】複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、正定値行列を用いて表された定常点条件から演算子分割を適用することにより得られた更新ルールに従って更新された変数を、隣接ノードから受信する受信部と、前記変数を用いて、前記モデルのモデルパラメータを更新する更新部とを備える。
【選択図】図4
特許請求の範囲【請求項１】
複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、
正定値行列を用いて表された定常点条件から演算子分割を適用することにより得られた更新ルールに従って更新された変数を、隣接ノードから受信する受信部と、
前記変数を用いて、前記モデルのモデルパラメータを更新する更新部と
を備える情報処理装置。
続きを表示（約 900 文字）【請求項２】
前記ノードをｉ番目のノードとし、前記隣接ノードをｊ番目のノードとし、前記ノードにおける正定値行列をＧ
ｉ｜ｊ
と表し、前記隣接ノードにおける正定値行列をＧ
ｊ｜ｉ
と表した場合に、Ｇ
ｉ｜ｊ
＝Ｇ
ｊ｜ｉ
を満たす
請求項１に記載の情報処理装置。
【請求項３】
前記更新ルールに従って前記更新部により更新した変数を前記隣接ノードに送信する送信部
を更に備える請求項１に記載の情報処理装置。
【請求項４】
前記モデルパラメータの更新のための更新ルールは、モデルパラメータを、平均化された正定値行列の逆行列を勾配に乗算した項を含む式で更新するルールである
請求項１に記載の情報処理装置。
【請求項５】
前記更新部は、K-FAC（Kronecker Factored Approximate Curvature）により近似されたガウス・ニュートン行列を用いて前記正定値行列を更新する
請求項１に記載の情報処理装置。
【請求項６】
前記更新部は、前記モデルの確率的勾配の計算を前記モデルのレイヤーごとに行う、又は、前記正定値行列の更新を前記モデルのレイヤーごとに行う
請求項５に記載の情報処理装置。
【請求項７】
複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置が実行する学習方法であって、
正定値行列を用いて表された定常点条件から演算子分割を適用することにより得られた更新ルールに従って更新された変数を、隣接ノードから受信する受信ステップと、
前記変数を用いて、前記モデルのモデルパラメータを更新する更新ステップと
を備える学習方法。
【請求項８】
コンピュータを、請求項１ないし６のうちいずれか１項に記載の情報処理装置における各部として機能させるためのプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、分散学習に関連するものである。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
近年、ニューラルネットワーク等のモデルは画像処理や自然言語処理など様々な分野で大きな注目を集めている。モデルを学習するためには、通常、大量の学習データを収集する必要がある。
【０００３】
しかし、プライバシーの問題等のために、個人情報を含む学習データを単一のサーバ（ノード）上に収集することは困難である。このようなケースを考慮して、任意にネットワーク接続できる複数のノードにデータを分散させて蓄積し、全データを高い認識率で識別できるようなモデル（例えばニューラルネットワークのモデル）の学習を実現することが検討されている（例えば非特許文献１）。上記の学習は分散学習（Decentralized learning）と呼ばれる。
【０００４】
分散学習においては、複数のノード間でどのような合意形成をしながら学習をしたらよいかのアルゴリズムを構築することが研究の主題となっている。合意形成に至るまでに、ノード間の通信回数や通信する情報量が少なく、高速に合意形成に至るような分散学習のアルゴリズムとして性能が良いと言える。
【０００５】
非特許文献１には、エッジコンセンサス学習（ECL：Edge-consensus learning）と呼ばれる分散学習の技術が開示されている。
【０００６】
ECLのメリットは、ノードに蓄積されるデータサブセットの統計的な偏り（heterogeneity、不均一性）に対してロバストに学習できる点である。これは、ノード間のモデルが一致するという合意形成型の制約下でコスト最小化問題を解いていることに起因する。
【先行技術文献】
【非特許文献】
【０００７】
Niwa, K., Harada, N., Zhang, G., and Kleijn, W. B. Edge-consensus learning: Deep learning on P2P networks with nonhomogeneous data. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 668-678, 2020.
Martens, J. and Grosse, R. Optimizing neural networks with kronecker-factored approximate curvature. In In-ternational conference on machine learning, pp. 2408-2417. PMLR, 2015
【発明の概要】
【発明が解決しようとする課題】
【０００８】
非特許文献１に開示されたECLは一次収束のアルゴリズムである。そのため、合意形成に至り、モデルの学習が完了するまでにノード間の通信回数が大きくなる。またECLでは、１回あたりの通信で、モデルのサイズとおおよそ同等のサイズの情報（具体的には双対変数）をノード間で交換する必要があり、通信量が大きい。分散学習における通信コストが計算量や実行時間の大半を占めており、分散学習の高速化のために、この通信コストを下げる必要がある。なお、このような課題はECLに限らずに、他の分散学習においても生じ得る課題である。
【０００９】
本発明は上記の点に鑑みてなされたものであり、分散学習において、高速に合意形成に至ることを可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【００１０】
開示の技術によれば、複数のノードにおけるノード間での情報交換によりモデルの学習を行う分散学習システムにおいて、前記複数のノードの中のあるノードとして使用される情報処理装置であって、
正定値行列を用いて表された定常点条件から演算子分割を適用することにより得られた更新ルールに従って更新された変数を、隣接ノードから受信する受信部と、
前記変数を用いて、前記モデルのモデルパラメータを更新する更新部と
を備える情報処理装置が提供される。
【発明の効果】
（【００１１】以降は省略されています）

関連特許