TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025001280
公報種別公開特許公報(A)
公開日2025-01-08
出願番号2023100781
出願日2023-06-20
発明の名称情報処理装置、情報処理方法およびプログラム
出願人株式会社東芝
代理人弁理士法人酒井国際特許事務所
主分類G06N 3/096 20230101AFI20241225BHJP(計算;計数)
要約【課題】サイズを小さくしたモデルの蒸留による学習をより高精度に実行する。
【解決手段】情報処理装置は、対象モデル学習部、変更部、選択部および生徒モデル学習部を備える。対象モデル学習部は、サイズの削減の対象となる対象モデルを学習する。変更部は、対象モデルを、対象モデルよりサイズが小さい生徒モデルに変更する。選択部は、対象モデルのサイズと生徒モデルのサイズとの比較結果に応じて、対象モデルと、対象モデルよりサイズが小さい1つ以上の中間モデルと、を含む複数のモデルのうちいずれか1つを、教師モデルとして選択する。生徒モデル学習部は、選択された教師モデルを用いた蒸留により生徒モデルを学習する。
【選択図】図1
特許請求の範囲【請求項1】
サイズの削減の対象となる対象モデルを学習する対象モデル学習部と、
前記対象モデルを、前記対象モデルよりサイズが小さい生徒モデルに変更する変更部と、
前記対象モデルのサイズと前記生徒モデルのサイズとの比較結果に応じて、前記対象モデルと、前記対象モデルよりサイズが小さい1つ以上の中間モデルと、を含む複数のモデルのうちいずれか1つを、教師モデルとして選択する選択部と、
選択された前記教師モデルを用いた蒸留により前記生徒モデルを学習する生徒モデル学習部と、
を備える情報処理装置。
続きを表示(約 1,800 文字)【請求項2】
前記選択部は、さらに、前記生徒モデルのパラメータの初期値を、前記対象モデルのパラメータから選択し、
前記生徒モデル学習部は、選択された前記初期値を用いて前記生徒モデルを学習する、
請求項1に記載の情報処理装置。
【請求項3】
前記対象モデルは、複数の要素をそれぞれ含む複数のレイヤを含むニューラルネットワークモデルであり、
前記生徒モデルは、複数の要素をそれぞれ含む複数のレイヤを含むニューラルネットワークモデルであり、
前記変更部は、前記対象モデルに含まれる要素の一部を削除することにより、前記対象モデルを前記生徒モデルに変更し、
前記選択部は、前記生徒モデルに含まれる要素のパラメータの前記初期値を、前記生徒モデルに含まれる要素に対応する、前記対象モデルまたは前記中間モデルに含まれる要素のパラメータから選択する、
請求項2に記載の情報処理装置。
【請求項4】
前記中間モデルは、複数の要素をそれぞれ含む複数のレイヤを含むニューラルネットワークモデルであり、
前記選択部は、前記中間モデルに含まれる複数の前記レイヤを表す第1レイヤそれぞれについて、前記第1レイヤに含まれる1つ以上の要素をそれぞれ含む複数の要素群を選択し、複数の要素群のうち評価値が他の前記要素群より大きい前記要素群に含まれる要素に対応する、前記対象モデルまたは前記中間モデルに含まれる要素のパラメータを前記初期値として選択する、
請求項3に記載の情報処理装置。
【請求項5】
前記評価値は、
前記要素群に含まれる要素に対応する、前記対象モデルまたは前記中間モデルに含まれる要素のパラメータを前記初期値として設定した前記生徒モデルを用いた推論の精度を表す値である、
請求項4に記載の情報処理装置。
【請求項6】
前記評価値は、
複数の前記第1レイヤそれぞれについて、前記要素群に含まれる要素に対応する、前記対象モデルまたは前記中間モデルに含まれる要素のパラメータを前記初期値として設定した前記生徒モデルを用いた推論を複数のデータに対して実行したときの、前記生徒モデルに含まれる対応するレイヤの出力の統計量と、前記第1レイヤの出力の統計量との差分が小さいほど大きくなる値である、
請求項4に記載の情報処理装置。
【請求項7】
前記評価値は、
複数の前記第1レイヤそれぞれについて、前記要素群に含まれる要素に対応する、前記対象モデルまたは前記中間モデルに含まれる要素のパラメータを前記初期値として設定した前記生徒モデルを用いたバックワード処理を複数のデータに対して実行したときの、前記生徒モデルに含まれる対応するレイヤに対して算出される勾配の統計量と、前記第1レイヤに対して算出される勾配の統計量との差分が小さいほど大きくなる値である、
請求項4に記載の情報処理装置。
【請求項8】
前記対象モデル、前記中間モデルおよび前記生徒モデルは、複数のレイヤを含むニューラルネットワークモデルであり、
前記変更部は、
前記対象モデルに対するプルーニングによって前記中間モデルを生成するプルーニング部と、
前記中間モデルに含まれる複数の前記レイヤそれぞれのサイズを、指定された比率で増減することにより前記生徒モデルを生成する生成部と、を備える、
請求項1に記載の情報処理装置。
【請求項9】
前記対象モデル学習部は、事前学習用の第1データセットを用いて前記対象モデルを事前学習し、事前学習した前記対象モデルを、前記第1データセットとは異なる第2データセットを用いて学習する、
請求項1に記載の情報処理装置。
【請求項10】
サイズの削減の対象となる対象モデルを学習する対象モデル学習部と、
前記対象モデルを、前記対象モデルよりサイズが小さい生徒モデルに変更する変更部と、
前記生徒モデルのパラメータの初期値を、前記対象モデルのパラメータから選択する選択部と、
選択された前記初期値を用いて前記生徒モデルを学習する生徒モデル学習部と、
を備える情報処理装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
続きを表示(約 2,000 文字)【背景技術】
【0002】
ディープニューラルネットワーク(DNN:Deep Neural Network)などのニューラルネットワークでは、エッジ端末などの演算リソースが限られた環境でモデルを高速に学習させることを考慮し、モデルの演算量および記憶容量の削減などのために、モデルのサイズを削減する処理が行われる場合がある。また、サイズ削減後のモデルの精度向上のため、サイズ削減前のモデルを教師モデルとする蒸留(知識蒸留ともいう)により、サイズ削減後のモデルである生徒モデルを学習する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
特表2022-509892号公報
特開2022-056412号公報
特表2022-549806号公報
【非特許文献】
【0004】
Hao Li, et al., “PRUNING FILTERS FOR EFFICIENT CONVNETS”, arXiv:1608.08710v3 10 Mar 2017
A. Yaguchi, et al., “Adam Induces Implicit Weight Sparsity in Rectifier Neural Networks”, Proc. of 17th IEEE International Conference on Machine Learning and Applications (ICMLA) 2018.
Tao Huang, et al., “Knowledge Distillation from A Stronger Teacher”, arXiv:2205.10536v3 28 Dec 2022
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、サイズを小さくしたモデルの蒸留による学習をより高精度に実行することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の情報処理装置は、対象モデル学習部、変更部、選択部および生徒モデル学習部を備える。対象モデル学習部は、サイズの削減の対象となる対象モデルを学習する。変更部は、対象モデルを、対象モデルよりサイズが小さい生徒モデルに変更する。選択部は、対象モデルのサイズと生徒モデルのサイズとの比較結果に応じて、対象モデルと、対象モデルよりサイズが小さい1つ以上の中間モデルと、を含む複数のモデルのうちいずれか1つを、教師モデルとして選択する。生徒モデル学習部は、選択された教師モデルを用いた蒸留により生徒モデルを学習する。
【図面の簡単な説明】
【0007】
実施形態の情報処理装置のブロック図。
対象モデルを生徒モデルに変更する例を示す図。
対象モデルから中間モデルおよび生徒モデルを生成する例を示す図。
変更部のブロック図。
生徒モデルの例を示す図。
選択部のブロック図。
初期パラメータの選択処理の概要を説明するための図。
組み合わせを求める処理の例を示す図。
評価値を用いた組み合わせの選択を模式的に示す図。
評価値を用いた組み合わせの選択を模式的に示す図。
評価値を用いた組み合わせの選択を模式的に示す図。
実施形態における学習処理のフローチャート。
変形例の情報処理装置のブロック図。
実施形態の情報処理装置のハードウェア構成図。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
【0009】
モデルのサイズを削減する処理では、生徒モデルのサイズの教師モデルのサイズに対する比率(サイズの削減率)は変動しうる。例えば削減率が大きい場合、生徒モデルと教師モデルとの差異が大きいことに起因して蒸留による学習の精度が低下する可能性がある。
【0010】
以下の実施形態は、蒸留により学習する生徒モデル(サイズ削減後のモデル)のサイズに応じて教師モデルを選択する。また、生徒モデルの学習時のパラメータの初期値(初期パラメータ)を、サイズの削減の対象となるモデル(以下、対象モデル)のパラメータから選択する。これにより、サイズを小さくしたモデルの蒸留による学習をより高精度に実行することが可能となる。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

株式会社東芝
8日前
株式会社東芝
台車
1か月前
株式会社東芝
センサ
1か月前
株式会社東芝
固定子
1か月前
株式会社東芝
センサ
27日前
株式会社東芝
計画装置
2か月前
株式会社東芝
回転電機
1か月前
株式会社東芝
開閉装置
1か月前
株式会社東芝
除去装置
2か月前
株式会社東芝
搬送装置
1か月前
株式会社東芝
真空バルブ
2か月前
株式会社東芝
光スイッチ
27日前
株式会社東芝
遠心送風機
22日前
株式会社東芝
光デバイス
1か月前
株式会社東芝
直流遮断器
1か月前
株式会社東芝
合成ユニット
3か月前
株式会社東芝
電力変換装置
7日前
株式会社東芝
対策提示装置
20日前
株式会社東芝
駆動システム
1か月前
株式会社東芝
駅務システム
2か月前
株式会社東芝
蓋の開閉装置
29日前
株式会社東芝
電力変換装置
2か月前
株式会社東芝
電力変換装置
1か月前
株式会社東芝
紙葉類処理装置
21日前
株式会社東芝
電動機制御装置
1か月前
株式会社東芝
電子計算機装置
20日前
株式会社東芝
開閉器駆動装置
2か月前
株式会社東芝
オゾン発生装置
2か月前
株式会社東芝
有価物回収方法
1か月前
株式会社東芝
電気車制御装置
1か月前
株式会社東芝
靴用絶縁カバー
3か月前
株式会社東芝
潤滑油供給装置
1か月前
株式会社東芝
ガス絶縁開閉装置
2か月前
株式会社東芝
投込式水位伝送器
8日前
株式会社東芝
地中箱用アダプタ
1か月前
株式会社東芝
磁気ディスク装置
27日前
続きを見る