TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024086407
公報種別公開特許公報(A)
公開日2024-06-27
出願番号2022201517
出願日2022-12-16
発明の名称学習装置および学習方法
出願人キヤノン株式会社
代理人弁理士法人大塚国際特許事務所
主分類G06N 3/045 20230101AFI20240620BHJP(計算;計数)
要約【課題】複数の認識タスクのニューラルネットワーク(NN)を並行して学習させる場合の適切な学習パラメータを設定する。
【解決手段】複数のNNを並行して学習する学習装置は、複数のNNに対して複数の認識タスクを設定するタスク設定手段と、複数のNNの各々に対して、設定された認識タスクに対応し識別モデル間で共通の処理層を有する識別モデルを設定するモデル設定手段と、複数のNNの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、複数のNNの各々において、設定された認識タスクの学習データ及び正解データに基づいて識別モデルの学習パラメータを学習させる学習手段と、複数のNNの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、複数のNNに対して算出された複数のモデル誤差に基づいて共通の処理層の学習パラメータを統合し学習手段において学習させる対象の学習パラメータに設定する設定手段と、を有する。
【選択図】図14
特許請求の範囲【請求項1】
複数のニューラルネットワーク(NN)を並行して学習する学習装置であって、
前記複数のNNに対して複数の認識タスクを設定するタスク設定手段と、
前記複数のNNの各々に対して、設定された認識タスクに対応した識別モデルであって、各々の識別モデルに含まれる処理層の一部が識別モデル間で共通の処理層である識別モデルを設定するモデル設定手段と、
前記複数のNNの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、
前記複数のNNの各々において、設定された認識タスクの学習データ及び正解データに基づいて該識別モデルの学習パラメータを学習させる学習手段と、
前記複数のNNの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、
前記複数のNNに対して算出された複数のモデル誤差に基づいて該モデル誤差が小さい識別モデルの重みを大きくして、前記各々の識別モデルに含まれる前記共通の処理層の学習パラメータを統合し前記学習手段において学習させる対象の学習パラメータに設定する設定手段と、
を有することを特徴とする学習装置。
続きを表示(約 1,100 文字)【請求項2】
前記複数の認識タスクは第1の認識タスクと該第1の認識タスクとは異なる第2の認識タスクとを含み、
前記第1の認識タスクに対応する第1の識別モデルおよび前記第2の認識タスクに対応する第2の識別モデルは、それぞれの前段部分に前記共通の処理層を含む
ことを特徴とする請求項1に記載の学習装置。
【請求項3】
前記複数の認識タスクは、画像内に被写体が存在するか否かを識別する画像分類タスク、画像内における被写体の位置を検出する物体検出タスク、画像内の被写体領域を抽出する領域分割タスクのうちの少なくとも1つのタスクを含む
ことを特徴とする請求項1または2に記載の学習装置。
【請求項4】
前記モデル誤差は、前記教師モデルの出力と前記識別モデルの出力との差分である、または、前記教師モデルのモデルパラメータと前記識別モデルのモデルパラメータとの差分である
ことを特徴とする請求項1に記載の学習装置。
【請求項5】
前記第1の識別モデルと前記第2の識別モデルとで前記共通の処理層のモデルパラメータを所定の頻度で同期する同期手段をさらに有し、
前記設定手段は、前記同期手段で使用する同期パラメータをさらに決定し前記同期手段に設定する
ことを特徴とする請求項2に記載の学習装置。
【請求項6】
前記同期パラメータは、前記複数の認識タスクに対する識別モデルごとの同期重みを含む
ことを特徴とする請求項5に記載の学習装置。
【請求項7】
前記同期手段は、前記同期重みに基づいた前記複数の認識タスクに対応する複数のモデルパラメータの加重平均で該複数のモデルパラメータを更新する
ことを特徴とする請求項6に記載の学習装置。
【請求項8】
前記同期パラメータは、前記同期手段が同期を実行する同期頻度を含む
ことを特徴とする請求項5に記載の学習装置。
【請求項9】
前記学習パラメータは、前記学習手段における学習率、前記学習手段における目的関数のパラメータ、前記学習手段における各認識タスクの学習頻度、の少なくとも1つを含む
ことを特徴とする請求項1に記載の学習装置。
【請求項10】
前記学習装置は、前記学習手段による識別モデルの学習と、前記誤差算出手段によるモデル誤差の算出と、前記設定手段による学習パラメータの設定と、を含む学習処理を繰り返し実行し、前記誤差算出手段により算出された前記複数の認識タスクのモデル誤差が全て所定値を下回った場合に前記学習処理を終了する
ことを特徴とする請求項1に記載の学習装置。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、ニューラルネットワークの学習に関するものである。
続きを表示(約 2,500 文字)【背景技術】
【0002】
画像、音声などのデータの内容を学習し認識を行う技術が研究されてきている。ある対象を認識する処理を、ここでは認識タスクと呼ぶ。認識タスクには、例えば、画像中にある物体(被写体)のカテゴリ(猫、車、建物など)を判別する物体カテゴリ認識タスクがある。その他にも、画像中から人間の顔の領域を検出する顔検出タスクや、シーンのカテゴリ(都市、山間、海岸など)を判別するシーン種別認識タスク等の多様な認識タスクがある。このような認識タスクを学習・実行する技術として、ニューラルネットワーク(NN)の技術が知られている。深い(層の数が多い)多層NNは、深層NN(DNN)と呼ばれる。特に、非特許文献1に開示されているように深い畳み込みNNはDCNNと呼ばれる。DCNNは、性能が高いことで近年注目されている。
【0003】
DCNNでは、各層には畳み込み演算用のフィルタ(カーネル)が複数用意され、各層において、前の層からの出力結果に対して畳み込み処理を行い次の層に出力する。最終層は認識結果を出力する出力層となる。DCNNにおいて、出力層に近い層は、畳み込みによる結合ではなく通常のNNのような全結合層(fullconnect)の構造とするのが一般的である。
【0004】
NNの学習フェーズでは、畳み込みフィルタの値や全結合層の結合重み(両者をあわせてモデルパラメータと呼ぶ)を誤差逆伝搬法(バックプロパゲーション:BP)などの方法を用いて教師付きデータから学習する。また、NNの認識フェーズでは、学習済みのNNにデータを入力し、各層において学習済みのモデルパラメータによってデータを順次処理し、出力層から認識結果を得るか、又は中間層の出力結果を集計して識別器に入力することで認識結果を得る。
【0005】
通常のNNでは、最終層に認識結果を出力する出力層が接続され、そのNNが学習及び認識を実行する認識タスクは1つである。例えば、非特許文献1に開示されているNNは、1000クラスの画像分類タスクを学習して、認識時には識別対象画像に対して各クラスの尤度を出力する。一方、NNに対して2つ以上の認識結果を出力させるように出力層を複数接続することもできる。例えば、非特許文献2には、髪領域、目領域、鼻領域、口領域、及び顎領域をそれぞれ出力する出力層を接続して、それらの結果を統合して顔領域を検出する技術が開示されている。
【先行技術文献】
【非特許文献】
【0006】
Krizhevsky, A., Sutskever, I., Hinton, G.E., "Imagenet classification with deep convolutional neural networks", In Advances in neural information processing systems (pp.1097-1105), 2012
Shuo Yang, Ping Luo, Chen Change Loy, Xiaoou Tang, "From Facial Parts Responses To Face Detection:A Deep Learning Approach", International Conference on Computer Vision 2015, 2015
【発明の概要】
【発明が解決しようとする課題】
【0007】
NNを用いて2つ以上の認識タスクを並行して学習(マルチタスク学習)する場合において、効率よくパラメータを学習することが必要になる。つまり、学習パラメータ(NNの学習における学習率の大きさや、複数のタスク間の学習率の比率)を学習精度が向上するように調整を行う必要がある。学習精度を向上させるためには、それぞれの認識タスクを単独で学習させた場合のモデルパラメータと類似した特徴抽出ができるパラメータを学習する必要がある。
【0008】
本発明は、このような問題に鑑みてなされたものであり、複数の認識タスクのNNを並行して学習させる場合の適切な学習パラメータを設定する技術を提供することを目的としている。
【課題を解決するための手段】
【0009】
上述の問題点を解決するため、本発明に係る学習装置は以下の構成を備える。すなわち、複数のニューラルネットワーク(NN)を並行して学習する学習装置は、
前記複数のNNに対して複数の認識タスクを設定するタスク設定手段と、
前記複数のNNの各々に対して、設定された認識タスクに対応した識別モデルであって、各々の識別モデルに含まれる処理層の一部が識別モデル間で共通の処理層である識別モデルを設定するモデル設定手段と、
前記複数のNNの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、
前記複数のNNの各々において、設定された認識タスクの学習データ及び正解データに基づいて該識別モデルの学習パラメータを学習させる学習手段と、
前記複数のNNの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、
前記複数のNNに対して算出された複数のモデル誤差に基づいて該モデル誤差が小さい識別モデルの重みを大きくして、前記各々の識別モデルに含まれる前記共通の処理層の学習パラメータを統合し前記学習手段において学習させる対象の学習パラメータに設定する設定手段と、
を有する。
【発明の効果】
【0010】
本発明によれば、複数の認識タスクのNNを並行して学習させる場合の適切な学習パラメータを設定する技術を提供することができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

キヤノン株式会社
トナー
5日前
キヤノン株式会社
電子機器
17日前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
定着装置
16日前
キヤノン株式会社
通信装置
1か月前
キヤノン株式会社
検査装置
9日前
キヤノン株式会社
現像装置
23日前
キヤノン株式会社
撮像装置
23日前
キヤノン株式会社
撮像装置
9日前
キヤノン株式会社
記録装置
24日前
キヤノン株式会社
電子機器
20日前
キヤノン株式会社
制御装置
9日前
キヤノン株式会社
現像装置
1か月前
キヤノン株式会社
撮像装置
1か月前
キヤノン株式会社
記録装置
1か月前
キヤノン株式会社
撮像装置
16日前
キヤノン株式会社
現像装置
1か月前
キヤノン株式会社
表示装置
17日前
キヤノン株式会社
搬送装置
20日前
キヤノン株式会社
撮像装置
17日前
キヤノン株式会社
撮像装置
17日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
24日前
キヤノン株式会社
画像形成装置
24日前
キヤノン株式会社
有機発光素子
24日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
画像形成装置
23日前
キヤノン株式会社
光電変換装置
23日前
キヤノン株式会社
画像形成装置
16日前
キヤノン株式会社
画像形成装置
9日前
キヤノン株式会社
画像形成装置
20日前
キヤノン株式会社
画像形成装置
24日前
キヤノン株式会社
画像形成装置
9日前
続きを見る