特許ウォッチ

公開番号2024086407
公報種別公開特許公報(A)
公開日2024-06-27
出願番号2022201517
出願日2022-12-16
発明の名称学習装置および学習方法
出願人キヤノン株式会社
代理人弁理士法人大塚国際特許事務所
主分類G06N 3/045 20230101AFI20240620BHJP(計算;計数)
要約【課題】複数の認識タスクのニューラルネットワーク(NN)を並行して学習させる場合の適切な学習パラメータを設定する。
【解決手段】複数のNNを並行して学習する学習装置は、複数のNNに対して複数の認識タスクを設定するタスク設定手段と、複数のNNの各々に対して、設定された認識タスクに対応し識別モデル間で共通の処理層を有する識別モデルを設定するモデル設定手段と、複数のNNの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、複数のNNの各々において、設定された認識タスクの学習データ及び正解データに基づいて識別モデルの学習パラメータを学習させる学習手段と、複数のNNの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、複数のNNに対して算出された複数のモデル誤差に基づいて共通の処理層の学習パラメータを統合し学習手段において学習させる対象の学習パラメータに設定する設定手段と、を有する。
【選択図】図14
特許請求の範囲【請求項１】
複数のニューラルネットワーク（ＮＮ）を並行して学習する学習装置であって、
前記複数のＮＮに対して複数の認識タスクを設定するタスク設定手段と、
前記複数のＮＮの各々に対して、設定された認識タスクに対応した識別モデルであって、各々の識別モデルに含まれる処理層の一部が識別モデル間で共通の処理層である識別モデルを設定するモデル設定手段と、
前記複数のＮＮの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、
前記複数のＮＮの各々において、設定された認識タスクの学習データ及び正解データに基づいて該識別モデルの学習パラメータを学習させる学習手段と、
前記複数のＮＮの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、
前記複数のＮＮに対して算出された複数のモデル誤差に基づいて該モデル誤差が小さい識別モデルの重みを大きくして、前記各々の識別モデルに含まれる前記共通の処理層の学習パラメータを統合し前記学習手段において学習させる対象の学習パラメータに設定する設定手段と、
を有することを特徴とする学習装置。
続きを表示（約 1,100 文字）【請求項２】
前記複数の認識タスクは第１の認識タスクと該第１の認識タスクとは異なる第２の認識タスクとを含み、
前記第１の認識タスクに対応する第１の識別モデルおよび前記第２の認識タスクに対応する第２の識別モデルは、それぞれの前段部分に前記共通の処理層を含む
ことを特徴とする請求項１に記載の学習装置。
【請求項３】
前記複数の認識タスクは、画像内に被写体が存在するか否かを識別する画像分類タスク、画像内における被写体の位置を検出する物体検出タスク、画像内の被写体領域を抽出する領域分割タスクのうちの少なくとも１つのタスクを含む
ことを特徴とする請求項１または２に記載の学習装置。
【請求項４】
前記モデル誤差は、前記教師モデルの出力と前記識別モデルの出力との差分である、または、前記教師モデルのモデルパラメータと前記識別モデルのモデルパラメータとの差分である
ことを特徴とする請求項１に記載の学習装置。
【請求項５】
前記第１の識別モデルと前記第２の識別モデルとで前記共通の処理層のモデルパラメータを所定の頻度で同期する同期手段をさらに有し、
前記設定手段は、前記同期手段で使用する同期パラメータをさらに決定し前記同期手段に設定する
ことを特徴とする請求項２に記載の学習装置。
【請求項６】
前記同期パラメータは、前記複数の認識タスクに対する識別モデルごとの同期重みを含む
ことを特徴とする請求項５に記載の学習装置。
【請求項７】
前記同期手段は、前記同期重みに基づいた前記複数の認識タスクに対応する複数のモデルパラメータの加重平均で該複数のモデルパラメータを更新する
ことを特徴とする請求項６に記載の学習装置。
【請求項８】
前記同期パラメータは、前記同期手段が同期を実行する同期頻度を含む
ことを特徴とする請求項５に記載の学習装置。
【請求項９】
前記学習パラメータは、前記学習手段における学習率、前記学習手段における目的関数のパラメータ、前記学習手段における各認識タスクの学習頻度、の少なくとも１つを含む
ことを特徴とする請求項１に記載の学習装置。
【請求項１０】
前記学習装置は、前記学習手段による識別モデルの学習と、前記誤差算出手段によるモデル誤差の算出と、前記設定手段による学習パラメータの設定と、を含む学習処理を繰り返し実行し、前記誤差算出手段により算出された前記複数の認識タスクのモデル誤差が全て所定値を下回った場合に前記学習処理を終了する
ことを特徴とする請求項１に記載の学習装置。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、ニューラルネットワークの学習に関するものである。
続きを表示（約 2,500 文字）【背景技術】
【０００２】
画像、音声などのデータの内容を学習し認識を行う技術が研究されてきている。ある対象を認識する処理を、ここでは認識タスクと呼ぶ。認識タスクには、例えば、画像中にある物体（被写体）のカテゴリ（猫、車、建物など）を判別する物体カテゴリ認識タスクがある。その他にも、画像中から人間の顔の領域を検出する顔検出タスクや、シーンのカテゴリ（都市、山間、海岸など）を判別するシーン種別認識タスク等の多様な認識タスクがある。このような認識タスクを学習・実行する技術として、ニューラルネットワーク（ＮＮ）の技術が知られている。深い（層の数が多い）多層ＮＮは、深層ＮＮ（ＤＮＮ）と呼ばれる。特に、非特許文献１に開示されているように深い畳み込みＮＮはＤＣＮＮと呼ばれる。ＤＣＮＮは、性能が高いことで近年注目されている。
【０００３】
ＤＣＮＮでは、各層には畳み込み演算用のフィルタ（カーネル）が複数用意され、各層において、前の層からの出力結果に対して畳み込み処理を行い次の層に出力する。最終層は認識結果を出力する出力層となる。ＤＣＮＮにおいて、出力層に近い層は、畳み込みによる結合ではなく通常のＮＮのような全結合層（ｆｕｌｌｃｏｎｎｅｃｔ）の構造とするのが一般的である。
【０００４】
ＮＮの学習フェーズでは、畳み込みフィルタの値や全結合層の結合重み（両者をあわせてモデルパラメータと呼ぶ）を誤差逆伝搬法（バックプロパゲーション：ＢＰ）などの方法を用いて教師付きデータから学習する。また、ＮＮの認識フェーズでは、学習済みのＮＮにデータを入力し、各層において学習済みのモデルパラメータによってデータを順次処理し、出力層から認識結果を得るか、又は中間層の出力結果を集計して識別器に入力することで認識結果を得る。
【０００５】
通常のＮＮでは、最終層に認識結果を出力する出力層が接続され、そのＮＮが学習及び認識を実行する認識タスクは１つである。例えば、非特許文献１に開示されているＮＮは、１０００クラスの画像分類タスクを学習して、認識時には識別対象画像に対して各クラスの尤度を出力する。一方、ＮＮに対して２つ以上の認識結果を出力させるように出力層を複数接続することもできる。例えば、非特許文献２には、髪領域、目領域、鼻領域、口領域、及び顎領域をそれぞれ出力する出力層を接続して、それらの結果を統合して顔領域を検出する技術が開示されている。
【先行技術文献】
【非特許文献】
【０００６】
Krizhevsky, A., Sutskever, I., Hinton, G.E., "Imagenet classification with deep convolutional neural networks", In Advances in neural information processing systems (pp.1097-1105), 2012
Shuo Yang, Ping Luo, Chen Change Loy, Xiaoou Tang, "From Facial Parts Responses To Face Detection:A Deep Learning Approach", International Conference on Computer Vision 2015, 2015
【発明の概要】
【発明が解決しようとする課題】
【０００７】
ＮＮを用いて２つ以上の認識タスクを並行して学習（マルチタスク学習）する場合において、効率よくパラメータを学習することが必要になる。つまり、学習パラメータ（ＮＮの学習における学習率の大きさや、複数のタスク間の学習率の比率）を学習精度が向上するように調整を行う必要がある。学習精度を向上させるためには、それぞれの認識タスクを単独で学習させた場合のモデルパラメータと類似した特徴抽出ができるパラメータを学習する必要がある。
【０００８】
本発明は、このような問題に鑑みてなされたものであり、複数の認識タスクのＮＮを並行して学習させる場合の適切な学習パラメータを設定する技術を提供することを目的としている。
【課題を解決するための手段】
【０００９】
上述の問題点を解決するため、本発明に係る学習装置は以下の構成を備える。すなわち、複数のニューラルネットワーク（ＮＮ）を並行して学習する学習装置は、
前記複数のＮＮに対して複数の認識タスクを設定するタスク設定手段と、
前記複数のＮＮの各々に対して、設定された認識タスクに対応した識別モデルであって、各々の識別モデルに含まれる処理層の一部が識別モデル間で共通の処理層である識別モデルを設定するモデル設定手段と、
前記複数のＮＮの各々に対して、設定された識別モデルの教師となる教師モデルを設定する教師設定手段と、
前記複数のＮＮの各々において、設定された認識タスクの学習データ及び正解データに基づいて該識別モデルの学習パラメータを学習させる学習手段と、
前記複数のＮＮの各々において、学習された識別モデルと対応する教師モデルとの間のモデル誤差を算出する誤差算出手段と、
前記複数のＮＮに対して算出された複数のモデル誤差に基づいて該モデル誤差が小さい識別モデルの重みを大きくして、前記各々の識別モデルに含まれる前記共通の処理層の学習パラメータを統合し前記学習手段において学習させる対象の学習パラメータに設定する設定手段と、
を有する。
【発明の効果】
【００１０】
本発明によれば、複数の認識タスクのＮＮを並行して学習させる場合の適切な学習パラメータを設定する技術を提供することができる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許