特許ウォッチ

公開番号2025138146
公報種別公開特許公報(A)
公開日2025-09-25
出願番号2024037052
出願日2024-03-11
発明の名称画像分類装置、画像分類方法、および画像分類プログラム
出願人株式会社JVCケンウッド
代理人個人
主分類G06N 20/00 20190101AFI20250917BHJP(計算;計数)
要約【課題】少数画像での追加学習に対して追加クラスの画像の汎化性能と分類精度を向上することができる画像分類技術を提供する。
【解決手段】文章特徴量出力部30は、画像ラベル情報に言葉を追加した加工文章を入力し文章特徴量を出力する。文章特徴量類似度算出部40は、文章特徴量出力部30が継続学習前に出力した全ての基本クラスと追加クラスの文章特徴量を文章重みベクトルとし、前記基本クラスの文章重みベクトルと、追加クラスの文章重みベクトルとを保持し、文章特徴量を入力とし、文章類似度を算出する。画像特徴量類似度算出部20は、文章特徴量出力部30が継続学習前に出力した全ての追加クラスの文章特徴量を追加クラスの画像重みベクトルとし、基本クラスの学習で更新済みの基本クラスの画像重みベクトルと、追加クラスの画像重みベクトルとを保持し、画像特徴量を入力とし、画像類似度を算出する。
【選択図】図21
特許請求の範囲【請求項１】
継続学習を行う画像分類装置であって、
複数ラベルを持つ画像を入力とし、画像ラベル情報を取得する画像情報取得部と、
前記画像ラベル情報を入力とし、前記画像ラベル情報に言葉を追加して加工文章を生成する文章加工部と、
前記加工文章を入力とし、文章特徴量を出力する文章特徴量出力部と、
前記文章特徴量出力部が継続学習前に出力した全ての基本クラスと追加クラスの文章特徴量を文章重みベクトルとし、前記基本クラスの文章重みベクトルと、前記追加クラスの文章重みベクトルとを保持し、前記文章特徴量を入力とし、文章類似度を算出する文章特徴量類似度算出部と、
前記画像を入力とし、画像特徴量を出力する画像特徴量出力部と、
前記文章特徴量出力部が継続学習前に出力した全ての追加クラスの文章特徴量を追加クラスの画像重みベクトルとし、基本クラスの学習で更新済みの基本クラスの画像重みベクトルと、前記追加クラスの画像重みベクトルとを保持し、前記画像特徴量を入力とし、画像類似度を算出する画像特徴量類似度算出部と、
前記文章類似度と前記画像類似度とを入力として損失計算を行い、前記画像特徴量類似度算出部の前記基本クラスの画像重みベクトルと前記追加クラスの画像重みベクトルとを更新する学習部とを備えることを特徴とする画像分類装置。
続きを表示（約 1,700 文字）【請求項２】
前記画像を入力とし、前記画像を加工して加工画像を出力し、さらに前記画像に対してどのような加工をしたかを示す画像加工情報を出力する画像加工部をさらに備え、
前記画像特徴量出力部は、前記加工画像を入力とし、画像特徴量を出力し、
前記文章加工部は、前記画像ラベル情報と前記画像加工情報とを入力とし、前記画像ラベル情報に、前記画像加工情報に関する言葉を追加した加工文章を生成することを特徴とする請求項１に記載の画像分類装置。
【請求項３】
前記画像を入力とし、前記画像のクラスとは無関係である前記画像に含まれる物体に対して不明瞭化する加工をして非対象物不明瞭化画像を生成し、さらに前記画像に対してどのような前記不明瞭化する加工をしたかを示す不明瞭化情報を生成する画像加工部をさらに備え、
前記画像特徴量出力部は、前記非対象物不明瞭化画像を入力とし、画像特徴量を出力し、
前記文章加工部は、前記画像ラベル情報と前記不明瞭化情報とを入力とし、前記画像ラベル情報に、前記不明瞭化情報に関する言葉を追加した加工文章を生成することを特徴とする請求項１に記載の画像分類装置。
【請求項４】
継続学習を行う画像分類方法であって、
複数ラベルを持つ画像を入力とし、画像ラベル情報を取得する画像情報取得ステップと、
前記画像ラベル情報を入力とし、前記画像ラベル情報に言葉を追加して加工文章を生成する文章加工ステップと、
前記加工文章を入力とし、文章特徴量を出力する文章特徴量出力ステップと、
前記文章特徴量出力ステップが継続学習前に出力した全ての基本クラスと追加クラスの文章特徴量を文章重みベクトルとし、前記基本クラスの文章重みベクトルと、前記追加クラスの文章重みベクトルとを保持し、前記文章特徴量を入力とし、文章類似度を算出する文章特徴量類似度算出ステップと、
前記画像を入力とし、画像特徴量を出力する画像特徴量出力ステップと、
前記文章特徴量出力ステップが継続学習前に出力した全ての追加クラスの文章特徴量を追加クラスの画像重みベクトルとし、基本クラスの学習で更新済みの基本クラスの画像重みベクトルと、前記追加クラスの画像重みベクトルとを保持し、前記画像特徴量を入力とし、画像類似度を算出する画像特徴量類似度算出ステップと、
前記文章類似度と前記画像類似度とを入力として損失計算を行い、前記基本クラスの画像重みベクトルと前記追加クラスの画像重みベクトルとを更新する学習ステップとを備えることを特徴とする画像分類方法。
【請求項５】
継続学習を行う画像分類プログラムであって、
複数ラベルを持つ画像を入力とし、画像ラベル情報を取得する画像情報取得ステップと、
前記画像ラベル情報を入力とし、前記画像ラベル情報に言葉を追加して加工文章を生成する文章加工ステップと、
前記加工文章を入力とし、文章特徴量を出力する文章特徴量出力ステップと、
前記文章特徴量出力ステップが継続学習前に出力した全ての基本クラスと追加クラスの文章特徴量を文章重みベクトルとし、前記基本クラスの文章重みベクトルと、前記追加クラスの文章重みベクトルとを保持し、前記文章特徴量を入力とし、文章類似度を算出する文章特徴量類似度算出ステップと、
前記画像を入力とし、画像特徴量を出力する画像特徴量出力ステップと、
前記文章特徴量出力ステップが継続学習前に出力した全ての追加クラスの文章特徴量を追加クラスの画像重みベクトルとし、基本クラスの学習で更新済みの基本クラスの画像重みベクトルと、前記追加クラスの画像重みベクトルとを保持し、前記画像特徴量を入力とし、画像類似度を算出する画像特徴量類似度算出ステップと、
前記文章類似度と前記画像類似度とを入力として損失計算を行い、前記基本クラスの画像重みベクトルと前記追加クラスの画像重みベクトルとを更新する学習ステップとをコンピュータに実行させることを特徴とする画像分類プログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、画像分類技術に関する。
続きを表示（約 1,600 文字）【背景技術】
【０００２】
人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク（Convolutional Neural Network(CNN)）等を用いたディープニューラルネットワーク（Deep Neural Network(DNN)）の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してＤＮＮのパラメータの再学習が必要となる。ＤＮＮでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにＤＮＮでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう破滅的忘却(catastrophic forgetting)が避けられない。
【０００３】
破滅的忘却を回避する手法として、継続学習（incremental learningまたはcontinual learning）が提案されている。継続学習とは、新しいタスクや新しいデータが発生した時に、最初からモデルを学習するのではなく、現在の学習済みのモデルを改善して学習する学習方法である。
【０００４】
また、人間は少数画像から新しい知識を学習することができる。一方、畳み込みニューラルネットワーク等を用いた深層学習を利用した人工知能は学習に使用するビッグデータ（大量の画像）に依存している。深層学習を利用した人工知能を少数画像で学習すると、局所性能は良いが汎化性能に劣る過剰適合に陥ることが知られている。
【０００５】
過剰適合を回避する手法として、少数ショット学習（few shot learning）が提案されている。少数ショット学習とは、基本タスクでビッグデータを利用して基本知識を学び、基本知識を利用して新規タスクの少数画像から新規知識を学習する学習方法である。
【０００６】
継続学習と少数ショット学習の両方の課題を解決する手法として少数ショットクラス追加学習（few shot class incremental learning）があり、平均化した特徴ベクトルを重みベクトルとして利用する技術がある（特許文献１）。
【０００７】
また、文章の特徴ベクトルと画像の特徴ベクトルをマッチングさせる技術がある（非特許文献１）。さらに、画像に関するキャプションを生成する技術がある（非特許文献２）。
【先行技術文献】
【非特許文献】
【０００８】
特願２０２３－０３９３５１号
Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.
Mokady, Ron, Amir Hertz, and Amit H. Bermano. "Clipcap: Clip prefix for image captioning." arXiv preprint arXiv:2111.09734 (2021).
【発明の概要】
【発明が解決しようとする課題】
【０００９】
先行技術では、少数画像での追加学習に対して追加クラスの画像の分類精度が十分に高くならない課題があった。
【００１０】
本発明はこうした状況に鑑みてなされたものであり、その目的は、文章の特徴ベクトルを利用することで、少数画像での追加学習に対して追加クラスの画像の汎化性能と分類精度を向上することができる画像分類技術を提供することにある。
【課題を解決するための手段】
（【００１１】以降は省略されています）

関連特許