特許ウォッチ

公開番号2024162431
公報種別公開特許公報(A)
公開日2024-11-21
出願番号2023077924
出願日2023-05-10
発明の名称学習モデル生成プログラム、情報処理装置及び学習モデル生成方法
出願人国立大学法人東京大学
代理人弁理士法人フィールズ国際特許事務所
主分類G06T 7/00 20170101AFI20241114BHJP(計算;計数)
要約【課題】視線推定に用いる学習モデルの汎化性能を向上させることを可能とする学習モデル生成プログラム、情報処理装置及び学習モデル生成方法を提供する。
【解決手段】第1カメラによって人物の頭部を撮影した第1対象画像データと、第2カメラによって人物の頭部を撮影した第1参照画像データとから、第1カメラについて正規化処理が行われた第1仮想カメラと第2カメラについて正規化処理が行われた第2仮想カメラとの間における相対的な回転角度に対応する第1回転行列を特定し、第1対象画像データと、第1参照画像データと、第1回転行列と、人物の視線方向を示す第1視線情報とを含む教師データを生成し、生成した教師データを学習することによって学習モデルを生成する。
【選択図】図5
特許請求の範囲【請求項１】
第１カメラによって人物の頭部を撮影した第１対象画像データと、第２カメラによって前記頭部を撮影した第１参照画像データとから、前記第１カメラについて正規化処理が行われた第１仮想カメラと前記第２カメラについて正規化処理が行われた第２仮想カメラとの間における相対的な回転角度に対応する第１回転行列を特定し、
前記第１対象画像データと、前記第１参照画像データと、前記第１回転行列と、前記人物の視線方向を示す第１視線情報とを含む教師データを生成し、
生成した前記教師データを学習することによって学習モデルを生成する、
処理をコンピュータに実行させることを特徴とする学習モデル生成プログラム。
続きを表示（約 2,300 文字）【請求項２】
請求項１において、
第３カメラによって前記頭部を撮影した第２対象画像データと、第４カメラによって前記頭部を撮影した第２参照画像データとから、前記第３カメラについて正規化処理が行われた第３仮想カメラと前記第４カメラについて正規化処理が行われた第４仮想カメラとの間における相対的な回転角度に対応する第２回転行列とを算出し、
前記第２対象画像データと、前記第２参照画像データと、前記第２回転行列とを前記学習モデルに入力し、
前記学習モデルから出力された第２視線情報を取得し、
取得した前記第２視線情報を出力する、
ことを特徴とする学習モデル生成プログラム。
【請求項３】
請求項２において、
前記学習モデルは、第１対象モジュールと、第２対象モジュールと、第３対象モジュールと、第４対象モジュールと、第１参照モジュールと、第２参照モジュールと、第３参照モジュールと、第４参照モジュールと、を有し、
前記第１対象モジュールは、前記第２対象画像データに映る前記頭部に対応する第１対象特徴量を抽出し、
前記第１参照モジュールは、前記第２参照画像データに映る前記頭部に対応する第１参照特徴量を抽出し、
前記第２対象モジュールは、前記第１対象モジュールによって抽出された前記第１対象特徴量から、前記第３参照モジュールにおいて用いられる回転可能な第２対象特徴量を抽出し、
前記第２参照モジュールは、前記第１参照モジュールによって抽出された前記第１参照特徴量から、前記第３対象モジュールにおいて用いられる回転可能な第２参照特徴量を抽出し、
前記第３対象モジュールは、前記第１対象特徴量と、前記第１回転行列と、前記第２参照モジュールによって抽出された前記第２参照特徴量とを用いて、前記第２対象特徴量を更新し、
前記第３参照モジュールは、前記第１参照特徴量と、前記第１回転行列と、前記第２対象モジュールによって抽出された前記第２対象特徴量とを用いて、前記第２参照特徴量を更新し、前記第４対象モジュールは、前記第１対象特徴量と、前記第３対象モジュールによって更新された前記第２対象特徴量とを用いて、前記第２対象画像データに映る前記人物の視線方向を示す対象視線情報を推定し、
前記第４参照モジュールは、前記第２参照特徴量と、前記第３参照モジュールによって更新された前記第２参照特徴量とを用いて、前記第２参照画像データに映る前記人物の視線方向を示す参照視線情報を推定する、
ことを特徴とする学習モデル生成プログラム。
【請求項４】
請求項３において、
前記取得する処理では、前記第４対象モジュールによって推定された前記対象視線情報を前記第２視線情報として取得する、
ことを特徴とする学習モデル生成プログラム。
【請求項５】
請求項３において、
前記学習モデルは、
前記第１対象特徴量と、前記第１回転行列と、前記第３参照モジュールによって抽出された前記第２参照特徴量とを用いて、前記第２対象特徴量をさらに更新する第５対象モジュールと、
前記第１参照特徴量と、前記第１回転行列と、前記第３対象モジュールによって抽出された前記第２対象特徴量とを用いて、前記第２参照特徴量をさらに更新する第５参照モジュールと、
前記第１対象特徴量と、前記第５対象モジュールによって更新された前記第２対象特徴量とを用いて、前記対象視線情報を更新する第６対象モジュールと、
前記第１参照特徴量と、前記第５参照モジュールによって更新された前記第２参照特徴量とを用いて、前記参照視線情報を推定する第６参照モジュールと、を有する、
ことを特徴とする学習モデル生成プログラム。
【請求項６】
請求項５において、
前記取得する処理では、前記第６対象モジュールによって更新された前記対象視線情報を前記第２視線情報として取得する、
ことを特徴とする学習モデル生成プログラム。
【請求項７】
第１カメラによって人物の頭部を撮影した第１対象画像データと、第２カメラによって前記頭部を撮影した第１参照画像データとから、前記第１カメラについて正規化処理が行われた第１仮想カメラと前記第２カメラについて正規化処理が行われた第２仮想カメラとの間における相対的な回転角度に対応する第１回転行列を特定する行列特定部と、
前記第１対象画像データと、前記第１参照画像データと、前記第１回転行列と、前記人物の視線方向を示す第１視線情報とを含む教師データを生成するデータ生成部と、
生成した前記教師データを学習することによって学習モデルを生成するモデル生成部と、を有する、
ことを特徴とする情報処理装置。
【請求項８】
第１カメラによって人物の頭部を撮影した第１対象画像データと、第２カメラによって前記頭部を撮影した第１参照画像データとから、前記第１カメラについて正規化処理が行われた第１仮想カメラと前記第２カメラについて正規化処理が行われた第２仮想カメラとの間における相対的な回転角度に対応する第１回転行列を特定し、
前記第１対象画像データと、前記第１参照画像データと、前記第１回転行列と、前記人物の視線方向を示す第１視線情報とを含む教師データを生成し、
生成した前記教師データを学習することによって学習モデルを生成する、
処理をコンピュータが実行することを特徴とする学習モデル生成方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、学習モデル生成プログラム、情報処理装置及び学習モデル生成方法に関する。
続きを表示（約 1,500 文字）【背景技術】
【０００２】
例えば、対象者（人物）の頭部が映る画像データを用いることによって、対象者の視線方向を推定する技術（以下、単に視線推定技術とも呼ぶ）がある。このような技術では、例えば、対象者の目が映る画像データを学習済の学習モデル（以下、単に学習モデルとも呼ぶ）に入力することによって、対象者の視線方向の推定を行う（特許文献１、特許文献２及び非特許文献１を参照）。
【先行技術文献】
【特許文献】
【０００３】
特開２０２２－１８７５４６号公報
特開２０２２－１８７５４７号公報
【非特許文献】
【０００４】
X. Zhang, Y. Sugano, and A. Bulling, “Revisiting data normalization for appearance-based gaze estimation,” in ETRA, 2018.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ここで、上記のような学習モデルは、例えば、画像データに映る対象者の頭部の向きによって、対象者の視線方向を精度良く推定することができない場合がある。具体的に、例えば、画像データに映る対象者の頭部の向きが学習時において学習されていない向きである場合、学習モデルは、対象者の視線方向を精度良く推定することができない場合がある。すなわち、上記のような視線推定技術では、例えば、汎化性能の高い学習モデルを生成することができない場合がある。
【０００６】
この点、例えば、様々な配置位置の複数のカメラ（撮影装置）によって撮影された複数の画像データを用いて学習モデルの生成を行うことにより、学習モデルの汎化性能を向上させることが可能になる。
【０００７】
しかしながら、この場合、例えば、カメラの組合せごとに教師データを生成する必要が生じ、学習モデルの生成に要する作業負担が増大する。そのため、上記のような視線推定技術では、例えば、学習モデルの生成に要する作業負担を抑制しつつ、学習モデルの汎化性能を向上させることが可能な方法が望まれている。
【０００８】
そこで、本発明の目的は、視線推定に用いる学習モデルの汎化性能を向上させることを可能とする学習モデル生成プログラム、情報処理装置及び学習モデル生成方法を提供することにある。
【課題を解決するための手段】
【０００９】
上記目的を達成するための本発明における学習モデル生成プログラムは、第１カメラによって人物の頭部を撮影した第１対象画像データと、第２カメラによって前記頭部を撮影した第１参照画像データとから、前記第１カメラについて正規化処理が行われた第１仮想カメラと前記第２カメラについて正規化処理が行われた第２仮想カメラとの間における相対的な回転角度に対応する第１回転行列を特定し、前記第１対象画像データと、前記第１参照画像データと、前記第１回転行列と、前記人物の視線方向を示す第１視線情報とを含む教師データを生成し、生成した前記教師データを学習することによって学習モデルを生成する、処理をコンピュータに実行させる。
【発明の効果】
【００１０】
本発明における学習モデル生成プログラム、情報処理装置及び学習モデル生成方法によれば、視線推定に用いる学習モデルの汎化性能を向上させることが可能になる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許