特許ウォッチ

公開番号2024166908
公報種別公開特許公報(A)
公開日2024-11-29
出願番号2023083333
出願日2023-05-19
発明の名称モデル生成方法、モデル生成システム
出願人トヨタ自動車株式会社
代理人弁理士法人高田・高橋国際特許事務所
主分類G06T 7/00 20170101AFI20241122BHJP(計算;計数)
要約【課題】映像の中から入力センテンスの内容とマッチするマッチング区間を抽出する映像抽出モデルであって、汎化性能が高い映像抽出モデルの生成を可能とする技術を提供する。
【解決手段】本開示に係るモデル生成方法は、ベースセンテンスとサブセンテンスを映像抽出モデルに入力して訓練映像の中からベースマッチング区間とサブマッチング区間を抽出することを含む。モデル生成方法は、さらに、正解区間、ベースマッチング区間、及びサブマッチング区間それぞれに応じた訓練映像の特徴量に基づいて、ベースセンテンスを再構成する学習タスクを処理することにより損失を算出することと、正解区間に関する第1損失がベースマッチング区間に関する第2損失よりも小さくなり、且つ、第2損失がサブマッチング区間に関するサブ損失よりも小さくなるように映像抽出モデルの機械学習を実施することと、を含む。
【選択図】図3
特許請求の範囲【請求項１】
映像の中から入力センテンスの内容とマッチするマッチング区間を抽出する映像抽出モデルを生成するモデル生成方法であって、
前記モデル生成方法は、コンピュータによって実行され、
前記モデル生成方法は、複数のセンテンスを前記映像抽出モデルに入力して訓練映像の中から前記複数のセンテンスそれぞれに対する複数のマッチング区間を抽出することを含み、
前記複数のセンテンスは、ベースセンテンスと、前記ベースセンテンスより短い少なくとも１つのサブセンテンスを含み、
前記少なくとも１つのサブセンテンスは、
前記ベースセンテンスに含まれる単語を含み、前記ベースセンテンスと無関係のノイズ単語を含まない正例サブセンテンスと、
前記ノイズ単語を少なくとも含む負例サブセンテンスと、
のうち少なくとも１つを含み、
前記複数のマッチング区間は、前記ベースセンテンスに対するベースマッチング区間と、前記少なくとも１つのサブセンテンスに対する少なくとも１つのサブマッチング区間と、を含み、
前記モデル生成方法は、さらに、
正解区間に応じた前記訓練映像の特徴量に基づいて、前記ベースセンテンスを再構成する学習タスクを処理することにより第１損失を算出することと、
前記ベースマッチング区間に応じた前記訓練映像の特徴量に基づいて、前記学習タスクを処理することにより第２損失を算出することと、
前記少なくとも１つのサブマッチング区間に応じた前記訓練映像の特徴量に基づいて、前記学習タスクを処理することにより少なくとも１つのサブ損失を算出することと、
前記第１損失が前記第２損失よりも小さくなり、且つ、前記第２損失が前記少なくとも１つのサブ損失よりも小さくなるように前記映像抽出モデルの機械学習を実施することと、
を含む
モデル生成方法。
続きを表示（約 1,800 文字）【請求項２】
請求項１に記載のモデル生成方法であって、
前記少なくとも１つのサブセンテンスは、前記正例サブセンテンスと前記負例サブセンテンスの両方を含み、
前記少なくとも１つのサブマッチング区間は、前記正例サブセンテンスに対する正例サブマッチング区間と、前記負例サブセンテンスに対する負例サブマッチング区間と、を含み、
前記少なくとも１つのサブ損失は、前記正例サブマッチング区間に応じた前記訓練映像の特徴量に基づいて前記学習タスクを処理することにより算出される正例サブ損失と、前記負例サブマッチング区間に応じた前記訓練映像の特徴量に基づいて前記学習タスクを処理することにより算出される負例サブ損失と、を含み、
前記機械学習は、さらに前記正例サブ損失が前記負例サブ損失よりも小さくなるように実施される
モデル生成方法。
【請求項３】
請求項２に記載のモデル生成方法であって、
前記負例サブセンテンスは、
前記ベースセンテンスに含まれる単語と前記ノイズ単語の両方を含む第１負例サブセンテンスと、
前記ベースセンテンスに含まれる単語を含まず、前記ノイズ単語を含む第２負例サブセンテンスと、
を含み、
前記負例サブマッチング区間は、前記第１負例サブセンテンスに対する第１負例サブマッチング区間と、前記第２負例サブセンテンスに対する第２負例サブマッチング区間と、を含み、
前記負例サブ損失は、前記第１負例サブマッチング区間に応じた前記訓練映像の特徴量に基づいて前記学習タスクを処理することにより算出される第１負例サブ損失と、前記第２負例サブマッチング区間に応じた前記訓練映像の特徴量に基づいて前記学習タスクを処理することにより算出される第２負例サブ損失と、を含み、
前記機械学習は、さらに前記第１負例サブ損失が前記第２負例サブ損失よりも小さくなるように実施される
モデル生成方法。
【請求項４】
請求項１乃至請求項３のいずれか１項に記載のモデル生成方法であって、
前記学習タスクは、前記ベースセンテンスの中から一部の単語をマスクすることにより生成され、マスクされた単語を推論するタスクである
モデル生成方法。
【請求項５】
映像の中から入力センテンスの内容とマッチするマッチング区間を抽出する映像抽出モデルを生成するモデル生成システムであって、
１又は複数のプロセッサを備え、
前記１又は複数のプロセッサは、複数のセンテンスを前記映像抽出モデルに入力して訓練映像の中から前記複数のセンテンスそれぞれに対する複数のマッチング区間を抽出する処理を実行するように構成され、
前記複数のセンテンスは、ベースセンテンスと、前記ベースセンテンスより短い少なくとも１つのサブセンテンスを含み、
前記少なくとも１つのサブセンテンスは、
前記ベースセンテンスに含まれる単語を含み、前記ベースセンテンスと無関係のノイズ単語を含まない正例サブセンテンスと、
前記ノイズ単語を少なくとも含む負例サブセンテンスと、
のうち少なくとも１つを含み、
前記複数のマッチング区間は、前記ベースセンテンスに対するベースマッチング区間と、前記少なくとも１つのサブセンテンスに対する少なくとも１つのサブマッチング区間と、を含み、
前記１又は複数のプロセッサは、さらに、
正解区間に応じた前記訓練映像の特徴量に基づいて、前記ベースセンテンスを再構成する学習タスクを処理することにより第１損失を算出する処理と、
前記ベースマッチング区間に応じた前記訓練映像の特徴量に基づいて、前記学習タスクを処理することにより第２損失を算出する処理と、
前記少なくとも１つのサブマッチング区間に応じた前記訓練映像の特徴量に基づいて、前記学習タスクを処理することにより少なくとも１つのサブ損失を算出する処理と、
前記第１損失が前記第２損失よりも小さくなり、且つ、前記第２損失が前記少なくとも１つのサブ損失よりも小さくなるように前記映像抽出モデルの機械学習を実施する処理と、
を実行するように構成されている
モデル生成システム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、機械学習モデルの生成に関する。
続きを表示（約 1,400 文字）【背景技術】
【０００２】
近年、様々なタスクに対して、各タスクを適切に処理することを可能とするための機械学習モデルの生成に関する技術が提案されている。
【０００３】
例えば、特許文献１には、複数の異なるモダリティのデータを入力として入力とは異なるモダリティのデータを出力するタスクを処理するための機械学習モデルの生成に関する技術が開示されている。
【０００４】
その他、本技術分野の技術レベルを示す文献として以下の特許文献２及び特許文献３がある。
【先行技術文献】
【特許文献】
【０００５】
国際公開第２０２１／１８２１９９号
特開２０２２－０７２４４４号公報
特開２０２１－１８９８９２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
１つのタスクとして、センテンスをクエリとし、映像の中からセンテンスの内容とマッチする区間を抽出するタスクがある。従来、このようなタスクを処理するための機械学習モデル（以下、単に「映像抽出モデル」と呼ぶ。）では、クエリとなる様々なセンテンスに対して十分な汎化性能を得ることができていない。
【０００７】
本開示の１つの目的は、入力となる様々なセンテンスに対して汎化性能が高い映像抽出モデルの生成を可能とする技術を提供することにある。
【課題を解決するための手段】
【０００８】
本開示の第１の観点は、映像の中から入力センテンスの内容とマッチするマッチング区間を抽出する映像抽出モデルを生成するモデル生成方法に関する。
【０００９】
第１の観点に係るモデル生成方法は、コンピュータによって実行され、複数のセンテンスを映像抽出モデルに入力して訓練映像の中から複数のセンテンスそれぞれに対する複数のマッチング区間を抽出することを含む。複数のセンテンスは、ベースセンテンスと、ベースセンテンスより短い少なくとも１つのサブセンテンスを含む。少なくとも１つのサブセンテンスは、ベースセンテンスに含まれる単語を含み、ベースセンテンスと無関係のノイズ単語を含まない正例サブセンテンスと、ノイズ単語を少なくとも含む負例サブセンテンスと、のうち少なくとも１つを含む。複数のマッチング区間は、ベースセンテンスに対するベースマッチング区間と、少なくとも１つのサブセンテンスに対する少なくとも１つのサブマッチング区間と、を含む。モデル生成方法は、さらに、正解区間に応じた訓練映像の特徴量に基づいて、ベースセンテンスを再構成する学習タスクを処理することにより第１損失を算出することと、ベースマッチング区間に応じた訓練映像の特徴量に基づいて、ベースセンテンスを再構成する学習タスクを処理することにより第２損失を算出することと、少なくとも１つのサブマッチング区間に応じた訓練映像の特徴量に基づいて、ベースセンテンスを再構成する学習タスクを処理することにより少なくとも１つのサブ損失を算出することと、第１損失が第２損失よりも小さくなり、且つ、第２損失が少なくとも１つのサブ損失よりも小さくなるように映像抽出モデルの機械学習を実施することと、を含む。
【００１０】
本開示の第２の観点は、映像の中から入力センテンスの内容とマッチするマッチング区間を抽出する映像抽出モデルを生成するモデル生成システムに関する。
（【００１１】以降は省略されています）

関連特許