特許ウォッチ

公開番号2024124103
公報種別公開特許公報(A)
公開日2024-09-12
出願番号2023032042
出願日2023-03-02
発明の名称動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム
出願人日本電信電話株式会社,国立大学法人東京工業大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06N 3/08 20230101AFI20240905BHJP(計算;計数)
要約【課題】キャプションが与えられていない動画の修辞構造解析を可能とすること。
【解決手段】動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【選択図】図4
特許請求の範囲【請求項１】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習部と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習部と、
を有することを特徴とする動画修辞構造解析学習装置。
続きを表示（約 1,300 文字）【請求項２】
前記第１の修辞構造木は、キャプションの修辞構造木から当該キャプションとフレーム列との対応関係に基づいて生成され修辞構造木である、
ことを特徴とする請求項１記載の動画修辞構造解析学習装置。
【請求項３】
前記第２の学習部によって学習された前記エンコーダが動画を構成する複数のフレーム列を入力した場合に出力するベクトルに基づく前記スパンごとのベクトルを前記ニューラルネットワークが入力した場合に出力される修辞構造木と、当該動画に対する正解としての修辞構造木とに基づいて前記モデルを追加学習する第３の学習部、
を有することを特徴とする請求項２記載の動画修辞構造解析学習装置。
【請求項４】
請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定部、
を有することを特徴とする動画修辞構造推定装置。
【請求項５】
、
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習手順と、
をコンピュータが実行することを特徴とする動画修辞構造解析学習方法。
【請求項６】
請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータが実行することを特徴とする動画修辞構造推定方法。
【請求項７】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習手順と、
をコンピュータに実行させることを特徴とするプログラム。
【請求項８】
請求項１乃至３いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラムに関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
動画の構造を自動的に推定する動画修辞構造解析は、動画を、イベント区間（開始終了時刻を持つフレーム列）の系列とみなし、イベント区間の間の関係を再帰構造を持った２分木（修辞構造木）として表現する（図１）。なお、木の葉は単一のイベント区間となる。イベントスパン（単体のイベント区間又はその連なり）を表す非終端ノードはＮ（核）、Ｓ（衛星）という役割をもち、Ｓが対となったＮを予め定められた修辞関係（図中のＣａｕｓｅやＳｕｐｐｌｅｍｅｎｔなど）で修飾する。つまり、ＳからＮへ向かうエッジに修辞関係ラベルが与えられる。以下に、修辞関係ラベルとして扱われる文字列を示す。
【０００３】
Ｐｒｅｐａｒａｔｉｏｎ、Ｃａｕｓｅ、Ｒｅｓｕｌｔ、Ｓｕｐｐｌｅｍｅｎｔ、Ｃｏｍｐａｒｉｓｏｎ、Ｌｉｓｔ、Ｂａｃｋ－ｇｒｏｕｎｄ、Ｓｕｍｍａｒｙ、Ｒｅｓｔａｔｅｍｅｎｔ、Ａｔｔｒｉｂｕｔｉｏｎ、Ｅｌａｂｏｒａｔｉｏｎ、Ｅｎ－ａｂｌｅｍｅｎｔ、Ｍａｎｎｅｒ－ｍｅａｎｓ、Ｓａｍｅ－ｕｎｉｔ
例外的に２つの非終端ノードが支配する２つのスパンの間の関係が並列である場合は双方にＮが与えられ、双方のエッジラベルに並列関係を表す修辞関係ラベル（Ｌｉｓｔ、Ｓａｍｅ－ｕｎｉｔ、Ｃｏｍｐａｒｉｓｏｎ）が与えられる。なお、この構造は修辞構造理論における木の構築ルールにしたがっている。
【０００４】
こうした木構造を推定するため、イベント区間に対するキャプションを活用する手法が提案されている（非特許文献１）。この手法では、キャプションを用いて通常の修辞構造解析が行われ、キャプションとイベント区間との間の対応関係に基づきイベント区間の修辞構造木が得られる。
【先行技術文献】
【非特許文献】
【０００５】
Arjun R. Akula and Song-Chun Zhu、"Discourse Parsing in Videos: A Multi-modal Appraoch"、In CVPR Workshop on Language and Vision 2020
【発明の概要】
【発明が解決しようとする課題】
【０００６】
非特許文献１の手法はキャプションが与えられた動画を対象とすることが前提となっている。つまり、単にテキストの修辞構造解析を行っているにすぎず、キャプションが与えられていない動画に対応できないという問題がある。
【０００７】
本発明は、上記の点に鑑みてなされたものであって、キャプションが与えられていない動画の修辞構造解析を可能とすることを目的とする。
【課題を解決するための手段】
【０００８】
そこで上記課題を解決するため、動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第１の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第１の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく１以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第１の修辞構造木とに基づいて前記モデルを学習する第２の学習部と、を有する。
【発明の効果】
【０００９】
キャプションが与えられていない動画の修辞構造解析を可能とすることができる。
【図面の簡単な説明】
【００１０】
動画修辞構造解析を説明するための図である。
クリップエンコーダによるイベント区間からベクトルへの変換を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置１０のハードウェア構成例を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置１０の機能構成例を示す図である。
クリップエンコーダの事前学習を説明するための図である。
遷移型の解析法に基づくパラメタ最適化を説明するための図である。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許