TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024124103
公報種別公開特許公報(A)
公開日2024-09-12
出願番号2023032042
出願日2023-03-02
発明の名称動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム
出願人日本電信電話株式会社,国立大学法人東京工業大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06N 3/08 20230101AFI20240905BHJP(計算;計数)
要約【課題】キャプションが与えられていない動画の修辞構造解析を可能とすること。
【解決手段】動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【選択図】図4
特許請求の範囲【請求項1】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、
を有することを特徴とする動画修辞構造解析学習装置。
続きを表示(約 1,300 文字)【請求項2】
前記第1の修辞構造木は、キャプションの修辞構造木から当該キャプションとフレーム列との対応関係に基づいて生成され修辞構造木である、
ことを特徴とする請求項1記載の動画修辞構造解析学習装置。
【請求項3】
前記第2の学習部によって学習された前記エンコーダが動画を構成する複数のフレーム列を入力した場合に出力するベクトルに基づく前記スパンごとのベクトルを前記ニューラルネットワークが入力した場合に出力される修辞構造木と、当該動画に対する正解としての修辞構造木とに基づいて前記モデルを追加学習する第3の学習部、
を有することを特徴とする請求項2記載の動画修辞構造解析学習装置。
【請求項4】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定部、
を有することを特徴とする動画修辞構造推定装置。
【請求項5】

動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータが実行することを特徴とする動画修辞構造解析学習方法。
【請求項6】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータが実行することを特徴とする動画修辞構造推定方法。
【請求項7】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータに実行させることを特徴とするプログラム。
【請求項8】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラムに関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
動画の構造を自動的に推定する動画修辞構造解析は、動画を、イベント区間(開始終了時刻を持つフレーム列)の系列とみなし、イベント区間の間の関係を再帰構造を持った2分木(修辞構造木)として表現する(図1)。なお、木の葉は単一のイベント区間となる。イベントスパン(単体のイベント区間又はその連なり)を表す非終端ノードはN(核)、S(衛星)という役割をもち、Sが対となったNを予め定められた修辞関係(図中のCauseやSupplementなど)で修飾する。つまり、SからNへ向かうエッジに修辞関係ラベルが与えられる。以下に、修辞関係ラベルとして扱われる文字列を示す。
【0003】
Preparation、Cause、Result、Supplement、Comparison、List、Back-ground、Summary、Restatement、Attribution、Elaboration、En-ablement、Manner-means、Same-unit
例外的に2つの非終端ノードが支配する2つのスパンの間の関係が並列である場合は双方にNが与えられ、双方のエッジラベルに並列関係を表す修辞関係ラベル(List、Same-unit、Comparison)が与えられる。なお、この構造は修辞構造理論における木の構築ルールにしたがっている。
【0004】
こうした木構造を推定するため、イベント区間に対するキャプションを活用する手法が提案されている(非特許文献1)。この手法では、キャプションを用いて通常の修辞構造解析が行われ、キャプションとイベント区間との間の対応関係に基づきイベント区間の修辞構造木が得られる。
【先行技術文献】
【非特許文献】
【0005】
Arjun R. Akula and Song-Chun Zhu、"Discourse Parsing in Videos: A Multi-modal Appraoch"、In CVPR Workshop on Language and Vision 2020
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1の手法はキャプションが与えられた動画を対象とすることが前提となっている。つまり、単にテキストの修辞構造解析を行っているにすぎず、キャプションが与えられていない動画に対応できないという問題がある。
【0007】
本発明は、上記の点に鑑みてなされたものであって、キャプションが与えられていない動画の修辞構造解析を可能とすることを目的とする。
【課題を解決するための手段】
【0008】
そこで上記課題を解決するため、動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【発明の効果】
【0009】
キャプションが与えられていない動画の修辞構造解析を可能とすることができる。
【図面の簡単な説明】
【0010】
動画修辞構造解析を説明するための図である。
クリップエンコーダによるイベント区間からベクトルへの変換を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10のハードウェア構成例を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10の機能構成例を示す図である。
クリップエンコーダの事前学習を説明するための図である。
遷移型の解析法に基づくパラメタ最適化を説明するための図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

日本電信電話株式会社
学習装置、推定装置、学習方法、及びプログラム
7日前
日本電信電話株式会社
学習方法、推論方法、学習装置、推論装置及びプログラム
1日前
日本電信電話株式会社
光コネクタ接続構造
8日前
日本電信電話株式会社
連携無線通信装置、無線通信システム、空間多重無線伝送方法及びプログラム
2日前
個人
プログラム
28日前
株式会社理研
演算装置
1か月前
個人
日本語入力支援システム
1か月前
個人
情報検索システム
8日前
個人
確率場データ同化演算手法
20日前
個人
AI旅行最適化プラグイン
1か月前
個人
案件管理装置および端末装置
1か月前
個人
技術実行管理システム
22日前
キヤノン株式会社
電子機器
7日前
キヤノン株式会社
電子機器
7日前
個人
納骨堂システム
27日前
キヤノン株式会社
電子機器
7日前
シャープ株式会社
電子機器
21日前
株式会社イノベイト
広告装置
10日前
個人
不動産情報提供システム
17日前
キヤノン株式会社
情報処理装置
1か月前
個人
ネイルスキルテストシステム
21日前
株式会社イズミ
総合代行システム
1か月前
合同会社IPマネジメント
内部不正対策
15日前
個人
ダブルオークションシステム
1か月前
トヨタ自動車株式会社
電気自動車
1か月前
富士通株式会社
予測
1か月前
トヨタ自動車株式会社
管理システム
2日前
TDK株式会社
等価回路
2日前
株式会社SUBARU
車両用操作装置
1か月前
株式会社TIMEWELL
情報処理システム
28日前
西松建設株式会社
計測システム
6日前
合同会社IPマネジメント
料金収受システム
1か月前
株式会社NURSY
再就職の支援装置
1日前
ローム株式会社
半導体集積回路
1か月前
株式会社JVCケンウッド
情報処理装置
21日前
トヨタ自動車株式会社
電池評価システム
27日前
続きを見る