TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024124103
公報種別
公開特許公報(A)
公開日
2024-09-12
出願番号
2023032042
出願日
2023-03-02
発明の名称
動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム
出願人
日本電信電話株式会社
,
国立大学法人東京工業大学
代理人
弁理士法人ITOH
,
個人
,
個人
,
個人
主分類
G06N
3/08 20230101AFI20240905BHJP(計算;計数)
要約
【課題】キャプションが与えられていない動画の修辞構造解析を可能とすること。
【解決手段】動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【選択図】図4
特許請求の範囲
【請求項1】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、
を有することを特徴とする動画修辞構造解析学習装置。
続きを表示(約 1,300 文字)
【請求項2】
前記第1の修辞構造木は、キャプションの修辞構造木から当該キャプションとフレーム列との対応関係に基づいて生成され修辞構造木である、
ことを特徴とする請求項1記載の動画修辞構造解析学習装置。
【請求項3】
前記第2の学習部によって学習された前記エンコーダが動画を構成する複数のフレーム列を入力した場合に出力するベクトルに基づく前記スパンごとのベクトルを前記ニューラルネットワークが入力した場合に出力される修辞構造木と、当該動画に対する正解としての修辞構造木とに基づいて前記モデルを追加学習する第3の学習部、
を有することを特徴とする請求項2記載の動画修辞構造解析学習装置。
【請求項4】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定部、
を有することを特徴とする動画修辞構造推定装置。
【請求項5】
、
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータが実行することを特徴とする動画修辞構造解析学習方法。
【請求項6】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータが実行することを特徴とする動画修辞構造推定方法。
【請求項7】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータに実行させることを特徴とするプログラム。
【請求項8】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータに実行させることを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラムに関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
動画の構造を自動的に推定する動画修辞構造解析は、動画を、イベント区間(開始終了時刻を持つフレーム列)の系列とみなし、イベント区間の間の関係を再帰構造を持った2分木(修辞構造木)として表現する(図1)。なお、木の葉は単一のイベント区間となる。イベントスパン(単体のイベント区間又はその連なり)を表す非終端ノードはN(核)、S(衛星)という役割をもち、Sが対となったNを予め定められた修辞関係(図中のCauseやSupplementなど)で修飾する。つまり、SからNへ向かうエッジに修辞関係ラベルが与えられる。以下に、修辞関係ラベルとして扱われる文字列を示す。
【0003】
Preparation、Cause、Result、Supplement、Comparison、List、Back-ground、Summary、Restatement、Attribution、Elaboration、En-ablement、Manner-means、Same-unit
例外的に2つの非終端ノードが支配する2つのスパンの間の関係が並列である場合は双方にNが与えられ、双方のエッジラベルに並列関係を表す修辞関係ラベル(List、Same-unit、Comparison)が与えられる。なお、この構造は修辞構造理論における木の構築ルールにしたがっている。
【0004】
こうした木構造を推定するため、イベント区間に対するキャプションを活用する手法が提案されている(非特許文献1)。この手法では、キャプションを用いて通常の修辞構造解析が行われ、キャプションとイベント区間との間の対応関係に基づきイベント区間の修辞構造木が得られる。
【先行技術文献】
【非特許文献】
【0005】
Arjun R. Akula and Song-Chun Zhu、"Discourse Parsing in Videos: A Multi-modal Appraoch"、In CVPR Workshop on Language and Vision 2020
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1の手法はキャプションが与えられた動画を対象とすることが前提となっている。つまり、単にテキストの修辞構造解析を行っているにすぎず、キャプションが与えられていない動画に対応できないという問題がある。
【0007】
本発明は、上記の点に鑑みてなされたものであって、キャプションが与えられていない動画の修辞構造解析を可能とすることを目的とする。
【課題を解決するための手段】
【0008】
そこで上記課題を解決するため、動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【発明の効果】
【0009】
キャプションが与えられていない動画の修辞構造解析を可能とすることができる。
【図面の簡単な説明】
【0010】
動画修辞構造解析を説明するための図である。
クリップエンコーダによるイベント区間からベクトルへの変換を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10のハードウェア構成例を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10の機能構成例を示す図である。
クリップエンコーダの事前学習を説明するための図である。
遷移型の解析法に基づくパラメタ最適化を説明するための図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
認証システム
7日前
個人
マウス用テーブル
1か月前
個人
保証金管理システム
1日前
個人
管理装置
1か月前
個人
鑑定証明システム
7日前
個人
業界地図作成システム
1か月前
個人
人的価値発掘システム
1か月前
アズビル株式会社
防爆装置
1か月前
個人
管理装置
1か月前
個人
特徴検討支援システム
1か月前
個人
契約管理サーバ
1か月前
キヤノン電子株式会社
情報処理装置
1か月前
株式会社MRC
集客システム
1日前
株式会社宗建
SNSサーバー
1か月前
株式会社セガフェイブ
遊戯機
1か月前
個人
技術マッチングシステム
13日前
株式会社ネットブリッジ
展示販売装置
8日前
株式会社ジール
文章の分析装置
1か月前
トヨタ自動車株式会社
分析装置
1日前
ミサワホーム株式会社
管理装置
1か月前
キヤノン株式会社
印刷制御装置
22日前
個人
配送システムおよび同包箱
1か月前
ミサワホーム株式会社
システム
1か月前
個人
選択操作音声出力システム
1か月前
オムロン株式会社
認証中継サーバ
1か月前
大同特殊鋼株式会社
棒材計数装置
1か月前
株式会社奥村組
削孔位置検出方法
1か月前
ミサワホーム株式会社
プログラム
7日前
個人
動作のデザイン評価の方法及び装置
1か月前
トヨタ自動車株式会社
車両
1か月前
個人
文字入力方法、文字入力プログラム
14日前
アスエネ株式会社
森林管理の方法
1か月前
株式会社八咲
イベント管理システム
1か月前
個人
後払いポイントシステム「先用後利」
8日前
トヨタ自動車株式会社
部品管理装置
7日前
株式会社チノー
ユーザ認証システム
29日前
続きを見る
他の特許を見る