TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024124103
公報種別
公開特許公報(A)
公開日
2024-09-12
出願番号
2023032042
出願日
2023-03-02
発明の名称
動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラム
出願人
日本電信電話株式会社
,
国立大学法人東京工業大学
代理人
弁理士法人ITOH
,
個人
,
個人
,
個人
主分類
G06N
3/08 20230101AFI20240905BHJP(計算;計数)
要約
【課題】キャプションが与えられていない動画の修辞構造解析を可能とすること。
【解決手段】動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【選択図】図4
特許請求の範囲
【請求項1】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、
を有することを特徴とする動画修辞構造解析学習装置。
続きを表示(約 1,300 文字)
【請求項2】
前記第1の修辞構造木は、キャプションの修辞構造木から当該キャプションとフレーム列との対応関係に基づいて生成され修辞構造木である、
ことを特徴とする請求項1記載の動画修辞構造解析学習装置。
【請求項3】
前記第2の学習部によって学習された前記エンコーダが動画を構成する複数のフレーム列を入力した場合に出力するベクトルに基づく前記スパンごとのベクトルを前記ニューラルネットワークが入力した場合に出力される修辞構造木と、当該動画に対する正解としての修辞構造木とに基づいて前記モデルを追加学習する第3の学習部、
を有することを特徴とする請求項2記載の動画修辞構造解析学習装置。
【請求項4】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定部、
を有することを特徴とする動画修辞構造推定装置。
【請求項5】
、
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータが実行することを特徴とする動画修辞構造解析学習方法。
【請求項6】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータが実行することを特徴とする動画修辞構造推定方法。
【請求項7】
動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習手順と、
前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習手順と、
をコンピュータに実行させることを特徴とするプログラム。
【請求項8】
請求項1乃至3いずれか一項記載の動画修辞構造解析学習装置によって学習された前記モデルを用いて、入力された動画の修辞構造木を推定する推定手順、
をコンピュータに実行させることを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、動画修辞構造解析学習装置、動画修辞構造推定装置、動画修辞構造解析学習方法、動画修辞構造推定方法及びプログラムに関する。
続きを表示(約 1,800 文字)
【背景技術】
【0002】
動画の構造を自動的に推定する動画修辞構造解析は、動画を、イベント区間(開始終了時刻を持つフレーム列)の系列とみなし、イベント区間の間の関係を再帰構造を持った2分木(修辞構造木)として表現する(図1)。なお、木の葉は単一のイベント区間となる。イベントスパン(単体のイベント区間又はその連なり)を表す非終端ノードはN(核)、S(衛星)という役割をもち、Sが対となったNを予め定められた修辞関係(図中のCauseやSupplementなど)で修飾する。つまり、SからNへ向かうエッジに修辞関係ラベルが与えられる。以下に、修辞関係ラベルとして扱われる文字列を示す。
【0003】
Preparation、Cause、Result、Supplement、Comparison、List、Back-ground、Summary、Restatement、Attribution、Elaboration、En-ablement、Manner-means、Same-unit
例外的に2つの非終端ノードが支配する2つのスパンの間の関係が並列である場合は双方にNが与えられ、双方のエッジラベルに並列関係を表す修辞関係ラベル(List、Same-unit、Comparison)が与えられる。なお、この構造は修辞構造理論における木の構築ルールにしたがっている。
【0004】
こうした木構造を推定するため、イベント区間に対するキャプションを活用する手法が提案されている(非特許文献1)。この手法では、キャプションを用いて通常の修辞構造解析が行われ、キャプションとイベント区間との間の対応関係に基づきイベント区間の修辞構造木が得られる。
【先行技術文献】
【非特許文献】
【0005】
Arjun R. Akula and Song-Chun Zhu、"Discourse Parsing in Videos: A Multi-modal Appraoch"、In CVPR Workshop on Language and Vision 2020
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1の手法はキャプションが与えられた動画を対象とすることが前提となっている。つまり、単にテキストの修辞構造解析を行っているにすぎず、キャプションが与えられていない動画に対応できないという問題がある。
【0007】
本発明は、上記の点に鑑みてなされたものであって、キャプションが与えられていない動画の修辞構造解析を可能とすることを目的とする。
【課題を解決するための手段】
【0008】
そこで上記課題を解決するため、動画修辞構造解析学習装置は、動画を入力して前記動画の修辞構造木を出力するモデルを構成するエンコーダが動画の一部を構成するフレーム列を入力した場合に出力するベクトルに基づいて得られるキャプションと、前記フレーム列に対するキャプションとに基づいて前記エンコーダを事前学習する第1の学習部と、前記モデルを構成するニューラルネットワークが、事前学習された前記エンコーダが第1の修辞構造木の各葉に対応するフレーム列について出力するベクトルに基づく1以上の連続した前記フレーム列であるスパンごとのベクトルを入力した場合に出力する修辞構造木と、前記第1の修辞構造木とに基づいて前記モデルを学習する第2の学習部と、を有する。
【発明の効果】
【0009】
キャプションが与えられていない動画の修辞構造解析を可能とすることができる。
【図面の簡単な説明】
【0010】
動画修辞構造解析を説明するための図である。
クリップエンコーダによるイベント区間からベクトルへの変換を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10のハードウェア構成例を示す図である。
本発明の実施の形態における動画修辞構造解析学習装置10の機能構成例を示す図である。
クリップエンコーダの事前学習を説明するための図である。
遷移型の解析法に基づくパラメタ最適化を説明するための図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
日本電信電話株式会社
量子鍵配送装置
10日前
日本電信電話株式会社
光線路特性解析装置
11日前
日本電信電話株式会社
演算装置、演算方法及びプログラム
10日前
日本電信電話株式会社
解析装置、解析方法及び解析プログラム
2日前
日本電信電話株式会社
抽出装置、抽出方法及び抽出プログラム
2日前
日本電信電話株式会社
管路位置探査装置及び管路位置探査方法
4日前
日本電信電話株式会社
検証装置、検証方法および検証プログラム
2日前
日本電信電話株式会社
解析装置、解析方法および解析プログラム
2日前
日本電信電話株式会社
振動センシング装置及び振動センシング方法
3日前
日本電信電話株式会社
エネルギー関数の最小値探索装置、エネルギー関数の最小値探索方法、及びプログラム。
10日前
個人
非正規コート
20日前
個人
人物再現システム
17日前
個人
在宅介護システム
2日前
個人
RFタグ読取装置
2日前
個人
AI飲食最適化プラグイン
10日前
個人
電話管理システム及び管理方法
11日前
有限会社ノア
データ読取装置
18日前
株式会社ザメディア
出席管理システム
25日前
個人
広告提供システムおよびその方法
20日前
個人
日誌作成支援システム
17日前
株式会社CROSLAN
支援装置
2日前
個人
ポイント還元付き配送システム
18日前
株式会社タクテック
商品取出集品システム
24日前
ミサワホーム株式会社
情報処理装置
24日前
トヨタ自動車株式会社
作業評価装置
1か月前
長屋印刷株式会社
画像形成システム
2日前
トヨタ自動車株式会社
作業判定方法
26日前
トヨタ自動車株式会社
工程計画装置
25日前
ひびきの電子株式会社
認証システム
4日前
オムロン株式会社
回転装置及びマウス
6日前
オベック実業株式会社
接続構造
17日前
トヨタ自動車株式会社
情報処理システム
26日前
株式会社村田製作所
動き検知装置
24日前
ゼネラル株式会社
RFIDタグ付き物品
27日前
個人
公益寄付インタラクティブシステム
1か月前
株式会社ドクター中松創研
生成AIの適切使用法
17日前
続きを見る
他の特許を見る