TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025176387
公報種別
公開特許公報(A)
公開日
2025-12-04
出願番号
2024082504
出願日
2024-05-21
発明の名称
キャプション生成装置及びプログラム
出願人
日本放送協会
代理人
個人
,
個人
主分類
H04N
21/435 20110101AFI20251127BHJP(電気通信技術)
要約
【課題】テレビ番組の画像に関するキャプションの生成精度を向上させること。
【解決手段】キャプション生成装置は、第1の番組に関する第1の画像及び第1のメタデータをテレビ放送のストリームから抽出するメタデータ抽出部と、テキスト及び画像と、当該テキスト及び当該画像に関して正解としてのキャプションとの対応関係を学習済みの機械学習モデルを用いて、前記第1のメタデータに基づくテキストと前記第1の画像とに対応するキャプションを生成するキャプション生成部と、を有する。
【選択図】図2
特許請求の範囲
【請求項1】
第1の番組に関する第1の画像及び第1のメタデータをテレビ放送のストリームから抽出するメタデータ抽出部と、
テキスト及び画像と、当該テキスト及び当該画像に関して正解としてのキャプションとの対応関係を学習済みの機械学習モデルを用いて、前記第1のメタデータに基づくテキストと前記第1の画像とに対応するキャプションを生成するキャプション生成部と、
を有することを特徴とするキャプション生成装置。
続きを表示(約 660 文字)
【請求項2】
前記第1の画像に関するキャプションの生成指示を示す指示テキストを前記メタデータに基づいて生成する指示テキスト生成部、
を有し、
前記キャプション生成部は、前記機械学習モデルを用いて、前記指示テキストと前記第1の画像とに対応するキャプションを生成する、
ことを特徴とする請求項1に記載のキャプション生成装置。
【請求項3】
前記キャプション生成部は、テレビ番組を構成する画像に関するキャプションの生成指示を示す指示テキスト、当該テレビ番組に関するメタデータ、及び当該テレビ番組を構成する画像と、当該指示テキスト、当該メタデータ、及び当該画像に関して正解としてのキャプションとの対応関係を学習済みの前記機械学習モデルを用いて、入力された指示テキストと、前記第1のメタデータと、前記第1の番組に関して前記ストリームに含まれている画像とに対応するキャプションを生成する、
ことを特徴とする請求項1に記載のキャプション生成装置。
【請求項4】
第1の番組に関する第1の画像及び第1のメタデータをテレビ放送のストリームから抽出するメタデータ抽出手順と、
テキスト及び画像と、当該テキスト及び当該画像に関して正解としてのキャプションとの対応関係を学習済みの機械学習モデルを用いて、前記第1のメタデータに基づくテキストと前記第1の画像とに対応するキャプションを生成するキャプション生成手順と、
をコンピュータに実行させるためのプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、キャプション生成装置及びプログラムに関する。
続きを表示(約 1,500 文字)
【背景技術】
【0002】
従来、静止画又は動画等の画像に対し、その内容を説明する文章(キャプション)を自動生成する技術が存在する。非特許文献1には、ニューラルネットワークを用いたキャプショニング技術が開示されている。ニューラルネットワークは画像と指示テキストの2つを入力し、テキストを出力する。指示テキストを変更することで、同じ画像に対して任意の(指示テキストに応じた)キャプションを生成することができる。例えば、指示テキストを「この画像は何を表すか?(文献1では英語の手法なので「what does the image describe?」を利用)」とすれば画像全体を説明するキャプションが生成される。また、指示テキストを「画像にどのような人物が映っているか?」とすれば、画像に映った人物を説明するキャプションが生成される。
【0003】
特許文献1や特許文献2では、運転挙動特徴や、階層化ラベルといった、付加的な情報を使って、画像説明文生成の精度を向上させる。
【先行技術文献】
【特許文献】
【0004】
特開2021-174172号公報
特開2022-52481号公報
【非特許文献】
【0005】
Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, Hongxia Yang、"OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework"、Proceedings of the 39th International Conference on Machine Learning, PMLR 162:23318-23340, 2022
【発明の概要】
【発明が解決しようとする課題】
【0006】
先行文献が生成できるキャプションは、学習に用いたデータセットに強く依存する。そのため、学習データに含まれない映像に対しては、著しく精度が落ちる。例えば、海外のデータセットで学習したモデルを、日本のテレビ番組映像に用いた場合、日本特有の情景は正しく伝えることができない。
【0007】
また、特許文献1や特許文献2に開示された技術が利用する付加的情報はテレビ番組映像に適していない(テレビ番組映像に直接用いることができない)。
【0008】
本発明は、上記の点に鑑みてなされたものであって、テレビ番組の画像に関するキャプションの生成精度を向上させることを目的とする。
【課題を解決するための手段】
【0009】
そこで上記課題を解決するため、キャプション生成装置は、第1の番組に関する第1の画像及び第1のメタデータをテレビ放送のストリームから抽出するメタデータ抽出部と、テキスト及び画像と、当該テキスト及び当該画像に関して正解としてのキャプションとの対応関係を学習済みの機械学習モデルを用いて、前記第1のメタデータに基づくテキストと前記第1の画像とに対応するキャプションを生成するキャプション生成部と、を有する。
【発明の効果】
【0010】
テレビ番組の画像に関するキャプションの生成精度を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
日本放送協会
配線構造
6か月前
日本放送協会
撮像装置
10か月前
日本放送協会
収音装置
3か月前
日本放送協会
撮像装置
3か月前
日本放送協会
撮像システム
1か月前
日本放送協会
基板固定装置
2か月前
日本放送協会
マイクロホン
8か月前
日本放送協会
無線通信装置
8か月前
日本放送協会
アンテナ装置
3か月前
日本放送協会
光学計測装置
9か月前
日本放送協会
表示システム
1か月前
日本放送協会
光分布生成装置
3か月前
日本放送協会
接続用配線基板
1か月前
日本放送協会
磁性細線メモリ
7か月前
日本放送協会
磁性細線デバイス
10か月前
日本放送協会
広視野角撮像装置
2か月前
日本放送協会
広視野角撮像装置
2か月前
日本放送協会
無線伝送システム
10か月前
日本放送協会
映像伝送システム
6か月前
日本放送協会
データ管理システム
10か月前
日本放送協会
3次元映像表示装置
3か月前
日本放送協会
良撮影位置推定装置
5か月前
日本放送協会
3次元映像表示装置
7か月前
日本放送協会
角度選択フィルター
5か月前
日本放送協会
送信装置及び受信装置
17日前
日本放送協会
送信装置及び受信装置
2か月前
日本放送協会
受信装置及び送出装置
12か月前
日本放送協会
送信装置及び受信装置
10か月前
日本放送協会
撮像素子及び撮像装置
4日前
日本放送協会
送信装置及び受信装置
9か月前
日本放送協会
送信装置及び受信装置
9か月前
日本放送協会
受信装置及びプログラム
4か月前
日本放送協会
受信装置及びプログラム
5か月前
日本放送協会
端末装置及びプログラム
11か月前
日本放送協会
受信装置及びプログラム
3か月前
日本放送協会
縮小装置及びプログラム
4か月前
続きを見る
他の特許を見る