TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2024097525
公報種別公開特許公報(A)
公開日2024-07-19
出願番号2023001023
出願日2023-01-06
発明の名称同期制御装置
出願人株式会社NTTドコモ
代理人個人,個人,個人,個人,個人
主分類H04N 21/44 20110101AFI20240711BHJP(電気通信技術)
要約【課題】映像コンテンツの完全性を確保しつつ、映像コンテンツに含まれた音声を音声認識して他の言語に翻訳した翻訳字幕を、映像コンテンツに付与し、翻訳字幕と映像コンテンツとを同期させて再生する。
【解決手段】同期制御装置10は、映像コンテンツにおける一連の複数の音声区間を検出して最長音声区間を検出する検出部11と、上記複数の音声区間の音声を対象とする音声認識の処理結果としての音声区間ごとのテキストデータを取得する音声認識部12と、取得されたテキストデータを対象とする他の言語への翻訳の処理結果としての音声区間ごとの翻訳字幕データを取得する翻訳部13と、最長音声区間を対象とした検出部11、音声認識部12および翻訳部13の合計処理時間だけ映像コンテンツを遅延させ、遅延させた映像コンテンツに音声区間ごとの翻訳字幕データを付与して再生する制御部14と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
映像コンテンツにおける一連の複数の音声区間を検出し、前記複数の音声区間のうち、時間が最も長い最長音声区間を検出する検出部と、
検出された複数の音声区間の音声を対象とする音声認識の処理結果としての、音声区間ごとのテキストデータを取得する音声認識部と、
取得されたテキストデータを対象とする他の言語への翻訳の処理結果としての、音声区間ごとの翻訳字幕データを取得する翻訳部と、
前記最長音声区間を対象とした、前記検出部による処理時間、前記音声認識部による処理経過時間、および前記翻訳部による処理時間の合計処理時間を算出し、得られた合計処理時間だけ前記映像コンテンツを遅延させ、遅延させた前記映像コンテンツに前記音声区間ごとの翻訳字幕データを付与して再生する制御部と、
を備える同期制御装置。
続きを表示(約 1,100 文字)【請求項2】
前記複数の音声区間のそれぞれには、シーケンス番号が付与され、
前記音声認識部は、前記シーケンス番号を伴う音声区間ごとのテキストデータを取得し、
前記翻訳部は、前記シーケンス番号を伴う音声区間ごとの翻訳字幕データを取得し、
前記制御部は、前記遅延させた前記映像コンテンツにおける音声区間に、前記シーケンス番号により対応付けられる音声区間ごとの翻訳字幕データを付与して再生する、
請求項1に記載の同期制御装置。
【請求項3】
前記翻訳部は、取得されたテキストデータを対象とする他の複数の言語への翻訳の処理結果としての、音声区間ごとおよび言語ごとの翻訳字幕データを取得し、
前記制御部は、前記最長音声区間を対象とした、前記検出部による処理時間、前記音声認識部による処理経過時間、および前記翻訳部による言語ごとの処理時間のうち最長の処理時間、の合計処理時間を算出し、得られた合計処理時間だけ前記映像コンテンツを遅延させ、遅延させた前記映像コンテンツに前記音声区間ごとの翻訳字幕データを付与して再生する、
請求項2に記載の同期制御装置。
【請求項4】
前記音声認識が、直列に実行される、
外部の音声認識サーバとのデータの送受信処理、
外部の音声認識サーバによる音声認識処理、および、
音声認識結果を対象とした前記音声認識部による確認処理
を含む場合、
前記制御部は、前記音声認識部による処理経過時間として、前記送受信処理の処理時間と、前記音声認識処理の処理時間と、前記確認処理の処理時間との合計を算出する、
請求項1に記載の同期制御装置。
【請求項5】
前記音声認識が、少なくとも一部並列に実行される、
外部の音声認識サーバとのデータの送受信処理、
外部の音声認識サーバによる音声認識処理、および、
音声認識結果を対象とした前記音声認識部による確認処理
を含む場合、
前記制御部は、前記音声認識部による処理経過時間として、前記送受信処理と前記音声認識処理と前記確認処理の全体における処理経過時間を算出する、
請求項1に記載の同期制御装置。
【請求項6】
前記翻訳字幕が映像コンテンツにおいてスクロールで表示される場合、
前記制御部は、映像コンテンツにおける音声区間でない無音声時間帯に、直前の音声区間の前記翻訳字幕データを映像コンテンツに付与して再生させる、
請求項1に記載の同期制御装置。
【請求項7】
前記検出部は、時系列に沿って複数に分割された個々の映像コンテンツを処理対象とする、
請求項1に記載の同期制御装置。

発明の詳細な説明【技術分野】
【0001】
本開示は、映像コンテンツと翻訳字幕データとを同期させて再生するための制御を行う同期制御装置に関する。
続きを表示(約 2,100 文字)【背景技術】
【0002】
近年、映像コンテンツをリアルタイムで配信するサービスが普及しつつあり、このようなサービスでは、映像コンテンツに含まれた音声を音声認識した後、他の言語に翻訳した翻訳字幕をオンデマンドで映像コンテンツに付与し、翻訳字幕と映像コンテンツとを同期させて再生することが待望されている。
【0003】
これに関連し、映像コンテンツに含まれた音声を音声認識して得られたテキストデータ、又は映像コンテンツに含まれ事前準備された字幕データを字幕とし、端末で映像と字幕とを同期させて表示する技術は、下記の特許文献1および特許文献2に提案されている。
【先行技術文献】
【特許文献】
【0004】
特開2012-105234号公報
特開2007-324872号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1、2では、映像コンテンツから音声認識によって得られたテキストデータをさらに他の言語に翻訳して翻訳字幕を得る処理までは想定されていなかった。
【0006】
以上を踏まえ、本開示は、映像コンテンツの完全性を確保しつつ、映像コンテンツに含まれた音声を音声認識して他の言語に翻訳した翻訳字幕を、映像コンテンツに付与し、翻訳字幕と映像コンテンツとを同期させて再生することを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る同期制御装置は、映像コンテンツにおける一連の複数の音声区間を検出し、前記複数の音声区間のうち、時間が最も長い最長音声区間を検出する検出部と、検出された複数の音声区間の音声を対象とする音声認識の処理結果としての、音声区間ごとのテキストデータを取得する音声認識部と、取得されたテキストデータを対象とする他の言語への翻訳の処理結果としての、音声区間ごとの翻訳字幕データを取得する翻訳部と、前記最長音声区間を対象とした、前記検出部による処理時間、前記音声認識部による処理経過時間、および前記翻訳部による処理時間の合計処理時間を算出し、得られた合計処理時間だけ前記映像コンテンツを遅延させ、遅延させた前記映像コンテンツに前記音声区間ごとの翻訳字幕データを付与して再生する制御部と、を備える。
【0008】
上記の同期制御装置において、検出部が映像コンテンツにおける一連の複数の音声区間を検出し、これら複数の音声区間のうち、時間が最も長い最長音声区間を検出し、音声認識部が、検出された複数の音声区間の音声を対象とする音声認識の処理結果としての、音声区間ごとのテキストデータを取得し、そして、翻訳部が、取得されたテキストデータを対象とする他の言語への翻訳の処理結果としての、音声区間ごとの翻訳字幕データを取得する。ここで、制御部は、(1)最長音声区間を対象とした検出部による処理時間、(2)音声認識部による処理経過時間、および(3)翻訳部による処理時間の合計処理時間を算出し、得られた合計処理時間だけ映像コンテンツを遅延させ、遅延させた映像コンテンツに音声区間ごとの翻訳字幕データを付与して再生する。このように、上記の合計処理時間だけ映像コンテンツを遅延させ、遅延させた映像コンテンツに音声区間ごとの翻訳字幕データを付与して再生するため、翻訳字幕と映像コンテンツとを同期させて再生することができる。また、映像コンテンツには変更を行わないため、映像コンテンツの完全性は確保される。
【発明の効果】
【0009】
本開示によれば、映像コンテンツの完全性を確保しつつ、映像コンテンツに含まれた音声を音声認識して他の言語に翻訳した翻訳字幕を、映像コンテンツに付与し、翻訳字幕と映像コンテンツとを同期させて再生することができる。
【図面の簡単な説明】
【0010】
第1実施形態における同期制御装置および周辺装置の構成を示す機能ブロック図である。
第1実施形態における同期再生手法を説明するための図である。
第1実施形態における同期制御装置および周辺装置により実行される処理を示すフロー図である。
非音声区間の有効利用の一例を説明するための図である。
非音声区間の有効利用の別の例を説明するための図である。
第2実施形態における同期制御装置および周辺装置の構成を示す機能ブロック図である。
第2実施形態における同期再生手法を説明するための図である。
第2実施形態における同期制御装置および周辺装置により実行される処理を示すフロー図である。
第1実施形態における同期制御装置の別の構成例を示す図である。
第2実施形態における同期制御装置の別の構成例を示す図である。
同期制御装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する

関連特許

個人
スピーカーシステム
3日前
個人
デジタル放送受信装置
1か月前
オンキヨー株式会社
電子機器
2か月前
個人
スピーカーキャビネット
1か月前
ブラザー工業株式会社
複合機
2か月前
日本精機株式会社
遠隔操作装置
16日前
日本精機株式会社
遠隔操作装置
23日前
エムケー精工株式会社
音響装置
1か月前
キヤノン株式会社
操作機器
2か月前
キヤノン株式会社
撮像装置
2か月前
キヤノン株式会社
撮像装置
18日前
キヤノン株式会社
撮像装置
2か月前
キヤノン株式会社
撮像装置
2日前
株式会社三井光機製作所
暗視装置
2か月前
キヤノン電子株式会社
画像読取装置
2か月前
個人
コメント荒らし判別プログラム
1か月前
個人
インターネット通信装置
26日前
個人
配信用音源制作システム
12日前
キヤノン電子株式会社
画像読取装置
2か月前
キヤノン株式会社
画像読取装置
1か月前
キヤノン株式会社
画像読取装置
20日前
日本放送協会
LDM送信システム
2か月前
キヤノン電子株式会社
画像読取システム
2か月前
個人
電子透かしの埋め込み及び抽出方法
2か月前
シャープ株式会社
表示装置
2か月前
キヤノン電子株式会社
画像読取システム
1か月前
三菱電機株式会社
中継装置
1か月前
キヤノン電子株式会社
画像処理システム
1か月前
キヤノン株式会社
撮像装置
2か月前
富士通株式会社
光信号増幅
1か月前
キヤノン電子株式会社
画像読取システム
18日前
株式会社JVCケンウッド
撮像装置
2か月前
株式会社JVCケンウッド
管理装置
12日前
株式会社日立国際電気
無線システム
20日前
綜合警備保障株式会社
遠隔監視装置
1か月前
株式会社日立国際電気
通信システム
2か月前
続きを見る