特許ウォッチ

公開番号2025070727
公報種別公開特許公報(A)
公開日2025-05-02
出願番号2023181239
出願日2023-10-20
発明の名称動画編集装置及びプログラム
出願人Wovn Technologies株式会社
代理人TRY国際弁理士法人
主分類G10L 15/00 20130101AFI20250424BHJP(楽器;音響)
要約【課題】動画コンテンツ内におけるセリフや言説を発した人物の属性に応じて、言葉遣いを調整できる技術的手段を提供する。
【解決手段】動画編集装置20は、処理対象の動画ファイル内の各音声を、音声を示す第1テキストデータ、及び、音声を発した人物の属性データとして認識する認識手段と、第1テキストデータを、別の言語の第2テキストデータに翻訳する翻訳手段と、属性データに基づいて、第2テキストデータが示す翻訳結果の一部の言葉遣いを改変した第3テキストデータを生成し、生成した第3テキストデータを、動画ファイル内の画像を示すデータとともに出力する改変手段とを具備する。
【選択図】図1
特許請求の範囲【請求項１】
処理対象の動画ファイル内の各音声を、前記音声を示す第１テキストデータ及び前記音声を発した人物の属性データとして認識する認識手段と、
前記第１テキストデータを、別の言語の第２テキストデータに翻訳する翻訳手段と、
前記属性データに基づいて、前記第２テキストデータが示す翻訳結果の一部の言葉遣いを改変した第３テキストデータを生成し、生成した第３テキストデータを、前記動画ファイル内の画像を示すデータとともに出力する改変手段と
を具備することを特徴とする動画編集装置。
続きを表示（約 670 文字）【請求項２】
前記認識手段は、
前記動画ファイル内の音声の音声データに、ＦＦＴ処理を施し、ＦＦＴ処理により得られたスペクトラムデータに基づいて、当該音声を発した人物の属性を特定する属性認識処理手段を有する
ことを特徴とする請求項１に記載の動画編集装置。
【請求項３】
前記認識手段は、
前記動画ファイルにおける動画コンテンツの開始時から終了時までの間の音声データから、人の発声音の記録された部分の音声データのみを抽出する音声抽出手段と、
前記音声抽出手段により抽出された音声データを、各々がひとまとまりの発声音を示す複数の音声データに分割する分割手段と、
を具備し、
前記属性認識処理手段は、前記分割手段により分割された複数の音声データの各々について、当該音声を発した人物の属性を特定する
ことを特徴とする請求項２に記載の動画編集装置。
【請求項４】
コンピュータに、
処理対象の動画ファイル内の各音声を、前記音声を示す第１テキストデータ及び前記音声を発した人物の属性データとして認識する認識機能と、
前記第１テキストデータを、別の言語の第２テキストデータに翻訳する翻訳機能と、
前記属性データに基づいて、前記第２テキストデータが示す翻訳結果の一部の言葉遣いを改変した第３テキストデータを生成し、生成した第３テキストデータを、前記動画ファイル内の画像を示すデータとともに出力する改変機能と
を実現させるプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、動画ファイルを生成する技術に関し、特に、外国語の音声を含む動画ファイルから、字幕や吹替音声を含む動画ファイルを生成する技術に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
この種の技術を開示した文献として、特許文献１、２、３がある。特許文献１に記載された受信装置は、マルチメディアプレゼンテーションをバッファリングし、このマルチメディアプレゼンテーションのオーディオコンポーネント及びビデオコンポーネントを取り出し、オーディオコンポーネントに音声認識分析を施して字幕テキストデータを生成し、この字幕テキストデータを元のビデオコンポーネントに統合して出力する。特許文献２に記載された文字起こしサーバは、ユーザのプロファイルに従って、音声認識ユニットによって生成されたテキストをユーザのターゲット言語に翻訳し、翻訳結果である翻訳テキストをユーザの携帯端末に送信する。特許文献３に記載された機械翻訳機は、オンラインビデオサービスにおける時限テキストトラックを処理対象とし、時限テキストトラックの時限テキストを、所定の外国語に翻訳し、時限テキストを書き換えたオンラインビデオサービスのコンテンツをユーザのビューアクライアントに送信する。
【先行技術文献】
【特許文献】
【０００３】
米国特許第８７８１８２４号明細書
欧州特許第２７２５８１６号明細書
米国特許出願公開第２０１０／０１３８２０９号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、これまでに提案された動画コンテンツ吹替技術は、吹替音声におけるセリフや言説の言葉遣いが画一的であり、発言者の感情や言葉のニュアンスが視聴者に伝わり難いという問題があった。
【０００５】
本発明は、このような課題に鑑みてなされたものであり、動画コンテンツ内におけるセリフや言説を発した人物の属性に応じて、言葉遣いを調整できる技術的手段を提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記課題を解決するため、本発明の好適な態様である動画編集装置は、処理対象の動画ファイル内の各音声を、前記音声を示す第１テキストデータ及び前記音声を発した人物の属性データとして認識する認識手段と、前記第１テキストデータを、別の言語の第２テキストデータに翻訳する翻訳手段と、前記属性データに基づいて、前記第２テキストデータが示す翻訳結果の一部の言葉遣いを改変した第３テキストデータを生成し、生成した第３テキストデータを、前記動画ファイル内の画像を示すデータとともに出力する改変手段とを具備することを特徴とする。
【０００７】
この態様において、前記認識手段は、前記動画ファイル内の音声の音声データに、ＦＦＴ処理を施し、ＦＦＴ処理により得られたスペクトラムデータに基づいて、当該音声を発した人物の属性を特定する属性認識処理手段を有してもよい。
【０００８】
また、前記認識手段は、前記動画ファイルにおける動画コンテンツの開始時から終了時までの間の音声データから、人の発声音の記録された部分の音声データのみを抽出する音声抽出手段と、前記音声抽出手段により抽出された音声データを、各々がひとまとまりの発声音を示す複数の音声データに分割する分割手段と、を具備し、前記属性認識処理手段は、前記分割手段により分割された複数の音声データの各々について、当該音声を発した人物の属性を特定してもよい。
【０００９】
本発明の別の好適な態様であるプログラムは、コンピュータに、処理対象の動画ファイル内の各音声を、前記音声を示す第１テキストデータ及び前記音声を発した人物の属性データとして認識する認識機能と、前記第１テキストデータを、別の言語の第２テキストデータに翻訳する翻訳機能と、前記属性データに基づいて、前記第２テキストデータが示す翻訳結果の一部の言葉遣いを改変した第３テキストデータを生成し、生成した第３テキストデータを、前記動画ファイル内の画像を示すデータとともに出力する改変機能とを実現させる。
【発明の効果】
【００１０】
本発明によると、外国語の音声を含む動画コンテンツから、発言者の感情や言葉のニュアンスが視聴者に伝わり易い吹替音声情報を含む動画コンテンツを生成することができる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許