特許ウォッチ

公開番号2025075437
公報種別公開特許公報(A)
公開日2025-05-15
出願番号2023186606
出願日2023-10-31
発明の名称情報処理装置、情報処理方法、及びプログラム
出願人株式会社JVCケンウッド
代理人個人
主分類G10L 25/54 20130101AFI20250508BHJP(楽器;音響)
要約【課題】コンテンツの音声をユーザの好みに応じて適切に再生することが可能な情報処理装置を提供すること。
【解決手段】本開示にかかる情報処理装置1は、特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得部11と、コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得部12と、特定音声特徴量とコンテンツ音声特徴量とに基づいて、コンテンツにおいて特定人物の音声が含まれる区間を特定音声区間として特定する特定部13と、を備える。
【選択図】図1
特許請求の範囲【請求項１】
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得部と、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得部と、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定部と、を備える
情報処理装置。
続きを表示（約 630 文字）【請求項２】
前記コンテンツに対して音声処理を行う音声処理部をさらに備え、
前記音声処理部は、前記特定音声区間に対し、前記特定音声区間以外の区間とは異なる音声処理を行う
請求項１に記載の情報処理装置。
【請求項３】
前記コンテンツを再生する再生部をさらに備え、
前記再生部は、複数の前記特定音声区間を連続で再生する
請求項１又は２に記載の情報処理装置。
【請求項４】
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得ステップと、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得ステップと、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定ステップと、を備える
情報処理方法。
【請求項５】
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得ステップと、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得ステップと、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定ステップと、をコンピュータに実行させる
プログラム。

発明の詳細な説明【技術分野】
【０００１】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
続きを表示（約 1,700 文字）【背景技術】
【０００２】
アニメーションや映画などのコンテンツに対して加工を行い、コンテンツに所定の効果を加える技術が知られている。関連する技術として、特許文献１は、映像データと、当該映像データに関連する音声データとを再生する再生装置を開示する。当該再生装置は、音声処理部から供給された音声データを解析し、解析した音声データが所定のパターンに対応する場合に、映像処理部から供給された映像データに所定の特殊効果を加える。例えば、当該再生装置は、解析した音声データが拍手の音の周波数特性のパターンに対応する場合、紙吹雪が舞う様子を表す複数枚の画像データを映像データに合成する。
【先行技術文献】
【特許文献】
【０００３】
特開２００４－１５９２５７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
コンテンツの音声データを加工する場合、音声データに適した加工が行われることが望ましい。例えば、アニメーションのコンテンツを視聴するユーザには、ユーザの好みの声優（いわゆる「推し」の声優）がいる場合がある。コンテンツ全体に一様な加工処理を行った場合、好みの声優の声に合っていない加工が行われる可能性がある。このような加工が行われた場合、ユーザの好みに応じたコンテンツの再生は困難である。
【０００５】
本開示の目的は、上述した課題を鑑み、コンテンツの音声をユーザの好みに応じて適切に再生することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【０００６】
本開示にかかる情報処理装置は、
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得部と、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得部と、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定部と、を備えるものである。
【０００７】
本開示にかかる情報処理方法は、
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得ステップと、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得ステップと、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定ステップと、を備えるものである。
【０００８】
本開示にかかるプログラムは、
特定人物の音声の特徴量を示す特定音声特徴量を取得する特定音声取得ステップと、
コンテンツに含まれる音声の特徴量を示すコンテンツ音声特徴量を取得するコンテンツ音声取得ステップと、
前記特定音声特徴量と前記コンテンツ音声特徴量とに基づいて、前記コンテンツにおいて前記特定人物の音声が含まれる区間を特定音声区間として特定する特定ステップと、をコンピュータに実行させるものである。
【発明の効果】
【０００９】
本開示にかかる情報処理装置、情報処理方法、及びプログラムは、コンテンツの音声をユーザの好みに応じて適切に再生することができる。
【図面の簡単な説明】
【００１０】
実施形態にかかる情報処理装置の構成を示すブロック図である。
実施形態にかかる特定音声特徴量の抽出処理の流れを示すフローチャートである。
実施形態にかかる情報処理装置が行う処理を具体的に説明するための図である。
実施形態にかかる特定音声区間の特定処理の流れを示すフローチャートである。
実施形態にかかるコンテンツの再生処理の流れを示すフローチャートである。
【発明を実施するための形態】
（【００１１】以降は省略されています）

関連特許