TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025133686
公報種別
公開特許公報(A)
公開日
2025-09-11
出願番号
2024214122
出願日
2024-12-09
発明の名称
2つのオーディオ信号の間のアラインメントの自動検出
出願人
ディズニー エンタープライジーズ インコーポレイテッド
,
イーティーエイチ・チューリッヒ(アイトゲネジュッシュ・テヒニシュア・ホーホシューレ・チューリッヒ)
,
ETH Zuerich (Eidgenoessische Technische Hochschule Zuerich)
代理人
弁理士法人鈴榮特許綜合事務所
主分類
G10L
25/51 20130101AFI20250904BHJP(楽器;音響)
要約
【課題】2つのオーディオ信号間の時間的オフセットを検出することで、同期化問題に対処する。
【解決手段】基準オーディオ同期化システム100は、第1のオーディオ信号の第1のサンプルを分析し、空間内の第1の表現を決定する予測ネットワーク分岐#1と、第2のオーディオ信号の第2のサンプルが分析し、空間内の複数の第2の表現を決定する予測ネットワーク分岐#2と、を含む予測ネットワーク及び第1の表現と複数の第2の表現とを比較し、第1のサンプルと第2のサンプルとの間のオフセットを出力するオフセット分析器を備える。
【選択図】図1
特許請求の範囲
【請求項1】
空間内の第1の表現を決定するために、第1のオーディオ信号の第1のサンプルを分析することと、
前記空間内の複数の第2の表現を決定するために、第2のオーディオ信号のための複数の第2のサンプルを分析することと、
第2の表現を選択するために、前記空間内の前記第1の表現と前記複数の第2の表現との間の、前記空間内の距離を比較することと、
前記第1のオーディオ信号内の前記第1のサンプルと、前記第2の表現に関連した前記第2のオーディオ信号内の第2のサンプルとの間のオフセットを決定することと、
前記オフセットを出力することと
を備える、方法。
続きを表示(約 1,200 文字)
【請求項2】
前記第1のサンプルを分析すること、および前記複数の第2のサンプルを分析することは、
モデルの第1の分岐を用いて、前記第1のサンプルを分析することと、
前記モデルの第2の分岐を用いて、前記複数の第2のサンプルを分析することと
を備える、請求項1に記載の方法。
【請求項3】
前記第1の分岐および前記第2の分岐は、前記空間内の、それぞれ第1の表現と第2の表現とを生成するために、同じロジックを含む、請求項2に記載の方法。
【請求項4】
前記第1の分岐は、第1の表現を生成するように訓練される第1のパラメータを備え、
前記第2の分岐は、第2の表現を生成するように訓練される第2のパラメータを備える、
請求項3に記載の方法。
【請求項5】
前記第1のサンプルに基づいて、時間期間を選択することと、
前記時間期間に基づいて、前記複数の第2のサンプルを選択することと
をさらに備える、請求項1に記載の方法。
【請求項6】
前記第1の表現と、前記複数の第2の表現とを比較することは、
前記第1の表現と、前記複数の第2の表現内の第2の表現との間の、前記空間内の距離を比較することと、
それぞれの前記距離に基づいて、前記複数の第2の表現から第2の表現を選択することと
を備える、請求項1に記載の方法。
【請求項7】
第2のサンプルを選択することは、
前記空間内の前記第1の表現までの最小距離を有する前記第2の表現に基づいて、前記複数の第2の表現から前記第2の表現を選択すること
を備える、請求項6に記載の方法。
【請求項8】
前記第1のサンプルは、前記第1のオーディオ信号内の第1のサンプルの第1のシーケンスからのものであり、
前記第2のサンプルは、前記第2のオーディオ信号内の第2のサンプルの第2のシーケンスからのものである、
請求項1に記載の方法。
【請求項9】
それぞれの第2のサンプルまでの前記第1のサンプルに対するオフセットを決定することと、
前記第1のサンプルに対する前記オフセットに基づいて、前記第1のシーケンスに対するオフセットを決定することと
をさらに備える、請求項8に記載の方法。
【請求項10】
第1の訓練オーディオサンプルと第2の訓練オーディオサンプルとのペア含む訓練データセットを決定することと、
第1の訓練表現と第2の訓練表現とを出力するために、モデルを用いて前記ペアを分析することと、
前記ペアに関連したラベルと、それぞれの第1の訓練表現と第2の訓練表現との間の距離とに基づいて、前記モデルのパラメータを調整することと
をさらに備える、請求項1に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
関連出願の相互参照
[0001]35 U.S.C.§119(e)に従って、本出願は、すべての目的に対してその全体が参照により本明細書に組み込まれている、「Automatic Detection of Alignment Between Two Audio Signals」という名称の、2024年3月1日に出願された、米国特許仮出願第63/560,419号の出願日の恩恵を有し、権利を主張するものである。
続きを表示(約 3,200 文字)
【背景技術】
【0002】
[0002]オーディオ品質管理は、企業にとって大部分は手作業のプロセスである。オーディオエラーは、コンテンツパイプライン内の多様な場所で生じ、コンテンツマスタリングからコンテンツ配給までずっと拡がり得る。オーディオとビデオとの不整列は、今日のメディア消費での最も気を散らす品質欠陥の1つである。オーディオとビデオでのわずかなオフセットであっても、視聴者には顕著になり得る。映画産業では、オーディオとビデオとの同期化問題は、視聴者の離脱への主な促進要因になり得る。媒体同期化問題は、無数の理由に対して生じるが、これらのエラーをより被りやすい1つのエリアは、ダビングである。いくつかの例では、ダビングされた媒体の視覚構成要素は不変であるが、オーディオトラックは、原語の翻訳された表現によって置き換えられる。新たなオーディオトラックを作り出し、挿入することは、結果として、オリジナルのオーディオトラックとの非同期化を生じ得る。ダビングされたコンテンツが人気において一貫して成長するのに従って、識別されない同期エラーの問題が、ますます広がっている。
【0003】
[0003]ダビングされた媒体の品質管理は、ほとんど手作業のプロセスになり得る。品質チェックは、オーディオにおける差異に対して聞くことを専門とするユーザ、または任意のエラーに対して生の波形を視覚的に比較する、品質管理作業者を含み得る。これらの主観的評価は、コストがかかり、非効率であり得、また小さな孤立したエラーを検出することができない。
【発明の概要】
【0004】
[0004]含まれた図面は、例示のためであり、開示される本発明のシステム、装置、方法、およびコンピュータプログラム製品に対する、可能な構造および動作の例をもたらすのに役立つためのみである。これらの図面は、開示される実装形態の思想および範囲から逸脱せずに、当業者によってなされ得る形および詳細における任意の変更を制限するものでは全くない。
【図面の簡単な説明】
【0005】
[0005]いくつかの実施形態による、オーディオ信号を分析するための簡略化されたシステムを示す図。
[0006]いくつかの実施形態による、予測ネットワークを訓練するための方法の簡略化されたフローチャートを示す図。
[0007]いくつかの実施形態による、オフセットを予測するための簡略化されたフローチャートを示す図。
[0008]いくつかの実施形態による、オフセット分析プロセスの例を示す図。
[0009]いくつかの実施形態による、検出され得るオフセットのグラフを示す図。
[0010]いくつかの実施形態による、コンピューティングデバイスの一例を示す図。
【発明を実施するための形態】
【0006】
[0011]本明細書で述べられるのは、オーディオ信号分析システムのための技法である。以下の記述では、説明のために、いくつかの実施形態の徹底的な理解をもたらすために、数多くの例および特定の詳細が記載される。特許請求項によって定義されるいくつかの実施形態は、これらの例単独での、または以下で述べられる他の特徴との組み合わせでの、いくつかまたはすべての特徴を含むことができ、ならびに本明細書で述べられる特徴および概念の、修正および等価物をさらに含み得る。
【0007】
[0012]システム概要
[0013]システムは、比較のために2つのオーディオ信号を受信する。オーディオ信号は、非限定的に、モノラル、ステレオ(2.0)、サラウンド(例えば、5.1、7.1)その他など、異なるタイプのオーディオ信号とすることができる。基準オーディオ信号は、ビデオの原語など、第1言語での第1のオーディオ信号とすることができる。目標オーディオ信号は、基準オーディオ信号に関係付けられ得る、第2のオーディオ信号とすることができる。例えば、目標オーディオ信号は、原語から翻訳された外国語など、任意の言語でのダビングされたオーディオ信号とすることができる。目標オーディオ信号はまた、基準オーディオ信号のエンコードされたバージョン、ナレーショントラック(基準オーディオ信号と混合された記述)、または基準オーディオ信号からの任意の派生的オーディオ信号とすることができる。システムは、2つのオーディオ信号を比較して、信号の間のオフセットを決定する。ビデオに対しては、複数の外国語での、複数のダビングされたオーディオ信号が存在し得る。システムは、基準オーディオ信号と、各々のダビングされたオーディオ信号との間の、以下の分析を行い得る。各基準オーディオ信号と、ダビングされたオーディオ信号とのペアは、検出され得る異なるオフセット問題を有し得る。
【0008】
[0014]いくつかの実施形態では、予測ネットワークは、2つのオーディオ信号から特徴を抽出する、2つの分岐を含む。例えば、第1の分岐は、基準オーディオ信号から特徴を抽出し、第2の分岐は、ダビングされたオーディオ信号から特徴を抽出する。各分岐は、ある時間期間に対応する、それぞれのオーディオ信号のサンプルを受信する。時間期間は、bがaよりt秒だけ大きいとして、aからbまでのタイムスタンプからの生のオーディオのサンプルなどの同じ時間期間、または異なる時間期間からのものとすることができる。各分岐は、それぞれのサンプルの、より高次元の空間での表現を出力する。システムは、2つのオーディオ信号に対する出力を比較して、2つのオーディオ信号の間の時間的オフセットを決定する。オフセットを決定するために、異なる方法が用いられることが可能であり、これは以下で述べられる。オフセット問題は、2つのオーディオ信号の全体にわたって、複数のサンプルを分析することに基づいて決定され得る。例えば、オフセットは、最初にタイムスタンプ0s~10s、次いで10s~20sなどに対して計算される。この説明では、10秒、200ミリ秒、20ミリ秒など、ある特定の時間期間が用いられるが、これらの時間期間は単なる例であり、他の時間期間が用いられ得る。これは、基準オーディオ信号および目標オーディオ信号内に存在し得る、オフセットのタイプをより詳細に見ることを可能にする。システムは、オーディオ信号の間のオフセットを決定し、同期化問題に対処するために、そのオフセットを用いて、ダビングされたオーディオ信号を調整することができる。
【0009】
[0015]システムは、ダビングプロセスにおいて生じ得る、複数の問題を認識するように訓練され得る。例えば、システムは、一定オフセットおよびドリフトオフセットにさらにグループ化され得る、全体的オフセットと、オーディオ信号の一部分の間の孤立した/1回限りのオフセットである、間欠的オフセット(例えば、無音、全く異なるオーディオファイルからの相関のないオーディオ、または一時的シフトなど)とを、認識することができ得る。全体的オフセットは、ビデオ全体にわたって生じるオフセットとすることができる。一定オフセットは、ビデオ全体にわたって一定である。ドリフトオフセットは、ある方向へビデオ全体にわたってドリフトし得る。間欠的オフセットは、ビデオの孤立した部分で生じ得る、孤立したオフセットとすることができる。音声問題は、背景キューのみを含むオーディオの部分と比べて、対話のみを含むシーケンスにおいて生じ得る。
【0010】
[0016]品質管理分析が用いられ得るいくつかのユースケースは、以下を含む。
(【0011】以降は省略されています)
特許ウォッチbot のツイートを見る
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
破裂爆発波動体感バルーン
19日前
株式会社白鳩
音漏れ抑制マスク
13日前
株式会社白鳩
音漏れ抑制マスク
13日前
積水化学工業株式会社
吸音構造体
1か月前
株式会社イシダ
商品処理装置
1か月前
川崎重工業株式会社
表面材
15日前
ヤマハ株式会社
リード
1か月前
日本音響エンジニアリング株式会社
騒音低減装置
18日前
株式会社フジタ
環境音快音化システム
18日前
株式会社イノアックコーポレーション
吸音材
6日前
個人
歌唱技術表示装置および歌唱技術表示方法
21日前
NOK株式会社
吸音構造体
1か月前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
7日前
株式会社第一興商
カラオケ装置
15日前
KDDI株式会社
認証装置、認証方法及び認証プログラム
6日前
シャープ株式会社
電子機器および電子機器の制御方法
1か月前
個人
楽曲検索装置、楽曲検索方法、及び楽曲検索プログラム
22日前
株式会社エクシング
端末装置、及び、端末装置用プログラム
1か月前
トヨタ自動車株式会社
防音カバー
1か月前
マツダ株式会社
内燃機関の吸気音増幅装置
28日前
トヨタ自動車株式会社
電気自動車
7日前
株式会社麗光
防音積層体とその製造に用いる遮音膜、および遮音膜シート
1か月前
富士通株式会社
情報処理プログラム、情報処理方法及び情報処理装置
1か月前
宮澤フル-ト製造株式会社
タンポ及び木管楽器
26日前
ローランド株式会社
打楽器および打面の形成方法
14日前
カシオ計算機株式会社
演奏装置、方法およびプログラム
22日前
ローランド株式会社
打楽器および取付部材の取付方法
14日前
株式会社SOKEN
吸音構造体
22日前
本田技研工業株式会社
能動型効果音発生装置及び能動型効果音生成方法
29日前
株式会社東芝
異常要因推定システム、方法及びプログラム
26日前
公立大学法人広島市立大学
音質改善装置、音質改善方法及びプログラム
25日前
セイコーエプソン株式会社
音声出力方法、プロジェクター及びプログラム
21日前
トヨタ自動車株式会社
車両制御方法及び車両制御装置
15日前
株式会社ドワンゴ
再生装置、再生方法、プログラム、および再生システム
1か月前
トヨタ自動車株式会社
車両管理システム及び電気自動車
27日前
続きを見る
他の特許を見る