TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024153628
公報種別
公開特許公報(A)
公開日
2024-10-29
出願番号
2024103916,2022128735
出願日
2024-06-27,2016-03-08
発明の名称
符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
出願人
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
代理人
弁理士法人岡田特許事務所
主分類
G10L
19/022 20130101AFI20241022BHJP(楽器;音響)
要約
【課題】オーディオ信号を処理するデコーダ、エンコーダ、復号方法、符号化方法及びプログラムを提供する。
【解決手段】デコーダ2は、適応型スペクトル-時間変換器6とオーバーラップ加算プロセッサ8と、を含む。適応型スペクトル-時間変換器6は、連続するスペクトル値4’のブロックを例えば周波数-時間変換を介して、時間値の連続するブロック10に変換し、制御情報12を受信し、且つ、制御情報12に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で切り替える。オーバーラップ加算プロセッサ8は、時間値10の連続するブロックをオーバーラップして加算し、復号されたオーディオ値14を得る。復号されたオーディオ値14は、復号されたオーディオ信号であってもよい。
【選択図】図1
特許請求の範囲
【請求項1】
符号化されたオーディオ信号(4)を復号するためのデコーダ(2)であって、
前記デコーダは、
スペクトル値(4’、4’’)の連続するブロックを時間値(10)の連続するブロックに変換する適応型スペクトル-時間変換器(6)、および
復号化されたオーディオ値(14)を得るために、時間値(10)の連続するブロックを重ね合わせて加算するためのオーバーラップ加算プロセッサ(8)を含み、
前記適応型スペクトル-時間変換器(6)は、制御情報(12)を受信し、前記制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるように構成される、デコーダ。
続きを表示(約 2,500 文字)
【請求項2】
前記変換カーネルの第1のグループは、前記カーネルの左側に奇数対称性を有し、右側に偶数対称性を有する、またはその逆の1つ以上の変換カーネルを有する、あるいは前記変換カーネルの第2のグループは、前記カーネルの両側に偶数対称性または奇数対称性を有する1つ以上の変換カーネルを有する、請求項1に記載のデコーダ(2)。
【請求項3】
前記変換カーネルの第1のグループは、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含む、あるいは前記変換カーネルの第2のグループは、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含む、請求項1または請求項2に記載のデコーダ(2)。
【請求項4】
前記第1のグループおよび前記第2のグループの前記変換カーネルは、以下の式に基づいていて、
JPEG
2024153628000012.jpg
17
133
前記第1のグループの前記少なくとも1つの変換カーネルは、
cs( )=cos( )および k
0
=0.5
または
cs( )=sin( )および k
0
=0.5
のパラメータに基づいており、
または
前記第2のグループの少なくとも1つの変換カーネルは、
cs( )=cos( )および k
0
=0
または
cs( )=sin( )および k
0
=1
のパラメータに基づいており、
ここで、x
i,n
は時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であり、specはブロックについてM個の値を有するスペクトル値であり、MはN/2に等しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n
0
は整数またはゼロである定数パラメータである、請求項1~請求項3のいずれか1項に記載のデコーダ(2)。
【請求項5】
前記制御情報(12)は、現在のフレームについての現在の対称性を示す現在のビットを含み、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前のフレームで使用されたのと同じ対称性を示すとき、前記第1のグループから前記第2のグループに切り替わらないように構成され、
前記適応型スペクトル-時間変換器は、前記現在のビットが前記前のフレームで使用されたものとは異なる対称性を示すとき、前記第1のグループから前記第2のグループに切り替えるように構成される、請求項1~請求項4のいずれか1項に記載のデコーダ(2)。
【請求項6】
前記適応型スペクトル-時間変換器(6)は、現在のフレームの現在の対称性を示す現在のビットが前記前のフレームで使用されたものと同じ対称性を示すとき、前記第2のグループを前記第1のグループに切り替えるように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されていたものとは異なる対称性を有する前記現在のフレームの現在の対称性を示すとき、前記第2のグループから前記第1のグループに切り替わらないように構成される、請求項1~請求項5のいずれか1項に記載のデコーダ(2)。
【請求項7】
前記適応型スペクトル-時間変換器(6)は、前のフレームについての制御情報(12)を符号化されたオーディオ信号(4)から、および前記前のフレームに続く現在のフレームについての制御情報を前記現在のフレームの制御データセクション内の前記符号化されたオーディオ信号から読み出すように構成される、あるいは
前記適応型スペクトル-時間変換器(6)は、前記現在のフレームの前記制御データセクションから前記制御情報(12)を読み出し、前記前のフレームの制御データセクションから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームについての前記制御情報(12)を取り出すように構成されている、請求項1~請求項6のい
ずれか1項に記載のデコーダ(2)。
【請求項8】
前記適応型スペクトル-時間変換器(6)は、以下の表に基づいて変換カーネルを適用するように構成されており:
JPEG
2024153628000013.jpg
55
161
ここでsymm
i
は、インデックスiにおける前記現在のフレームの制御情報であり、前記symm
i-1
は、インデックスi
-1
における前記前のフレームの制御情報である、
請求項1~請求項7のいずれか1項に記載のデコーダ(2)。
【請求項9】
第1のマルチチャネルおよび第2のマルチチャネルについてのスペクトル値の処理されたブロックを得るために、前記第1および前記第2のマルチチャネルを表すスペクトル値のブロックを受信し、ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理するためのマルチチャネルプロセッサ(40)をさらに含み、前記適応型スペクトル-時間プロセッサ(6)は、前記第1のマルチチャネルのための制御情報を使用して前記第1のマルチチャネルのための前記処理されたブロックを、および前記第2のマルチチャネルのための制御情報を使用して前記第2のマルチチャネルのための前記処理されたブ
ロックを処理するように構成される、請求項1~請求項8のいずれか1項に記載のデコーダ(2)。
【請求項10】
前記マルチチャネルプロセッサは、前記第1および前記第2のマルチチャネルを表す前記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するように構成される、請求項9に記載のデコーダ(2)。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本発明は、本発明は、符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダに関する。実施形態は、オーディオ符号化における信号適応変換カーネルスイッチングのための方法および装置を示す。言い換えると、本発明は、オーディオ符号化に関し、特に、例えば、修正された離散コサイン変換(MDCT)[1]等のラップ変換による知覚オーディオ符号化に関する。
続きを表示(約 2,300 文字)
【背景技術】
【0002】
MP3、Opus、(Celt)、HE-AACファミリ、新しいMPEG-H 3Dオーディオおよび3GPPエンハンスドボイスサービス(EVS)コーデックを含む現代的な知覚オーディオコーデックはすべて、スペクトル領域の量子化と符号化にMDCTを採用しているか、または、それ以上のチャネル波形を生成する。長さ-Mスペクトルspec[]を使用するこの重複変換の合成バージョンは、M=N/2で時間窓の長さである次式(1)によって与えられる。
JPEG
2024153628000002.jpg
11
152
窓掛け処理の後、時間出力x
i,n
はオーバーラップ・アンド・アッド(OLA)プロセスによって前の時間出力x
i-1,n
と組み合わされる。Cは、0より大きいか又は1以下の定数パラメータであってもよく、例えば、2/Nとなる。
【0003】
上式(1)のMDCTは、様々なビットレートで任意のチャネルの高品質オーディオコーディングに適しているが、コーディング品質が不十分な場合がある。
例えば、
・各高調波が複数のMDCTビンによって表されるように、MDCTを介してサンプリン
グされた特定の基本周波数を有する高調波信号である。これは、スペクトル領域におい
て準最適エネルギー圧縮、すなわち低い符号化利得を導く。
・従来のM/Sステレオベースのジョイントチャネルコーディングでは利用できない、チ
ャネルのMDCTビン間で約90度の位相シフトを持つステレオ信号を生成する。チャ
ネル間位相差(IPD)の符号化を含むより高度なステレオ符号化は、例えば、HE-
AACのパラメトリックステレオまたはMPEGサラウンドを使用しているが、このよ
うなツールは別のフィルタバンクドメインで動作し、複雑さが増している。
【0004】
いくつかの学術論文や論文には、MDCTやMDSTのような操作が記述されている。これらの操作には、「重複直交変換(LOT)」、「拡張重複変換(ELT)」、「変調重複変換(MLT)」などがあります。[4]だけが同時にいくつかの異なる重複変換を述べているが、MDCTの前述の欠点を克服していない。
【0005】
したがって、改善されたアプローチが必要である。
【先行技術文献】
【非特許文献】
【0006】
H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
J.P. Princen, A. W. Johnson, and A. B. Bradley,"Subband/transform coding using filter bank design based on time domain aliasing ancellation," in IEEE ICASSP, vol. 12, 1987.
H.S.Malvar,"Lapped Transforms for Efficient Transform/Subband Coding,"IEEE Trans.Acoustics,Speech,and Signal Proc., 1990.
http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、オーディオ信号を処理するための改良された概念を提供することである。この目的は、独立請求項の主題によって解決される。
【課題を解決するための手段】
【0008】
本発明は、変換カーネルの信号適応的変化または置換が、本MDCT符号化の前述の種類の課題を克服する可能性があるという知見に基づいている。実施形態によれば、本発明は、3つの他の同様の変換を含むようにMDCT符号化原則を一般化することによって、従来の変換符号化に関する上記2つの課題に対処する。上記した式(1)の合成式に従って、この提案された一般化を次式(2)と定義する。
JPEG
2024153628000003.jpg
14
151
【0009】
1/2定数はk
0
定数に置き換えられ、cos(...)関数はcs(...)関数で置き換
えられていることに注意して下さい。k
0
とcs(...)はどちらも信号とコンテキスト適応的に選択される。
【0010】
実施形態によれば、MDCT符号化パラダイムの提案された修正は、例えば、前述の課題またはケースが扱われるように、フレームごとの瞬時入力特性に適応することができる。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
他の特許を見る