特許ウォッチ

公開番号2025163020
公報種別公開特許公報(A)
公開日2025-10-28
出願番号2025112733,2024103916
出願日2025-07-03,2016-03-08
発明の名称符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
出願人フラウンホッファー-ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー.ファオ
代理人弁理士法人岡田特許事務所
主分類G10L 19/02 20130101AFI20251021BHJP(楽器;音響)
要約【課題】オーディオ符号化における信号適応変換カーネルスイッチングのための方法および装置を提供する。
【解決手段】デコーダ2は、適応型スペクトル-時間変換器6とオーバーラップ加算プロセッサ8とを含む。適応型スペクトル-時間変換器6は、連続するスペクトル値4’のブロックを周波数-時間変換を介して時間値の連続するブロック10に変換し、さらに、制御情報12に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループと、を切り替える。オーバーラップ加算プロセッサ8は、時間値10の連続するブロックをオーバーラップして加算して復号されたオーディオ値14を生成する。
【選択図】図1
特許請求の範囲【請求項１】
符号化されたオーディオ信号（４）を復号するためのデコーダ（２）であって、
前記デコーダは、
スペクトル値（４’、４’’）の連続するブロックを時間値（１０）の連続するブロッ
クに変換する適応型スペクトル－時間変換器（６）、および
復号化されたオーディオ値（１４）を得るために、時間値（１０）の連続するブロック
を重ね合わせて加算するためのオーバーラップ加算プロセッサ（８）を含み、
前記適応型スペクトル－時間変換器（６）は、制御情報（１２）を受信し、前記制御情
報に応じて、カーネルの両側に異なる対称性を有する１つ以上の変換カーネルを含む変換
カーネルの第１のグループと、変換カーネルの両側に同じ対称性を有する１つ以上の変換
カーネルを含む変換カーネルの第２のグループとの間で、切り替えるように構成される、
デコーダ。
続きを表示（約 2,700 文字）【請求項２】
前記変換カーネルの第１のグループは、前記カーネルの左側に奇数対称性を有し、右側
に偶数対称性を有する、またはその逆の１つ以上の変換カーネルを有する、あるいは前記
変換カーネルの第２のグループは、前記カーネルの両側に偶数対称性または奇数対称性を
有する１つ以上の変換カーネルを有する、請求項１に記載のデコーダ（２）。
【請求項３】
前記変換カーネルの第１のグループは、逆ＭＤＣＴ－ＩＶ変換カーネルまたは逆ＭＤＳ
Ｔ－ＩＶ変換カーネルを含む、あるいは前記変換カーネルの第２のグループは、逆ＭＤＣ
Ｔ－ＩＩ変換カーネルまたは逆ＭＤＳＴ－ＩＩ変換カーネルを含む、請求項１または請求
項２に記載のデコーダ（２）。
【請求項４】
前記第１のグループおよび前記第２のグループの前記変換カーネルは、以下の式に基づ
いていて、
JPEG
2025163020000012.jpg
17
133
前記第１のグループの前記少なくとも１つの変換カーネルは、
ｃｓ（）＝ｃｏｓ（）およびｋ
0
＝０．５
または
ｃｓ（）＝ｓｉｎ（）およびｋ
0
＝０．５
のパラメータに基づいており、
または
前記第２のグループの少なくとも１つの変換カーネルは、
ｃｓ（）＝ｃｏｓ（）およびｋ
0
＝０
または
ｃｓ（）＝ｓｉｎ（）およびｋ
0
＝１
のパラメータに基づいており、
ここで、ｘ
i,n
は時間領域出力であり、Ｃは定数パラメータであり、Ｎは時間窓長であ
り、ｓｐｅｃはブロックについてＭ個の値を有するスペクトル値であり、ＭはＮ／２に等
しく、ｉは時間ブロックインデックスであり、ｋはスペクトル値を示すスペクトルインデ
ックスであり、ｎはブロックｉにおける時間値を示す時間インデックスであり、ｎ
0
は整
数またはゼロである定数パラメータである、請求項１～請求項３のいずれか１項に記載の
デコーダ（２）。
【請求項５】
前記制御情報（１２）は、現在のフレームについての現在の対称性を示す現在のビット
を含み、
前記適応型スペクトル－時間変換器（６）は、前記現在のビットが前のフレームで使用
されたのと同じ対称性を示すとき、前記第１のグループから前記第２のグループに切り替
わらないように構成され、
前記適応型スペクトル－時間変換器は、前記現在のビットが前記前のフレームで使用さ
れたものとは異なる対称性を示すとき、前記第１のグループから前記第２のグループに切
り替えるように構成される、請求項１～請求項４のいずれか１項に記載のデコーダ（２）
。
【請求項６】
前記適応型スペクトル－時間変換器（６）は、現在のフレームの現在の対称性を示す現
在のビットが前記前のフレームで使用されたものと同じ対称性を示すとき、前記第２のグ
ループを前記第１のグループに切り替えるように構成され、
前記適応型スペクトル－時間変換器（６）は、前記現在のビットが前記前のフレームで
使用されていたものとは異なる対称性を有する前記現在のフレームの現在の対称性を示す
とき、前記第２のグループから前記第１のグループに切り替わらないように構成される、
請求項１～請求項５のいずれか１項に記載のデコーダ（２）。
【請求項７】
前記適応型スペクトル－時間変換器（６）は、前のフレームについての制御情報（１２
）を符号化されたオーディオ信号（４）から、および前記前のフレームに続く現在のフレ
ームについての制御情報を前記現在のフレームの制御データセクション内の前記符号化さ
れたオーディオ信号から読み出すように構成される、あるいは
前記適応型スペクトル－時間変換器（６）は、前記現在のフレームの前記制御データセ
クションから前記制御情報（１２）を読み出し、前記前のフレームの制御データセクショ
ンから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームにつ
いての前記制御情報（１２）を取り出すように構成されている、請求項1～請求項６のい
ずれか１項に記載のデコーダ（２）。
【請求項８】
前記適応型スペクトル－時間変換器（６）は、以下の表に基づいて変換カーネルを適用
するように構成されており：
JPEG
2025163020000013.jpg
55
161
ここでｓｙｍｍ
i
は、インデックスｉにおける前記現在のフレームの制御情報であり、
前記ｓｙｍｍ
i-1
は、インデックスｉ
-1
における前記前のフレームの制御情報である、
請求項１～請求項７のいずれか１項に記載のデコーダ（２）。
【請求項９】
第１のマルチチャネルおよび第２のマルチチャネルについてのスペクトル値の処理され
たブロックを得るために、前記第１および前記第２のマルチチャネルを表すスペクトル値
のブロックを受信し、ジョイントマルチチャネル処理技術に従って前記受信したブロック
を処理するためのマルチチャネルプロセッサ（４０）をさらに含み、前記適応型スペクト
ル－時間プロセッサ（６）は、前記第１のマルチチャネルのための制御情報を使用して前
記第１のマルチチャネルのための前記処理されたブロックを、および前記第２のマルチチ
ャネルのための制御情報を使用して前記第２のマルチチャネルのための前記処理されたブ
ロックを処理するように構成される、請求項１～請求項８のいずれか１項に記載のデコー
ダ（２）。
【請求項１０】
前記マルチチャネルプロセッサは、前記第１および前記第２のマルチチャネルを表す前
記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するよ
うに構成される、請求項９に記載のデコーダ（２）。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、本発明は、符号化されたオーディオ信号を復号するためのデコーダおよびオ
ーディオ信号を符号化するためのエンコーダに関する。実施形態は、オーディオ符号化に
おける信号適応変換カーネルスイッチングのための方法および装置を示す。言い換えると
、本発明は、オーディオ符号化に関し、特に、例えば、修正された離散コサイン変換（Ｍ
ＤＣＴ）［１］等のラップ変換による知覚オーディオ符号化に関する。
続きを表示（約 2,400 文字）【背景技術】
【０００２】
ＭＰ3、Ｏｐｕｓ、（Ｃｅｌｔ）、ＨＥ－ＡＡＣファミリ、新しいＭＰＥＧ－Ｈ３Ｄオ
ーディオおよび３ＧＰＰエンハンスドボイスサービス（ＥＶＳ）コーデックを含む現代的
な知覚オーディオコーデックはすべて、スペクトル領域の量子化と符号化にＭＤＣＴを採
用しているか、または、それ以上のチャネル波形を生成する。長さ－Ｍスペクトルｓｐｅ
ｃ［］を使用するこの重複変換の合成バージョンは、Ｍ＝Ｎ／２で時間窓の長さである次
式（１）によって与えられる。
JPEG
2025163020000002.jpg
11
152
窓掛け処理の後、時間出力ｘ
i,n
はオーバーラップ・アンド・アッド（ＯＬＡ）プロセ
スによって前の時間出力ｘ
i-1,n
と組み合わされる。Ｃは、０より大きいか又は１以下の
定数パラメータであってもよく、例えば、２／Ｎとなる。
【０００３】
上式（１）のＭＤＣＴは、様々なビットレートで任意のチャネルの高品質オーディオコ
ーディングに適しているが、コーディング品質が不十分な場合がある。
例えば、
・各高調波が複数のＭＤＣＴビンによって表されるように、ＭＤＣＴを介してサンプリン
グされた特定の基本周波数を有する高調波信号である。これは、スペクトル領域におい
て準最適エネルギー圧縮、すなわち低い符号化利得を導く。
・従来のＭ／Ｓステレオベースのジョイントチャネルコーディングでは利用できない、チ
ャネルのＭＤＣＴビン間で約９０度の位相シフトを持つステレオ信号を生成する。チャ
ネル間位相差（ＩＰＤ）の符号化を含むより高度なステレオ符号化は、例えば、ＨＥ－
ＡＡＣのパラメトリックステレオまたはＭＰＥＧサラウンドを使用しているが、このよ
うなツールは別のフィルタバンクドメインで動作し、複雑さが増している。
【０００４】
いくつかの学術論文や論文には、ＭＤＣＴやＭＤＳＴのような操作が記述されている。
これらの操作には、「重複直交変換（ＬＯＴ）」、「拡張重複変換（ＥＬＴ）」、「変調
重複変換（ＭＬＴ）」などがあります。［４］だけが同時にいくつかの異なる重複変換を
述べているが、ＭＤＣＴの前述の欠点を克服していない。
【０００５】
したがって、改善されたアプローチが必要である。
【先行技術文献】
【非特許文献】
【０００６】
H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
J.P. Princen, A. W. Johnson, and A. B. Bradley,"Subband/transform coding using filter bank design based on time domain aliasing ancellation," in IEEE ICASSP, vol. 12, 1987.
H.S.Malvar,"Lapped Transforms for Efficient Transform/Subband Coding,"IEEE Trans.Acoustics,Speech,and Signal Proc., 1990.
http://en.wikipedia.org/wiki/Modified＿discrete＿cosine＿transform
【発明の概要】
【発明が解決しようとする課題】
【０００７】
本発明の目的は、オーディオ信号を処理するための改良された概念を提供することであ
る。この目的は、独立請求項の主題によって解決される。
【課題を解決するための手段】
【０００８】
本発明は、変換カーネルの信号適応的変化または置換が、本ＭＤＣＴ符号化の前述の種
類の課題を克服する可能性があるという知見に基づいている。実施形態によれば、本発明
は、３つの他の同様の変換を含むようにＭＤＣＴ符号化原則を一般化することによって、
従来の変換符号化に関する上記２つの課題に対処する。上記した式（１）の合成式に従っ
て、この提案された一般化を次式（２）と定義する。
JPEG
2025163020000003.jpg
14
151
【０００９】
１／２定数はｋ
0
定数に置き換えられ、ｃｏｓ（...）関数はｃｓ（...）関数で置き換
えられていることに注意して下さい。ｋ
0
とｃｓ（...）はどちらも信号とコンテキスト適
応的に選択される。
【００１０】
実施形態によれば、ＭＤＣＴ符号化パラダイムの提案された修正は、例えば、前述の課
題またはケースが扱われるように、フレームごとの瞬時入力特性に適応することができる
。
（【００１１】以降は省略されています）

関連特許