特許ウォッチ

公開番号2025032135
公報種別公開特許公報(A)
公開日2025-03-11
出願番号2024200650,2022130470
出願日2024-11-18,2015-07-23
発明の名称スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオデコーダ、方法及びコンピュータプログラム
出願人フラウンホッファー-ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー.ファオ
代理人弁理士法人岡田特許事務所
主分類G10L 19/20 20130101AFI20250304BHJP(楽器;音響)
要約【課題】異なる符号化モードの間でのスイッチングのために改善された特性を備えるオーディオデコーダを提供する。
【解決手段】オーディオデコーダは、線形予測領域において符号化されるオーディオフレームに基づいて第1の復号化オーディオ情報を提供する線形予測領域デコーダと、周波数領域において符号化されるオーディオフレームに基づいて第2の復号化オーディオ情報を提供する周波数領域デコーダと、線形予測フィルタリングのゼロ入力応答を取得する遷移処理装置と、を備える。線形予測フィルタリングの初期状態は、第1の復号化オーディオ情報及び第2の復号化オーディオ情報に従って定義され、第2の復号化オーディオ情報はゼロ入力応答に依存して修正される。
【選択図】図1
特許請求の範囲【請求項１】
符号化オーディオ情報（１１０；２１０；３１０）に基づいて復号化オーディオ情報（１１２；２１２；３１２）を提供するオーディオデコーダ（１００；２００；３００）であって、前記オーディオデコーダは、
線形予測領域において符号化されるオーディオフレームに基づいて第１の復号化オーディオ情報（１２２；２２２；３２２；Ｓ
C
（ｎ））を提供するように構成される線形予測領域デコーダ（１２０；２２０；３２０）と、
周波数領域において符号化されるオーディオフレームに基づいて第２の復号化オーディオ情報（１３２；２３２；３３２；Ｓ
M
（ｎ））を提供するように構成される周波数領域デコーダ（１３０；２３０；３３０）と、
遷移処理装置（１４０；２４０；３４０）と、を備え、
前記遷移処理装置は、線形予測フィルタリング（１４８；２５４；３４６）のゼロ入力応答（１５０；２５６；３４８）を取得するように構成され、前記線形予測フィルタリングの初期状態（１４６；２５２；３４４）は、前記第１の復号化オーディオ情報及び前記第２の復号化オーディオ情報に依存して定義され、且つ
JPEG
2025032135000027.jpg
33
169
続きを表示（約 2,200 文字）【請求項２】
請求項１に記載のオーディオデコーダであって、
JPEG
2025032135000028.jpg
121
170
【請求項３】
請求項１又は２に記載のオーディオデコーダ（１００；２００；３００）であって、前記第２の復号化オーディオ情報（１３２；２３２；３３２）がエイリアシングを含むように、前記周波数領域デコーダ（１３０；２３０；３３０）は、逆重複変換を実行するように構成される、オーディオデコーダ。
【請求項４】
請求項１若しくは２又は３に記載のオーディオデコーダ（１００；２００；３００）であって、前記線形予測領域デコーダ（１２０；２２０；３２０）が第１の復号化オーディオ情報（１２２；２２２；３２２）を備えるために、前記第２の復号化オーディオ情報（１３２；２３２；３３２）が時間部と時間的に重複する時間部においてエイリアシングを備えるように、且つ前記線形予測領域デコーダが第１の復号化オーディオ情報を提供するために、前記第２の復号化オーディオ情報が時間部の後に続く前記時間部のためにエイリアシングがないように、前記周波数領域デコーダ（１３０；２３０；３３０）は、逆重複変換を実行するように構成される、オーディオデコーダ。
【請求項５】
JPEG
2025032135000029.jpg
26
170
【請求項６】
JPEG
2025032135000030.jpg
31
169
【請求項７】
請求項１～６の１つに記載のオーディオデコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、
JPEG
2025032135000031.jpg
125
170
ｍは、実行（ｒｕｎｎｉｎｇ）変数を示し、
Ｍは、線形予測フィルタのフィルタ長を示し、
ａ
m
は、線形予測フィルタのフィルタ係数を示し、
Ｓ
C
（ｎ）は、時間インデックスｎに対する前記第１の復号化オーディオ情報（１２２；２２２；３２２）の以前に復号化された値を示し、
Ｎは、処理長を示す、オーディオデコーダ。
【請求項８】
請求項１～７の１に記載のオーディオデコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、第１のウィンドウ処理（（ｗ（－ｎ－１）ｗ（－ｎ－１））を前記第１の復号化オーディオ情報（１２２；２２２；３２２；Ｓ
C
（ｎ））に適用して前記第１の復号化オーディオ情報のウィンドウ処理バージョンを取得するように構成され、且つ第２のウィンドウ処理（ｗ（ｎ＋Ｌ）ｗ（－ｎ－１））を前記第１の復号化オーディオ情報（１２２；２２２；３２２；Ｓ
C
（ｎ））の前記時間鏡映バージョン（Ｓ
C
（－ｎ－Ｌ－１））に適用して前記第１の復号化オーディオ情報の時間鏡映バージョンのウィンドウ処理バージョンを取得するように構成され、且つ
JPEG
2025032135000032.jpg
24
170
【請求項９】
請求項１～８の１つに記載のオーディオデコーダであって、
前記遷移処理装置（１４０；２４０；３４０）は、
JPEG
2025032135000033.jpg
33
169
ｎは、時間インデックスを示し、
ｗ（－ｎ－１）は、時間インデックス（－ｎ－１）に対するウィンドウ関数の値を示し、
ｗ（ｎ＋Ｌ）は、時間インデックス（ｎ＋Ｌ）に対するウィンドウ関数の値を示し、
S
c
(n)は、時間インデックス（ｎ）に対する前記第１の復号化オーディオ情報（１２２；２２２；３２２）の以前に復号化された値を示し、
Ｓ
C
（－ｎ－Ｌ－１）は、時間インデックス（－ｎ－Ｌ－１）に対する前記第１の復号化オーディオ情報の以前に復号化された値を示し、
Ｓ
M
（ｎ）は、時間インデックスｎに対する前記第２の復号化オーディオ情報（１３２；２３２；３３２）の復号化された値を示し、且つ
Ｌは、ウィンドウ長を示す、オーディオデコーダ。
【請求項１０】
請求項１～９の１つに記載のオーディオデコーダ（１００；２００；３００）であって、前記遷移処理装置（１４０；２４０；３４０）は、
JPEG
2025032135000034.jpg
108
169
ｍは、実行変数を示し、
Ｍは、前記線形予測フィルタ（１４８；２５４；３４６）のフィルタ長を示し、
ａ
m
は、前記線形予測フィルタのフィルタ係数を示し、
JPEG
2025032135000035.jpg
13
170
Ｎは、処理長を示す、オーディオデコーダ。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
１．技術分野
本発明に係る実施形態は、符号化オーディオ情報に基づいて復号化オーディオ情報を提供するオーディオデコーダに関する。
続きを表示（約 1,600 文字）【０００２】
本発明に係るもう一つの実施形態は、符号化オーディオ情報に基づいて復号化オーディオ情報を提供する方法に関する。
【０００３】
本発明に係るもう一つの実施形態は、上述の方法を実行するコンピュータプログラムに関する。
【０００４】
概して、本発明に係る実施形態は、スイッチドオーディオ符号化におけるＣＥＬＰコーデックからＭＤＣＴに基づくコーデックまでの遷移を取り扱うことに関する。
【背景技術】
【０００５】
２．発明の背景
近年、符号化オーディオ情報を伝送すること及び保存することに対する要求が増加してきている。スピーチ及び一般的なオーディオ（例えば、音楽、背景ノイズ等）の両方を備えるオーディオ信号のオーディオ符号化及びオーディオ復号化に対する要求もまた増加している。
【０００６】
符号化品質を改善するために、且つビットレート効率を改善するためにも、例えば、第１の符号化コンセプト（例えば、ＣＥＬＰに基づく符号化コンセプト）を用いて第１のフレームが符号化されるように、且つ異なる第２の符号化コンセプト（例えば、ＭＤＣＴに基づく符号化コンセプト）を用いて後に続く第２のオーディオフレームが符号化されるように、スイッチド（又はスイッチング）オーディオコーデックは、異なる符号化体系の間での切り替えられることが導入されてきた。換言すれば、これらは、（例えば、ＣＥＬＰに基づく符号化コンセプトを用いる）線形予測符号化領域における符号化と、周波数領域における符号化（例えば、ＦＦＴ変換、逆ＦＦＴ変換、ＭＤＣＴ変換又は逆ＭＤＣＴ変換等の時間領域－周波数領域変換又は周波数領域－時間領域変換に基づく符号化）との間での切り替えであり得る。例えば、第１の符号化コンセプトは、ＣＥＬＰに基づく符号化コンセプト、ＡＣＥＬＰに基づく符号化コンセプト、変換コード化励起線形予測領域に基づく符号化コンセプト等であり得る。第２の符号化コンセプトは、例えば、ＦＦＴに基づく符号化コンセプト、ＭＤＣＴに基づく符号化コンセプト、ＡＡＣに基づく符号化コンセプト、又はＡＡＣに基づく符号化コンセプトの後継コンセプトとして考慮され得る符号化コンセプトであり得る。
【０００７】
以下において、従来のオーディオコーダ（エンコーダ及び／又はデコーダ）の幾つかの例が記述されるであろう。
【０００８】
例えば、ＭＰＥＧＵＳＡＣのようなスイッチドオーディオコーデックは、２つの主たるオーディオ符号化体系に基づく。１つの符号化体系は、例えば、ＣＥＬＰコーデックであり、スピーチ信号を対象とする。他の符号化体系は、例えば、（以下、単にＭＤＣＴと呼ばれる）ＭＤＣＴに基づくコーデックであり、全ての他のオーディオ信号（例えば、音楽、背景ノイズ）を目的とする。混合コンテンツ信号（例えば、音楽でのスピーチ）で、エンコーダは、（及びその結果としてデコーダも、）しばしば２つの符号化体系の間で切り替わる。それ故に、１つのモード（又は符号化体系）からもう一つに切り替わるとき、如何なるアーチファクト（例えば、不連続性に起因するクリック）も回避する必要がある。
【０００９】
スイッチドオーディオコーデックは、例えば、ＣＥＬＰ－ＭＤＣＴ変換によって引き起こされる問題をかかえ得る。
【００１０】
ＣＥＬＰ－ＭＤＣＴ変換は、一般に、２つの問題をもたらす。エイリアシングは、欠落した以前のＭＤＣＴフレームに起因してもたらされ得る。不連続性は、低い／中位のビットレートで操作する（ｏｐｅｒａｔｉｎｇ）２つの符号化体系の性質を符号化する完全でない波形に起因して、ＣＥＬＰフレームとＭＤＣＴフレームとの間での境界にもたらされ得る。
（【００１１】以降は省略されています）

関連特許