特許ウォッチ

公開番号2025145143
公報種別公開特許公報(A)
公開日2025-10-03
出願番号2024045171
出願日2024-03-21
発明の名称オーディオデータ処理装置、推論装置、及びオーディオデータ処理方法
出願人ヤマハ株式会社
代理人弁理士法人旺知国際特許事務所
主分類G10L 21/038 20130101AFI20250926BHJP(楽器;音響)
要約【課題】伸長される前の圧縮方式及びビットレートに関する情報が含まれていないオーディオデータに対して適切な補正をかける。
【解決手段】オーディオデータ処理装置20は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データINDと、複数の圧縮オーディオデータの圧縮形式の種類を含む出力データOTDとの関係を学習済みの学習モデルlm1に、圧縮オーディオデータが伸長された伸長オーディオデータが入力されることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部21と、推定された圧縮形式の種類に応じて処理を行う推定結果利用部24と、を備える。
【選択図】図1
特許請求の範囲【請求項１】
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部と、
前記推定された圧縮形式の種類に応じて処理を行う推定結果利用部と、
を備えるオーディオデータ処理装置。
続きを表示（約 980 文字）【請求項２】
前記入力データは、複数の非圧縮オーディオデータを含み、前記出力データは、前記複数の非圧縮オーディオデータの種類を含み、
前記推定部は、前記学習モデルに非圧縮オーディオデータが入力されることにより、前記非圧縮オーディオデータの種類を推定する、
請求項１に記載のオーディオデータ処理装置。
【請求項３】
前記圧縮形式の種類は、前記圧縮オーディオデータの圧縮方式と圧縮時のビットレートとの組合せに基づく、
請求項１又は請求項２に記載のオーディオデータ処理装置。
【請求項４】
前記推定結果利用部は、
前記入力された伸長オーディオデータに対し、前記推定された圧縮形式の種類に応じた補正処理を実施する補正処理部を含む、
請求項１に記載のオーディオデータ処理装置。
【請求項５】
前記補正処理は、前記圧縮オーディオデータから欠落している高域成分を補完するための処理である、
請求項４に記載のオーディオデータ処理装置。
【請求項６】
メモリと、プロセッサとを備え、
前記メモリは、
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルを記憶し、
前記プロセッサは、
圧縮オーディオデータが伸長された伸長オーディオデータを含む入力データを取得する取得処理と、
前記取得処理において前記入力データを取得すると、前記学習モデルを用いて前記圧縮オーディオデータの圧縮形式の種類を推論する推論処理と、
を実行する、
推論装置。
【請求項７】
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定し、
前記推定された圧縮形式の種類に応じて処理を行う、
オーディオデータ処理方法。

発明の詳細な説明【技術分野】
【０００１】
本開示は、オーディオデータ処理装置、推論装置、及びオーディオデータ処理方法に関する。
続きを表示（約 2,000 文字）【背景技術】
【０００２】
オーディオ機器に入力されるオーディオデータの圧縮方式及びビットレートは、通信回線状況、アプリケーションにおける設定等により、入力されるオーディオデータごとに異なることが多い。圧縮方式及びビットレートごとにオーディオデータの音質の劣化度合いは異なるため、オーディオ機器では、各圧縮方式及びビットレートに応じて、入力されたオーディオデータに適切な補正をかけ、高音質化を図ることが望まれる。例えば、特許文献１には、オーディオデータ方式を当該オーディオデータのソース媒体、ヘッダ等から判別し、オーディオ信号に付加する補完用オーディオ信号を生成するオーディオ再生装置が開示されている。
【先行技術文献】
【特許文献】
【０００３】
特許第４９９２６２１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、オーディオ機器には、コーデックによって既に伸長されたオーディオデータが入力されることがある。この場合、オーディオ機器に入力されるオーディオデータには、伸長される前の圧縮方式及びビットレートに関する情報が含まれていない。従って、特許文献１に開示されているような従来のオーディオ機器では、入力されるオーディオデータの圧縮方式及びビットレートに応じて当該オーディオデータに適切な補正をかけることができないという問題があった。
【０００５】
以上の事情を考慮して、本開示のひとつの態様は、伸長される前の圧縮方式及びビットレートに関する情報が含まれていなくとも、入力されたオーディオデータの圧縮形式に応じた処理を行うことを目的とする。
【課題を解決するための手段】
【０００６】
以上の課題を解決するために、本開示のひとつの態様に係るオーディオデータ処理装置は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部と、前記推定された圧縮形式の種類に応じて処理を行う推定結果利用部と、を備える。
【０００７】
本開示のひとつの態様に係るオーディオデータ処理方法は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定し、前記推定された圧縮形式の種類に応じて処理を行う。
【図面の簡単な説明】
【０００８】
第１実施形態に係るオーディオデータ処理装置を含む音響システムの一例を示す構成図である。
第１実施形態に係る機械学習装置の一例を示すブロック図である。
第１実施形態に係る学習モデルに適用されるニューラルネットワークモデルの一例を示す概略図である。
代表的な音楽配信サービスにおける圧縮ビットレート及び圧縮方式の一例を示す図である。
図１の補正用パラメータ決定部による分類結果の一例を示す図である。
圧縮形式と当該圧縮形式によるオーディオデータの上限周波数との関係を示す図である。
図１の補正処理部による補完処理を説明するためのオーディオデータの周波数スペクトル図である。
オーディオデータ処理装置の処理動作の一例を示すフローチャートである。
【発明を実施するための形態】
【０００９】
Ａ：第１実施形態
Ａ１：オーディオデータ処理装置の構成
図１は、第１実施形態に係るオーディオデータ処理装置２０を含む音響システム１の一例を示す構成図である。音響システム１は、例えば、自動車等の車両に搭載されている。図１に示したように、音響システム１は、記憶装置１０、オーディオデータ処理装置２０、増幅装置３０、及びスピーカ装置４０を有している。
【００１０】
音響システム１は、オーディオデータ処理装置２０において、音源２から入力される入力オーディオデータｄ１から当該入力オーディオデータｄ１の圧縮形式を推定し、推定された圧縮形式に基づいて当該入力オーディオデータｄ１を補正する。音響システム１は、増幅装置３０において、補正されたオーディオデータｅ１をデジタル信号からアナログ信号に変換した後、変換されたアナログ信号を増幅する。音響システム１は、スピーカ装置４０において、増幅オーディオ信号ｅ２に基づく音を放音する。
（【００１１】以降は省略されています）

関連特許