TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025145143
公報種別
公開特許公報(A)
公開日
2025-10-03
出願番号
2024045171
出願日
2024-03-21
発明の名称
オーディオデータ処理装置、推論装置、及びオーディオデータ処理方法
出願人
ヤマハ株式会社
代理人
弁理士法人旺知国際特許事務所
主分類
G10L
21/038 20130101AFI20250926BHJP(楽器;音響)
要約
【課題】伸長される前の圧縮方式及びビットレートに関する情報が含まれていないオーディオデータに対して適切な補正をかける。
【解決手段】オーディオデータ処理装置20は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データINDと、複数の圧縮オーディオデータの圧縮形式の種類を含む出力データOTDとの関係を学習済みの学習モデルlm1に、圧縮オーディオデータが伸長された伸長オーディオデータが入力されることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部21と、推定された圧縮形式の種類に応じて処理を行う推定結果利用部24と、を備える。
【選択図】図1
特許請求の範囲
【請求項1】
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部と、
前記推定された圧縮形式の種類に応じて処理を行う推定結果利用部と、
を備えるオーディオデータ処理装置。
続きを表示(約 980 文字)
【請求項2】
前記入力データは、複数の非圧縮オーディオデータを含み、前記出力データは、前記複数の非圧縮オーディオデータの種類を含み、
前記推定部は、前記学習モデルに非圧縮オーディオデータが入力されることにより、前記非圧縮オーディオデータの種類を推定する、
請求項1に記載のオーディオデータ処理装置。
【請求項3】
前記圧縮形式の種類は、前記圧縮オーディオデータの圧縮方式と圧縮時のビットレートとの組合せに基づく、
請求項1又は請求項2に記載のオーディオデータ処理装置。
【請求項4】
前記推定結果利用部は、
前記入力された伸長オーディオデータに対し、前記推定された圧縮形式の種類に応じた補正処理を実施する補正処理部を含む、
請求項1に記載のオーディオデータ処理装置。
【請求項5】
前記補正処理は、前記圧縮オーディオデータから欠落している高域成分を補完するための処理である、
請求項4に記載のオーディオデータ処理装置。
【請求項6】
メモリと、プロセッサとを備え、
前記メモリは、
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルを記憶し、
前記プロセッサは、
圧縮オーディオデータが伸長された伸長オーディオデータを含む入力データを取得する取得処理と、
前記取得処理において前記入力データを取得すると、前記学習モデルを用いて前記圧縮オーディオデータの圧縮形式の種類を推論する推論処理と、
を実行する、
推論装置。
【請求項7】
複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定し、
前記推定された圧縮形式の種類に応じて処理を行う、
オーディオデータ処理方法。
発明の詳細な説明
【技術分野】
【0001】
本開示は、オーディオデータ処理装置、推論装置、及びオーディオデータ処理方法に関する。
続きを表示(約 2,000 文字)
【背景技術】
【0002】
オーディオ機器に入力されるオーディオデータの圧縮方式及びビットレートは、通信回線状況、アプリケーションにおける設定等により、入力されるオーディオデータごとに異なることが多い。圧縮方式及びビットレートごとにオーディオデータの音質の劣化度合いは異なるため、オーディオ機器では、各圧縮方式及びビットレートに応じて、入力されたオーディオデータに適切な補正をかけ、高音質化を図ることが望まれる。例えば、特許文献1には、オーディオデータ方式を当該オーディオデータのソース媒体、ヘッダ等から判別し、オーディオ信号に付加する補完用オーディオ信号を生成するオーディオ再生装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
特許第4992621号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、オーディオ機器には、コーデックによって既に伸長されたオーディオデータが入力されることがある。この場合、オーディオ機器に入力されるオーディオデータには、伸長される前の圧縮方式及びビットレートに関する情報が含まれていない。従って、特許文献1に開示されているような従来のオーディオ機器では、入力されるオーディオデータの圧縮方式及びビットレートに応じて当該オーディオデータに適切な補正をかけることができないという問題があった。
【0005】
以上の事情を考慮して、本開示のひとつの態様は、伸長される前の圧縮方式及びビットレートに関する情報が含まれていなくとも、入力されたオーディオデータの圧縮形式に応じた処理を行うことを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために、本開示のひとつの態様に係るオーディオデータ処理装置は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定する推定部と、前記推定された圧縮形式の種類に応じて処理を行う推定結果利用部と、を備える。
【0007】
本開示のひとつの態様に係るオーディオデータ処理方法は、複数の圧縮オーディオデータがそれぞれ伸長された伸長オーディオデータを含む入力データと、前記複数の圧縮オーディオデータの圧縮形式の種類を含む出力データとの関係を学習済みの学習モデルに、圧縮オーディオデータが伸長された伸長オーディオデータを入力させることにより、前記圧縮オーディオデータの圧縮形式の種類を推定し、前記推定された圧縮形式の種類に応じて処理を行う。
【図面の簡単な説明】
【0008】
第1実施形態に係るオーディオデータ処理装置を含む音響システムの一例を示す構成図である。
第1実施形態に係る機械学習装置の一例を示すブロック図である。
第1実施形態に係る学習モデルに適用されるニューラルネットワークモデルの一例を示す概略図である。
代表的な音楽配信サービスにおける圧縮ビットレート及び圧縮方式の一例を示す図である。
図1の補正用パラメータ決定部による分類結果の一例を示す図である。
圧縮形式と当該圧縮形式によるオーディオデータの上限周波数との関係を示す図である。
図1の補正処理部による補完処理を説明するためのオーディオデータの周波数スペクトル図である。
オーディオデータ処理装置の処理動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
A:第1実施形態
A1:オーディオデータ処理装置の構成
図1は、第1実施形態に係るオーディオデータ処理装置20を含む音響システム1の一例を示す構成図である。音響システム1は、例えば、自動車等の車両に搭載されている。図1に示したように、音響システム1は、記憶装置10、オーディオデータ処理装置20、増幅装置30、及びスピーカ装置40を有している。
【0010】
音響システム1は、オーディオデータ処理装置20において、音源2から入力される入力オーディオデータd1から当該入力オーディオデータd1の圧縮形式を推定し、推定された圧縮形式に基づいて当該入力オーディオデータd1を補正する。音響システム1は、増幅装置30において、補正されたオーディオデータe1をデジタル信号からアナログ信号に変換した後、変換されたアナログ信号を増幅する。音響システム1は、スピーカ装置40において、増幅オーディオ信号e2に基づく音を放音する。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
ヤマハ株式会社
鍵盤装置
12日前
ヤマハ株式会社
放音制御装置
1か月前
ヤマハ株式会社
音処理装置及び音処理方法
19日前
ヤマハ株式会社
処理装置
1か月前
ヤマハ株式会社
鍵盤装置及び演奏操作装置
25日前
ヤマハ株式会社
コード推定装置およびコード推定方法
13日前
ヤマハ株式会社
データ出力方法、プログラム、データ出力装置および電子楽器
25日前
他の特許を見る