特許ウォッチ

公開番号2025155320
公報種別公開特許公報(A)
公開日2025-10-14
出願番号2024059097
出願日2024-04-01
発明の名称収音装置、収音方法、およびプログラム
出願人株式会社JVCケンウッド
代理人個人
主分類G10L 21/0388 20130101AFI20251006BHJP(楽器;音響)
要約【課題】帯域が制限された音声信号の音質を改善できる技術を提供する。
【解決手段】収音装置100において、音素情報取得部(短時間音素分析部16)は、学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得する。帯域拡張部34は、音素に関する情報に基づいて音声信号の高域周波数成分を生成し、高域周波数成分によって音声信号の帯域を拡張する。
【選択図】図1
特許請求の範囲【請求項１】
学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得する音素情報取得部と、
前記音素に関する情報に基づいて前記音声信号の高域周波数成分を生成し、前記高域周波数成分によって前記音声信号の帯域を拡張する帯域拡張部と、
を備えることを特徴とする収音装置。
続きを表示（約 590 文字）【請求項２】
前記帯域拡張部は、前記音素に関する情報が母音の情報を含む場合、前記母音に応じた高次フォルマントの特徴を再現した倍音成分を含む前記高域周波数成分を生成する、
ことを特徴とする請求項１に記載の収音装置。
【請求項３】
前記帯域拡張部は、前記音素に関する情報が子音の情報を含む場合、前記子音に応じた周波数特性の雑音成分であって、前記音声信号の音圧に基づいて調整された大きさの雑音成分を含む前記高域周波数成分を生成する、
ことを特徴とする請求項１または２に記載の収音装置。
【請求項４】
コンピュータが、
学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得するステップと、
前記音素に関する情報に基づいて前記音声信号の高域周波数成分を生成し、前記高域周波数成分によって前記音声信号の帯域を拡張するステップと、
を実行することを特徴とする収音方法。
【請求項５】
コンピュータに、
学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得するステップと、
前記音素に関する情報に基づいて前記音声信号の高域周波数成分を生成し、前記高域周波数成分によって前記音声信号の帯域を拡張するステップと、
を実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【０００１】
本発明は、狭帯域の音声信号の周波数帯域を拡大する技術に関する。
続きを表示（約 1,300 文字）【背景技術】
【０００２】
特許文献１には、周波数帯域が制限された狭帯域の信号に対し、非線形処理を施す非線形処理手段を有し、周波数帯域が拡張された信号を形成する帯域拡張装置が開示されている。この装置は、周波数帯域が拡張された信号のスペクトル概形を求め、求めたスペクトル概形を平坦化した特性を白色雑音に対して付与した信号を生成し、周波数帯域が拡張された信号に重畳する。
【先行技術文献】
【特許文献】
【０００３】
特開２０１２－２７２５５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、特許文献１のＬＰＣ分析は人の声である音声の成り立ちである喉、口元の音導管を表現したものであり、帯域が制限された段階での分析では高次のフォルマントに相当する情報が欠落することとなり、誤った広帯域の音声成分が復元される恐れがある。また、特許文献１の技術では、白色雑音を元に無声音をＬＰＣ雑音合成により生成しているが、上記同様に拡大帯域に相当するＬＰＣ情報が正確ではないため、無声音の種類、すなわち音素の種類によっては、意図しない雑音成分が付加される恐れがある。
【０００５】
本発明はこうした状況に鑑みてなされたものであり、その目的は、帯域が制限された音声信号の音質を改善できる技術を提供することである。
【課題を解決するための手段】
【０００６】
上記課題を解決するために、本発明のある態様の収音装置は、学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得する音素情報取得部と、前記音素に関する情報に基づいて音声信号の高域周波数成分を生成し、前記高域周波数成分によって前記音声信号の帯域を拡張する帯域拡張部と、を備えることを特徴とする。
【０００７】
本発明の別の態様は、収音方法である。この方法は、コンピュータが、学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得するステップと、前記音素に関する情報に基づいて音声信号の高域周波数成分を生成し、前記高域周波数成分によって音声信号の帯域を拡張するステップと、を実行することを特徴とする。
【０００８】
本発明の別の態様は、プログラムである。このプログラムは、コンピュータに、学習済みモデルを用いて、音声信号に含まれる音素に関する情報を取得するステップと、前記音素に関する情報に基づいて前記音声信号の高域周波数成分を生成し、前記高域周波数成分によって前記音声信号の帯域を拡張するステップと、を実行させることを特徴とする。
【０００９】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【００１０】
本発明によれば、帯域が制限された音声信号の音質を改善できる技術を提供できる。
【図面の簡単な説明】
（【００１１】以降は省略されています）

関連特許