TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025180166
公報種別
公開特許公報(A)
公開日
2025-12-11
出願番号
2024087318
出願日
2024-05-29
発明の名称
音声分析方法および音声分析装置
出願人
国立大学法人大阪大学
代理人
個人
主分類
G10L
25/90 20130101AFI20251204BHJP(楽器;音響)
要約
【課題】音声の基本周波数の推定精度を向上することができる音声分析方法等を提供する。
【解決手段】音声分析方法は、音声を含む信号に基づいて、所定期間を1フレームとする複数のフレームの周波数スペクトル波形を取得する波形取得ステップと、複数のフレームのうちの第1フレームの周波数スペクトル波形に基づいて、第1フレームにおける基本周波数を導出する第1の導出ステップと、複数のフレームのうちの第2フレームの周波数スペクトル波形に基づいて、第2フレームにおける基本周波数を推定するステップと、を含む。基本周波数を推定するステップにおいて、第2フレームの周波数スペクトル波形の一部が所定周波数範囲Rfに存在するか、および、周波数スペクトル波形の一部にある検証点pkRが所定スペクトル強度範囲Rsに存在するかを判断し、当該判断に基づいて第2フレームにおける基本周波数を推定する。
【選択図】図14
特許請求の範囲
【請求項1】
音声を含む信号に基づいて、所定期間を1フレームとする複数のフレームの周波数スペクトル波形を取得する波形取得ステップと、
前記複数のフレームのうちの第1フレームの周波数スペクトル波形に基づいて、前記第1フレームにおける基本周波数を導出する第1の導出ステップと、
前記複数のフレームのうちの第2フレームの周波数スペクトル波形に基づいて、前記第2フレームにおける基本周波数を推定するステップと、
を含み、
前記基本周波数を推定するステップにおいて、前記第2フレームの周波数スペクトル波形の一部が前記第1フレームにおける基本周波数を含む所定周波数範囲に存在するか、および、前記周波数スペクトル波形の一部にある検証点が当該基本周波数のスペクトル強度を含む所定スペクトル強度範囲に存在するかを判断し、当該判断に基づいて前記第2フレームにおける基本周波数を推定する
音声分析方法。
続きを表示(約 2,300 文字)
【請求項2】
前記検証点は、前記所定周波数範囲に存在する前記周波数スペクトル波形のうち、スペクトル強度が最大となる点である
請求項1に記載の音声分析方法。
【請求項3】
さらに、前記第2フレームの周波数スペクトル波形に基づいて、前記第2フレームにおける暫定の基本周波数を導出する第2の導出ステップを含み、
前記基本周波数を推定するステップにおいて、
前記第2フレームの周波数スペクトル波形の一部が前記所定周波数範囲に存在し、かつ、前記検証点のスペクトル強度が前記所定スペクトル強度範囲に存在する場合に、前記検証点の周波数を前記第2フレームにおける基本周波数であると推定し、
前記第2フレームの周波数スペクトル波形の一部が前記所定周波数範囲に存在しない、または、前記検証点のスペクトル強度が前記所定スペクトル強度範囲に存在しない場合に、前記第2の導出ステップで導出した前記暫定の基本周波数を前記第2フレームにおける基本周波数であると推定する
請求項2に記載の音声分析方法。
【請求項4】
さらに、
前記複数のフレームのうちの前記第(N+1)フレーム(Nは2以上の整数)の周波数スペクトル波形に基づいて、前記第(N+1)フレームにおける暫定の基本周波数を導出する第(N+1)の導出ステップと、
前記第(N+1)フレームの周波数スペクトル波形に基づいて、前記第(N+1)フレームにおける基本周波数を推定するステップと、
を含み、
前記第(N+1)フレームにおける基本周波数を推定するステップにおいて、
前記第(N+1)フレームの周波数スペクトル波形の一部が第Nフレームにおける基本周波数を含む所定周波数範囲に存在し、かつ、前記周波数スペクトル波形のうち前記所定周波数範囲においてスペクトル強度が最大となる検証点のスペクトル強度が所定スペクトル強度範囲に存在する場合に、当該検証点の周波数を前記第(N+1)フレームにおける基本周波数であると推定し、
前記第(N+1)フレームの周波数スペクトル波形の一部が、前記所定周波数範囲に存在しない、または、前記検証点のスペクトル強度が前記所定スペクトル強度範囲に存在しない場合に、前記第(N+1)の導出ステップで導出した前記暫定の基本周波数を前記第(N+1)フレームにおける基本周波数であると推定する
請求項3に記載の音声分析方法。
【請求項5】
前記第1の導出ステップは、前記第1フレームにおいて、
前記周波数スペクトル波形のスペクトル強度の最大ピークを導出するステップと、
前記スペクトル強度が最大ピークとなる周波数よりも低周波数側に位置する周波数領域の中から、所定のスペクトル強度よりも大きい極大値をとる1点以上の周波数ピークを抽出するステップと、
前記1点以上の周波数ピークのうち最も低周波数側に位置する周波数ピークを抽出し、当該周波数ピークに対応する周波数を前記第1フレームにおける基本周波数とするステップと、
を含む請求項2に記載の音声分析方法。
【請求項6】
前記第2の導出ステップは、前記第2フレームにおいて、
前記周波数スペクトル波形のスペクトル強度の最大ピークを導出するステップと、
前記スペクトル強度が最大ピークとなる周波数よりも低周波数側に位置する周波数領域の中から、所定のスペクトル強度よりも大きい極大値をとる1点以上の周波数ピークを抽出するステップと、
前記1点以上の周波数ピークのうち最も低周波数側に位置する周波数ピークを抽出し、当該周波数ピークに対応する周波数を前記第2フレームにおける暫定の基本周波数とするステップと、
を含む請求項3に記載の音声分析方法。
【請求項7】
前記第(N+1)の導出ステップは、前記第(N+1)フレームにおいて、
前記周波数スペクトル波形のスペクトル強度の最大ピークを導出するステップと、
前記スペクトル強度が最大ピークとなる周波数よりも低周波数側に位置する周波数領域の中から、所定のスペクトル強度よりも大きい極大値をとる1点以上の周波数ピークを抽出するステップと、
前記1点以上の周波数ピークのうち最も低周波数側に位置する周波数ピークを抽出し、当該周波数ピークに対応する周波数を前記第Nフレームにおける暫定の基本周波数とするステップと、
を含む請求項4に記載の音声分析方法。
【請求項8】
前記所定周波数範囲は、前記基本周波数を基準とする一定範囲の周波数であり、
前記所定スペクトル強度範囲は、前記基本周波数のスペクトル強度を基準とする一定範囲のスペクトル強度である
請求項1~7のいずれかに記載の音声分析方法。
【請求項9】
前記スペクトル強度の最大ピークを導出するステップにおいて、前記周波数スペクトル波形から前記音声とは異なるデータを除去することで音声スペクトル波形を生成し、当該音声スペクトル波形に基づいて前記スペクトル強度の最大ピークを導出する
請求項5~7のいずれかに記載の音声分析方法。
【請求項10】
前記波形取得ステップにおいて、前記周波数スペクトル波形に含まれる複数のスペクトル強度の極大値の平均が予め決められた範囲に入るように、前記周波数スペクトル波形を調整し、調整後の前記周波数スペクトル波形を取得する
請求項1~7のいずれかに記載の音声分析方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、音声分析方法および音声分析装置に関する。
続きを表示(約 3,700 文字)
【背景技術】
【0002】
音声を分析することで音声の基本周波数を推定する方法が知られている。従来の基本周波数の推定方法は、大きく3つのグループに分けられる。1つ目は時間領域の特性を利用するものであり、2つ目は周波数領域の特性を利用するものであり、3つ目は時間領域および周波数領域の両方の特性を組み合わせたものである。
【0003】
時間領域の特性を利用するものとしては、信号の相関を用いる方法が一般的であり、例えば、「自己相関法」および「相互相関法」、「極大値検出法」などの方法が知られている。周波数領域の特性を利用するものとしては、例えば、非特許文献1に示された「SWIPE」および「SWIPE‘」などの方法が知られている。「SWIPE」および「SWIPE‘」などの方法では、パワースペクトルの調波構造に着目し、誤差を低減する工夫を施すことで基本周波数の推定精度を向上させている。上記の両方の特性を組み合わせたものとしては、例えば、非特許文献2に示された「BaNa」の方法が知られている。「BaNa」の方法では、高調波周波数比とケプストラム解析とからなる古典的アプローチを組み合わせて、基本周波数を推定している。
【先行技術文献】
【非特許文献】
【0004】
A. Camacho and J.G. Harris, “A sawtooth waveform inspired pitch estimator for speech and music,” J. Acoust. Soc. 2008.
(Ba H, Yang N. BaNa: a hybrid approach for noise resilient pitch detection. IEEE Statistical Signal Processing Workshop. 2012)
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の方法では、音声の基本周波数の推定精度に改善の余地がある。
【0006】
本開示は、音声の基本周波数の推定精度を向上することができる音声分析方法等を提供する。
【課題を解決するための手段】
【0007】
本開示の一態様に係る音声分析方法は、音声を含む信号に基づいて、所定期間を1フレームとする複数のフレームの周波数スペクトル波形を取得する波形取得ステップと、前記複数のフレームのうちの第1フレームの周波数スペクトル波形に基づいて、前記第1フレームにおける基本周波数を導出する第1の導出ステップと、前記複数のフレームのうちの第2フレームの周波数スペクトル波形に基づいて、前記第2フレームにおける基本周波数を推定するステップと、を含み、前記基本周波数を推定するステップにおいて、前記第2フレームの周波数スペクトル波形の一部が前記第1フレームにおける基本周波数を含む所定周波数範囲に存在するか、および、前記周波数スペクトル波形の一部にある検証点が当該基本周波数のスペクトル強度を含む所定スペクトル強度範囲に存在するかを判断し、当該判断に基づいて前記第2フレームにおける基本周波数を推定する。
【0008】
本開示の一態様に係る音声分析装置は、音声を含む信号に基づいて、所定期間を1フレームとする複数のフレームの周波数スペクトル波形を取得する波形取得部と、前記複数のフレームのうちの第1フレームの周波数スペクトル波形に基づいて、前記第1フレームにおける基本周波数を導出する導出部と、前記複数のフレームのうちの第2フレームの周波数スペクトル波形に基づいて、前記第2フレームにおける基本周波数を推定する推定部と、を備え、前記推定部は、前記第2フレームの周波数スペクトル波形の一部が、前記第1フレームにおける基本周波数を含む所定周波数範囲に存在するか、および、前記周波数スペクトル波形の一部にある検証点が当該基本周波数のスペクトル強度を含む所定スペクトル強度範囲に存在するかを判断し、当該判断に基づいて前記第2フレームにおける基本周波数を推定する。
【発明の効果】
【0009】
本開示の音声分析方法等によれば、音声の基本周波数の推定精度を向上することができる。
【図面の簡単な説明】
【0010】
音声のスペクトル波形を示す図である。
音声にSubharmonics(サブハーモニクス)をメインとしたノイズ成分が付与されたスペクトル波形を示す図である。
実施の形態に係る音声分析装置を含む音声分析システムの概略図である。
音声分析装置の構成を示すブロック図である。
音声データに含まれる音声波形および周波数スペクトル波形を示す図である。
第1フレームの周波数スペクトル波形の一例を示す図である。
周波数スペクトル波形における最大ピークおよび周波数ピークを示す図である。
複数の周波数ピークの中からスペクトル強度の大きな周波数ピークを抽出する例を示す図である。
第1フレームにおいて、基本周波数を導出する例を示す図である。
第1フレームにおける基本周波数を含む所定周波数範囲、および、当該基本周波数のスペクトル強度を含む所定スペクトル強度範囲を示す図である。
第2フレームにおける基本周波数の推定例を示す図である。
第2フレームにおける基本周波数の他の推定例を示す図である。
基本周波数およびスペクトル強度の表示例を示す図である。
実施の形態に係る音声分析方法を示すフローチャートである。
声帯原音における音声のスペクトル波形を示す図である。
声道でフィルタリングされ、口から発声された音声におけるスペクトル波形を示す図である。
Subharmonics(サブハーモニクス)を含む音声のスペクトル波形を示す図である。
全344人の参加者の診断名をまとめた表である。
「聴覚心理的評価における声質評価の程度の分布」を示す図である。
Dominant spectrum test(ドミナントスペクトラムテスト)におけるfo(基本周波数)の候補のサーチ過程を示す図である。
低周波数領域を分割し、それぞれの範囲内でのスペクトルピークを抽出する例を示す図である。
図19aで求めたスペクトルピークと比較して、一定以上のスペクトル強度を持つ最低周波数のスペクトルピークをfo(基本周波数)の候補とする図である。
Sequential spectrum test(シーケンシャルスペクトラムテスト)におけるfo(基本周波数)の候補の選定過程を示す図である。
スペクトル強度および周波数が近似する周波数ピークが存在しない場合、Dominant spectrum test(ドミナントスペクトラムテスト)で選定したfo(基本周波数)の候補を使用する例を示す図である。
CSとSVの連結サンプルにおけるSpectrogram(スペクトログラム)の一例を示す図である。
Subharmonics errors(サブハーモニクスエラー)の一例を示す図である。
Spectrogram(スペクトグラム)上でfo(基本周波数)のground-truth(グランドトゥルース)を抽出する工程を示す図である。
推定fo(基本周波数)とfo(基本周波数)のground-truth(グランドトゥルース)を比較して、両者が重なる箇所を抽出する例を示す図である。
サンプル全体に占めるfo(基本周波数)推定一致時間の割当「%true-all」とサンプル全体に占める有声音の割合「%voice-all」をそれぞれ算出した例を示す図である。
比較対象として評価されたアルゴリズムのリストを示す図である。
連結音声サンプルにおける各fo(基本周波数)推定アルゴリズムの「%true」を454サンプル全例プロットした結果を示す図である。
全454サンプルにおける各fo(基本周波数)推定アルゴリズムの結果を比較した図である。
Gtotalが0.5未満の嗄声無しと評価された音声サンプルでの結果を示す図である。
Gtotal,Rtotal,Btotalのそれぞれが0.5以上の嗄声有りと評価された音声サンプルでの結果を示す図である。
各タイプの嗄声有り群と嗄声無し群を比較した場合、「%true」の差が5%以内に収まるか否かを調査した結果を示す図である。
【発明を実施するための形態】
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
ギター
6日前
個人
遮音材
1か月前
個人
歌唱補助器具
1か月前
個人
管楽器用リガチャ-
1か月前
横浜ゴム株式会社
音響材
27日前
個人
音声出力装置
1か月前
個人
共鳴装置及び共鳴装置ユニット
1日前
三井化学株式会社
防音構造体
7日前
三井化学株式会社
防音構造体
7日前
大和ハウス工業株式会社
音低減設備
1か月前
豊田合成株式会社
車両の音出力装置
1日前
DIC株式会社
吸音材及び吸音部品
1か月前
個人
管楽器用音質改善留め具
21日前
NOK株式会社
吸音構造体
1か月前
株式会社SinasSP
自動騒音低減装置
1か月前
株式会社デンソー
音低減装置
6日前
国立大学法人大阪大学
音声分析方法および音声分析装置
今日
矢崎総業株式会社
車両用対話システム
1か月前
横浜ゴム株式会社
多層空洞音響材
1か月前
株式会社第一興商
カラオケ装置
1か月前
ヤマハ株式会社
鍵盤装置
14日前
三井化学株式会社
防音構造体および自動車の防音構造
7日前
ヤマハ株式会社
音処理装置及び音処理方法
21日前
有限会社ツバサ
エレキギターおよび保護フィルム付きの樹脂プレート
1か月前
有限会社 宮脇工房
モーター挙動音発生装置
1か月前
株式会社デンソー
制御装置、制御方法、及び制御プログラム
27日前
株式会社SUBARU
乗物用遮音構造体、及び車両
1か月前
パイオニア株式会社
事故検知装置、事故検知方法および事故検知プログラム
今日
株式会社第一興商
カラオケ装置、カラオケシステム
6日前
株式会社第一興商
カラオケ装置、カラオケシステム
29日前
株式会社第一興商
カラオケ装置、カラオケシステム
13日前
株式会社コルグ
楽音信号変換装置、楽音信号変換方法、プログラム
1か月前
固昌通訊股ふん有限公司
音響調整装置
1か月前
個人
和音記号表示システム、和音記号表示プログラム及び音出力システム
1日前
本田技研工業株式会社
音声認識装置、音声認識方法、及びプログラム
8日前
トヨタ自動車株式会社
ブレーキインジケータシステム
6日前
続きを見る
他の特許を見る