特許ウォッチ

公開番号2024118704
公報種別公開特許公報(A)
公開日2024-09-02
出願番号2023025134
出願日2023-02-21
発明の名称声質変換処理システム、および、声質変換処理方法
出願人国立研究開発法人情報通信研究機構
代理人個人,個人
主分類G10L 21/007 20130101AFI20240826BHJP(楽器;音響)
要約【課題】入力音声と出力音声との間のアライメントを安定して推定でき、かつ、CPUのみで、高精度、高品質な声質変換処理を実行する声質変換処理システム及び方法を提供する。
【解決手段】声質変換処理システム1000において、継続長予測処理部3は、単調かつ単射となるように最適化されたアライメントにより導出される継続長データと同等の継続長データを予測するように学習されたモデルにより、継続長データを取得するので、取得される継続長データの精度が高くなり、その結果、この声質変換処理システムで取得される声質変換したデータの精度も高くなる。したがって、声質変換処理システム1000では、入力音声と出力音声との間のアライメントを安定して推定でき、そして、音声波形データ取得処理部において、CPUのみで高速処理が可能な学習モデルを設定することで、CPUのみで、高精度、高品質な声質変換処理を実行することができる。
【選択図】図1
特許請求の範囲【請求項１】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理部と、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理部と、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理部と、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理部と、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
続きを表示（約 1,900 文字）【請求項２】
前記エンコード処理部、前記継続長予測処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項１に記載の声質変換処理システム。
【請求項３】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第１中間特徴量データを取得するエンコード処理部と、
前記第１中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第２中間特徴量データを取得する分散適応処理部と、
前記第２中間特徴量データに対してデコード処理を行うことで、第３中間特徴量データを取得するデコード処理部と、
前記第３中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
【請求項４】
前記エンコード処理部、前記分散適応処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項３に記載の声質変換処理システム。
【請求項５】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理ステップと、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理ステップと、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理ステップと、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理ステップと、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備え、
前記エンコード処理ステップ、前記継続長予測処理ステップ、前記デコード処理ステップ、および、前記音声波形データ取得処理ステップは、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された学習モデルによる処理を含む、
声質変換処理方法。
【請求項６】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第１中間特徴量データを取得するエンコード処理ステップと、
前記第１中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第２中間特徴量データを取得する分散適応処理ステップと、
前記第２中間特徴量データに対してデコード処理を行うことで、第３中間特徴量データを取得するデコード処理ステップと、
前記第３中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備える声質変換処理方法。

発明の詳細な説明【技術分野】
【０００１】
本発明は、ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
ニューラルネットワークを用いた音声技術はここ数年で進展を遂げ、テキスト音声合成においては自然音声とほぼ変わらない高品質な合成が可能となっている。ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術においても、ニューラルネットワークを用いた方式により高品質な変換が実現されている。その中でも、系列変換型声質変換モデルは、従来のフレーム変換モデルと比較して、話速や韻律まで変換可能であり、注目を集めている。
【０００３】
機械翻訳で登場したTransformer型ニューラルネットワークモデルを用いることにより、入力話者の音声特徴量系列の長さと出力話者の音声特徴量系列の長さとが異なる場合も直接変換が可能な系列変換型声質変換モデルが提案され（例えば、非特許文献１を参照）、複数話者同士の声質変換技術やテキスト音声合成技術を組み合わせることにより少量のペアデータで声質変換技術を実現する方式も提案されている。しかし、これらの技術では、自己回帰型モデルを用いているため、生成速度が遅いという問題、および、Transformerの注意機構（アテンション機構）の推定誤りによりスキップまたは過剰に繰り返されるフレームがあるという不安定な変換が実行されるという問題がある。
【０００４】
これらの問題を解決するために、非自己回帰型モデルを用いた技術が提案されている（例えば、非特許文献２を参照）。この技術では、最初に従来の自己回帰型モデルを教師モデルとして学習し、入力音声と出力音声間のアライメントを取得する。その上で、この技術では、教師モデルで得られたアライメントを用いて生徒モデルである非自己回帰型モデルを学習する。最後に、この技術では、別途学習した波形生成ニューラルネットワークと組み合わせることにより、高速かつ安定した声質変換を実現することができる。
【先行技術文献】
【非特許文献】
【０００５】
R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763.
T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072.
【発明の概要】
【発明が解決しようとする課題】
【０００６】
非自己回帰型モデルを用いた技術（非特許文献２に開示されている技術）では、自己回帰モデルを用いた技術と比べて高速かつ安定した変換を実現してはいるが、以下の課題がある。
【０００７】
第１に、上記の非自己回帰型モデルを用いた技術では、教師モデルである自己回帰モデル、生徒モデルである非自己回帰モデル、および音声波形生成モデルの３つのニューラルネットワークモデルをそれぞれ独立に学習する必要がある。そのため、推定誤差は最終的な音声波形生成モデルまで伝搬し、変換精度が劣化する。
【０００８】
第２に、上記の非自己回帰型モデルを用いた技術では、入力音声と出力音声間のアライメントは教師自己回帰モデルにより推定するため、不安定である。
【０００９】
第３に、上記の非自己回帰型モデルを用いた技術では、波形生成モデルは高速生成にはＧＰＵ（Graphics Processing Unit）が必要であり、ＣＰＵ（Central Processing Unit）のみを用いて、高速かつ高品質に、音声波形を生成する処理を実行することは困難である。
【００１０】
第４に、上記の非自己回帰型モデルを用いた技術では、非自己回帰モデルの入力特徴量にはメルスペクトログラムだけではなく基本周波数およびパワーも入力する必要があるが、これらはメルスペクトログラムからでも推定可能な量であるため、冗長である。
（【００１１】以降は省略されています）

関連特許