発明の詳細な説明【技術分野】 【0001】 本発明は、ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術に関する。 続きを表示(約 1,800 文字)【背景技術】 【0002】 ニューラルネットワークを用いた音声技術はここ数年で進展を遂げ、テキスト音声合成においては自然音声とほぼ変わらない高品質な合成が可能となっている。ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術においても、ニューラルネットワークを用いた方式により高品質な変換が実現されている。その中でも、系列変換型声質変換モデルは、従来のフレーム変換モデルと比較して、話速や韻律まで変換可能であり、注目を集めている。 【0003】 機械翻訳で登場したTransformer型ニューラルネットワークモデルを用いることにより、入力話者の音声特徴量系列の長さと出力話者の音声特徴量系列の長さとが異なる場合も直接変換が可能な系列変換型声質変換モデルが提案され(例えば、非特許文献1を参照)、複数話者同士の声質変換技術やテキスト音声合成技術を組み合わせることにより少量のペアデータで声質変換技術を実現する方式も提案されている。しかし、これらの技術では、自己回帰型モデルを用いているため、生成速度が遅いという問題、および、Transformerの注意機構(アテンション機構)の推定誤りによりスキップまたは過剰に繰り返されるフレームがあるという不安定な変換が実行されるという問題がある。 【0004】 これらの問題を解決するために、非自己回帰型モデルを用いた技術が提案されている(例えば、非特許文献2を参照)。この技術では、最初に従来の自己回帰型モデルを教師モデルとして学習し、入力音声と出力音声間のアライメントを取得する。その上で、この技術では、教師モデルで得られたアライメントを用いて生徒モデルである非自己回帰型モデルを学習する。最後に、この技術では、別途学習した波形生成ニューラルネットワークと組み合わせることにより、高速かつ安定した声質変換を実現することができる。 【先行技術文献】 【非特許文献】 【0005】 R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763. T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072. 【発明の概要】 【発明が解決しようとする課題】 【0006】 非自己回帰型モデルを用いた技術(非特許文献2に開示されている技術)では、自己回帰モデルを用いた技術と比べて高速かつ安定した変換を実現してはいるが、以下の課題がある。 【0007】 第1に、上記の非自己回帰型モデルを用いた技術では、教師モデルである自己回帰モデル、生徒モデルである非自己回帰モデル、および音声波形生成モデルの3つのニューラルネットワークモデルをそれぞれ独立に学習する必要がある。そのため、推定誤差は最終的な音声波形生成モデルまで伝搬し、変換精度が劣化する。 【0008】 第2に、上記の非自己回帰型モデルを用いた技術では、入力音声と出力音声間のアライメントは教師自己回帰モデルにより推定するため、不安定である。 【0009】 第3に、上記の非自己回帰型モデルを用いた技術では、波形生成モデルは高速生成にはGPU(Graphics Processing Unit)が必要であり、CPU(Central Processing Unit)のみを用いて、高速かつ高品質に、音声波形を生成する処理を実行することは困難である。 【0010】 第4に、上記の非自己回帰型モデルを用いた技術では、非自己回帰モデルの入力特徴量にはメルスペクトログラムだけではなく基本周波数およびパワーも入力する必要があるが、これらはメルスペクトログラムからでも推定可能な量であるため、冗長である。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する