TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024118704
公報種別公開特許公報(A)
公開日2024-09-02
出願番号2023025134
出願日2023-02-21
発明の名称声質変換処理システム、および、声質変換処理方法
出願人国立研究開発法人情報通信研究機構
代理人個人,個人
主分類G10L 21/007 20130101AFI20240826BHJP(楽器;音響)
要約【課題】入力音声と出力音声との間のアライメントを安定して推定でき、かつ、CPUのみで、高精度、高品質な声質変換処理を実行する声質変換処理システム及び方法を提供する。
【解決手段】声質変換処理システム1000において、継続長予測処理部3は、単調かつ単射となるように最適化されたアライメントにより導出される継続長データと同等の継続長データを予測するように学習されたモデルにより、継続長データを取得するので、取得される継続長データの精度が高くなり、その結果、この声質変換処理システムで取得される声質変換したデータの精度も高くなる。したがって、声質変換処理システム1000では、入力音声と出力音声との間のアライメントを安定して推定でき、そして、音声波形データ取得処理部において、CPUのみで高速処理が可能な学習モデルを設定することで、CPUのみで、高精度、高品質な声質変換処理を実行することができる。
【選択図】図1
特許請求の範囲【請求項1】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理部と、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理部と、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理部と、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理部と、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
続きを表示(約 1,900 文字)【請求項2】
前記エンコード処理部、前記継続長予測処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項1に記載の声質変換処理システム。
【請求項3】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理部と、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理部と、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理部と、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
【請求項4】
前記エンコード処理部、前記分散適応処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項3に記載の声質変換処理システム。
【請求項5】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理ステップと、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理ステップと、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理ステップと、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理ステップと、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備え、
前記エンコード処理ステップ、前記継続長予測処理ステップ、前記デコード処理ステップ、および、前記音声波形データ取得処理ステップは、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された学習モデルによる処理を含む、
声質変換処理方法。
【請求項6】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理ステップと、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理ステップと、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理ステップと、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備える声質変換処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
ニューラルネットワークを用いた音声技術はここ数年で進展を遂げ、テキスト音声合成においては自然音声とほぼ変わらない高品質な合成が可能となっている。ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術においても、ニューラルネットワークを用いた方式により高品質な変換が実現されている。その中でも、系列変換型声質変換モデルは、従来のフレーム変換モデルと比較して、話速や韻律まで変換可能であり、注目を集めている。
【0003】
機械翻訳で登場したTransformer型ニューラルネットワークモデルを用いることにより、入力話者の音声特徴量系列の長さと出力話者の音声特徴量系列の長さとが異なる場合も直接変換が可能な系列変換型声質変換モデルが提案され(例えば、非特許文献1を参照)、複数話者同士の声質変換技術やテキスト音声合成技術を組み合わせることにより少量のペアデータで声質変換技術を実現する方式も提案されている。しかし、これらの技術では、自己回帰型モデルを用いているため、生成速度が遅いという問題、および、Transformerの注意機構(アテンション機構)の推定誤りによりスキップまたは過剰に繰り返されるフレームがあるという不安定な変換が実行されるという問題がある。
【0004】
これらの問題を解決するために、非自己回帰型モデルを用いた技術が提案されている(例えば、非特許文献2を参照)。この技術では、最初に従来の自己回帰型モデルを教師モデルとして学習し、入力音声と出力音声間のアライメントを取得する。その上で、この技術では、教師モデルで得られたアライメントを用いて生徒モデルである非自己回帰型モデルを学習する。最後に、この技術では、別途学習した波形生成ニューラルネットワークと組み合わせることにより、高速かつ安定した声質変換を実現することができる。
【先行技術文献】
【非特許文献】
【0005】
R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763.
T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非自己回帰型モデルを用いた技術(非特許文献2に開示されている技術)では、自己回帰モデルを用いた技術と比べて高速かつ安定した変換を実現してはいるが、以下の課題がある。
【0007】
第1に、上記の非自己回帰型モデルを用いた技術では、教師モデルである自己回帰モデル、生徒モデルである非自己回帰モデル、および音声波形生成モデルの3つのニューラルネットワークモデルをそれぞれ独立に学習する必要がある。そのため、推定誤差は最終的な音声波形生成モデルまで伝搬し、変換精度が劣化する。
【0008】
第2に、上記の非自己回帰型モデルを用いた技術では、入力音声と出力音声間のアライメントは教師自己回帰モデルにより推定するため、不安定である。
【0009】
第3に、上記の非自己回帰型モデルを用いた技術では、波形生成モデルは高速生成にはGPU(Graphics Processing Unit)が必要であり、CPU(Central Processing Unit)のみを用いて、高速かつ高品質に、音声波形を生成する処理を実行することは困難である。
【0010】
第4に、上記の非自己回帰型モデルを用いた技術では、非自己回帰モデルの入力特徴量にはメルスペクトログラムだけではなく基本周波数およびパワーも入力する必要があるが、これらはメルスペクトログラムからでも推定可能な量であるため、冗長である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三井化学株式会社
遮音構造体
11日前
個人
弦楽器用押弦補助具及び弦楽器
4日前
三井化学株式会社
遮音構造体
4日前
三井化学株式会社
遮音構造体
4日前
林テレンプ株式会社
防音カバー
4日前
株式会社ドクター中松創研
歌及び歌の制作方法
14日前
株式会社JVCケンウッド
車載装置
5日前
個人
電気自動車等の「接近音」における最適な「音の種類」
7日前
株式会社HOWA
遮音構造
11日前
カシオ計算機株式会社
楽器
11日前
個人
電子管楽器
4日前
川上産業株式会社
吸音シート
18日前
ヤマハ株式会社
発音制御装置
5日前
トヨタ自動車株式会社
電気自動車
6日前
AOBAENERGY株式会社
サービス提供機器
4日前
ヤマハ株式会社
鍵盤装置用の鍵
20日前
トヨタ自動車株式会社
音響式遮音材の製造方法
5日前
株式会社パトライト
メール読み上げテキスト生成プログラム
18日前
ヤマハ株式会社
音響測定装置、音響測定方法および音響測定プログラム
5日前
カシオ計算機株式会社
音響処理装置、音響処理システム、音響処理方法及びプログラム
12日前
ソニーグループ株式会社
情報処理装置、情報処理方法、およびプログラム
20日前
ピクシーダストテクノロジーズ株式会社
遮音システムおよび区画設備
20日前
トヨタ自動車株式会社
車両管理システム及び電気自動車
6日前
ヤマハ株式会社
音響処理方法、音響処理システムおよびプログラム
18日前
株式会社ブリヂストン
情報処理装置及びその制御方法、並びに、プログラム
12日前
株式会社ブリヂストン
情報処理装置及びその制御方法、並びに、プログラム
12日前
株式会社ブリヂストン
情報処理装置及びその制御方法、並びに、プログラム
12日前
カシオ計算機株式会社
プログラム、情報処理装置、電子楽器及び表示方法
4日前
株式会社ブリヂストン
ノイズキャンセリング方法、情報処理装置、及びプログラム
12日前
株式会社ブリヂストン
ノイズキャンセリング方法、情報処理装置、及びプログラム
12日前
株式会社ブリヂストン
ノイズキャンセリング方法、情報処理装置、及びプログラム
12日前
エルジー ディスプレイ カンパニー リミテッド
ノイズキャンセリングシステム
4日前
パナソニックIPマネジメント株式会社
録音装置、録音システム、及びそれらの録音方法
25日前
パナソニックIPマネジメント株式会社
音響特性評価方法、プログラム、及び、音響特性評価システム
5日前
パナソニックIPマネジメント株式会社
音響特性評価方法、プログラム、及び、音響特性評価システム
5日前
株式会社JVCケンウッド
データシステム、識別装置、データシステムの制御方法及びプログラム
4日前
続きを見る