TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024118704
公報種別公開特許公報(A)
公開日2024-09-02
出願番号2023025134
出願日2023-02-21
発明の名称声質変換処理システム、および、声質変換処理方法
出願人国立研究開発法人情報通信研究機構
代理人個人,個人
主分類G10L 21/007 20130101AFI20240826BHJP(楽器;音響)
要約【課題】入力音声と出力音声との間のアライメントを安定して推定でき、かつ、CPUのみで、高精度、高品質な声質変換処理を実行する声質変換処理システム及び方法を提供する。
【解決手段】声質変換処理システム1000において、継続長予測処理部3は、単調かつ単射となるように最適化されたアライメントにより導出される継続長データと同等の継続長データを予測するように学習されたモデルにより、継続長データを取得するので、取得される継続長データの精度が高くなり、その結果、この声質変換処理システムで取得される声質変換したデータの精度も高くなる。したがって、声質変換処理システム1000では、入力音声と出力音声との間のアライメントを安定して推定でき、そして、音声波形データ取得処理部において、CPUのみで高速処理が可能な学習モデルを設定することで、CPUのみで、高精度、高品質な声質変換処理を実行することができる。
【選択図】図1
特許請求の範囲【請求項1】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理部と、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理部と、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理部と、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理部と、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
続きを表示(約 1,900 文字)【請求項2】
前記エンコード処理部、前記継続長予測処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項1に記載の声質変換処理システム。
【請求項3】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理部と、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理部と、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理部と、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
【請求項4】
前記エンコード処理部、前記分散適応処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項3に記載の声質変換処理システム。
【請求項5】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理ステップと、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理ステップと、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理ステップと、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理ステップと、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備え、
前記エンコード処理ステップ、前記継続長予測処理ステップ、前記デコード処理ステップ、および、前記音声波形データ取得処理ステップは、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された学習モデルによる処理を含む、
声質変換処理方法。
【請求項6】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理ステップと、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理ステップと、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理ステップと、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備える声質変換処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
ニューラルネットワークを用いた音声技術はここ数年で進展を遂げ、テキスト音声合成においては自然音声とほぼ変わらない高品質な合成が可能となっている。ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術においても、ニューラルネットワークを用いた方式により高品質な変換が実現されている。その中でも、系列変換型声質変換モデルは、従来のフレーム変換モデルと比較して、話速や韻律まで変換可能であり、注目を集めている。
【0003】
機械翻訳で登場したTransformer型ニューラルネットワークモデルを用いることにより、入力話者の音声特徴量系列の長さと出力話者の音声特徴量系列の長さとが異なる場合も直接変換が可能な系列変換型声質変換モデルが提案され(例えば、非特許文献1を参照)、複数話者同士の声質変換技術やテキスト音声合成技術を組み合わせることにより少量のペアデータで声質変換技術を実現する方式も提案されている。しかし、これらの技術では、自己回帰型モデルを用いているため、生成速度が遅いという問題、および、Transformerの注意機構(アテンション機構)の推定誤りによりスキップまたは過剰に繰り返されるフレームがあるという不安定な変換が実行されるという問題がある。
【0004】
これらの問題を解決するために、非自己回帰型モデルを用いた技術が提案されている(例えば、非特許文献2を参照)。この技術では、最初に従来の自己回帰型モデルを教師モデルとして学習し、入力音声と出力音声間のアライメントを取得する。その上で、この技術では、教師モデルで得られたアライメントを用いて生徒モデルである非自己回帰型モデルを学習する。最後に、この技術では、別途学習した波形生成ニューラルネットワークと組み合わせることにより、高速かつ安定した声質変換を実現することができる。
【先行技術文献】
【非特許文献】
【0005】
R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763.
T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非自己回帰型モデルを用いた技術(非特許文献2に開示されている技術)では、自己回帰モデルを用いた技術と比べて高速かつ安定した変換を実現してはいるが、以下の課題がある。
【0007】
第1に、上記の非自己回帰型モデルを用いた技術では、教師モデルである自己回帰モデル、生徒モデルである非自己回帰モデル、および音声波形生成モデルの3つのニューラルネットワークモデルをそれぞれ独立に学習する必要がある。そのため、推定誤差は最終的な音声波形生成モデルまで伝搬し、変換精度が劣化する。
【0008】
第2に、上記の非自己回帰型モデルを用いた技術では、入力音声と出力音声間のアライメントは教師自己回帰モデルにより推定するため、不安定である。
【0009】
第3に、上記の非自己回帰型モデルを用いた技術では、波形生成モデルは高速生成にはGPU(Graphics Processing Unit)が必要であり、CPU(Central Processing Unit)のみを用いて、高速かつ高品質に、音声波形を生成する処理を実行することは困難である。
【0010】
第4に、上記の非自己回帰型モデルを用いた技術では、非自己回帰モデルの入力特徴量にはメルスペクトログラムだけではなく基本周波数およびパワーも入力する必要があるが、これらはメルスペクトログラムからでも推定可能な量であるため、冗長である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
弦楽器および弦楽器用振動板
10日前
株式会社第一興商
カラオケ装置
20日前
個人
楽器またはスピーカの支持具
17日前
トヨタ自動車株式会社
音声認識装置
10日前
個人
弦楽器付属品
17日前
PACRAFT株式会社
容器処理システム
17日前
TOA株式会社
評価システム及び評価プログラム
19日前
東芝テック株式会社
マスキング装置
5日前
トヨタ自動車株式会社
情報処理装置及び方法
11日前
ソフトバンクグループ株式会社
電子機器
6日前
ソフトバンクグループ株式会社
電子機器
4日前
ソフトバンクグループ株式会社
電子機器
4日前
株式会社イノアックコーポレーション
吸音構造、及び車両部品
12日前
日本電信電話株式会社
信号強調装置、方法及びプログラム
10日前
amptalk株式会社
プログラム、会話要約装置、および会話要約方法
4日前
ソフトバンクグループ株式会社
行動制御システム
5日前
ソフトバンクグループ株式会社
エージェントシステム
5日前
ソフトバンクグループ株式会社
エージェントシステム
5日前
ソフトバンクグループ株式会社
エージェントシステム
5日前
TIS株式会社
対話システム、対話方法、および対話プログラム
17日前
株式会社 スマートエンジニアリング
情報処理システム、および情報処理プログラム
17日前
株式会社東芝
音声入力支援プログラム及び音声入力支援装置
4日前
株式会社河合楽器製作所
ドロップアクションを有するピアノ
20日前
TOA株式会社
音響システム
20日前
CASE特許株式会社
音声応答システム
12日前
株式会社JVCケンウッド
情報処理装置、情報処理方法、およびプログラム
17日前
カシオ計算機株式会社
電子機器、電子楽器、制御方法及びプログラム
10日前
個人
シングルリード向け木管楽器用リガチャー
10日前
個人
シングルリード向け木管楽器用リガチャー
10日前
カシオ計算機株式会社
表示方法、電子絵本システム及び情報処理装置
17日前
ローランド株式会社
電子楽器、自動操作方法および自動操作プログラム
20日前
カシオ計算機株式会社
電子機器、電子楽器、出力制御方法及びプログラム
19日前
AlphaTheta株式会社
音響装置、プログラム、および制御方法
17日前
株式会社イノアックコーポレーション
吸音ボード
4日前
株式会社鷺宮製作所
ヘルムホルツ共鳴器およびこれを備えた吸音装置、振動発電装置
18日前
フラックスウッド・オサケユフティオ
楽器のネック及び楽器のネックのフレットボードの製造方法
10日前
続きを見る