TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024118704
公報種別公開特許公報(A)
公開日2024-09-02
出願番号2023025134
出願日2023-02-21
発明の名称声質変換処理システム、および、声質変換処理方法
出願人国立研究開発法人情報通信研究機構
代理人個人,個人
主分類G10L 21/007 20130101AFI20240826BHJP(楽器;音響)
要約【課題】入力音声と出力音声との間のアライメントを安定して推定でき、かつ、CPUのみで、高精度、高品質な声質変換処理を実行する声質変換処理システム及び方法を提供する。
【解決手段】声質変換処理システム1000において、継続長予測処理部3は、単調かつ単射となるように最適化されたアライメントにより導出される継続長データと同等の継続長データを予測するように学習されたモデルにより、継続長データを取得するので、取得される継続長データの精度が高くなり、その結果、この声質変換処理システムで取得される声質変換したデータの精度も高くなる。したがって、声質変換処理システム1000では、入力音声と出力音声との間のアライメントを安定して推定でき、そして、音声波形データ取得処理部において、CPUのみで高速処理が可能な学習モデルを設定することで、CPUのみで、高精度、高品質な声質変換処理を実行することができる。
【選択図】図1
特許請求の範囲【請求項1】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理部と、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理部と、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理部と、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理部と、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
続きを表示(約 1,900 文字)【請求項2】
前記エンコード処理部、前記継続長予測処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項1に記載の声質変換処理システム。
【請求項3】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理システムであって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理部と、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理部と、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理部と、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理部と、
を備える声質変換処理システム。
【請求項4】
前記エンコード処理部、前記分散適応処理部、前記デコード処理部、および、前記音声波形データ取得処理部は、
パラメータ設定可能な学習モデルを含み、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された前記学習モデルを含んでいる、
請求項3に記載の声質変換処理システム。
【請求項5】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムである入力データに対してエンコード処理を行うことで、潜在変数取得用統計データを取得するエンコード処理ステップと、
前記入力データに対して、継続長予測処理を行うことで、継続長データを取得する継続長予測処理ステップと、
前記潜在変数取得用統計データと前記継続長データから、継続長を考慮した中間特徴量データである継続長考慮中間特徴量データを取得するアライメント処理ステップと、
前記継続長考慮中間特徴量データに対してデコード処理を行うことで、潜在変数データを取得するデコード処理ステップと、
前記潜在変数データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備え、
前記エンコード処理ステップ、前記継続長予測処理ステップ、前記デコード処理ステップ、および、前記音声波形データ取得処理ステップは、
前記入力話者の音声波形データと、当該音声波形データの声質変換した音声波形の正解データとを用いて学習処理を行い取得された最適化パラメータが設定された学習モデルによる処理を含む、
声質変換処理方法。
【請求項6】
入力話者の音声波形データを声質変換した音声波形データに変換する声質変換処理方法であって、
前記入力話者の音声波形データに対応するメルスペクトログラムまたは線形スペクトログラムに対してエンコード処理を行うことで、第1中間特徴量データを取得するエンコード処理ステップと、
前記第1中間特徴量データから、前記声質変換した音声波形データの継続長データ、エネルギーデータ、および、中心周波数データを予測し、予測した当該継続長データ、音声エネルギーデータ、および、対数基本周波数データを考慮した中間特徴量データである第2中間特徴量データを取得する分散適応処理ステップと、
前記第2中間特徴量データに対してデコード処理を行うことで、第3中間特徴量データを取得するデコード処理ステップと、
前記第3中間特徴量データに対して、音声波形データ取得処理を行うことで、声質変換された音声波形データを取得する音声波形データ取得処理ステップと、
を備える声質変換処理方法。

発明の詳細な説明【技術分野】
【0001】
本発明は、ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術に関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
ニューラルネットワークを用いた音声技術はここ数年で進展を遂げ、テキスト音声合成においては自然音声とほぼ変わらない高品質な合成が可能となっている。ある話者の音声を、発話内容を維持したまま別の話者の音声へと変換する声質変換技術においても、ニューラルネットワークを用いた方式により高品質な変換が実現されている。その中でも、系列変換型声質変換モデルは、従来のフレーム変換モデルと比較して、話速や韻律まで変換可能であり、注目を集めている。
【0003】
機械翻訳で登場したTransformer型ニューラルネットワークモデルを用いることにより、入力話者の音声特徴量系列の長さと出力話者の音声特徴量系列の長さとが異なる場合も直接変換が可能な系列変換型声質変換モデルが提案され(例えば、非特許文献1を参照)、複数話者同士の声質変換技術やテキスト音声合成技術を組み合わせることにより少量のペアデータで声質変換技術を実現する方式も提案されている。しかし、これらの技術では、自己回帰型モデルを用いているため、生成速度が遅いという問題、および、Transformerの注意機構(アテンション機構)の推定誤りによりスキップまたは過剰に繰り返されるフレームがあるという不安定な変換が実行されるという問題がある。
【0004】
これらの問題を解決するために、非自己回帰型モデルを用いた技術が提案されている(例えば、非特許文献2を参照)。この技術では、最初に従来の自己回帰型モデルを教師モデルとして学習し、入力音声と出力音声間のアライメントを取得する。その上で、この技術では、教師モデルで得られたアライメントを用いて生徒モデルである非自己回帰型モデルを学習する。最後に、この技術では、別途学習した波形生成ニューラルネットワークと組み合わせることにより、高速かつ安定した声質変換を実現することができる。
【先行技術文献】
【非特許文献】
【0005】
R. Liu, X. Chen, and X. Wen, "Voice conversion with transformer network," in Proc. ICASSP, May 2020, pp. 7759-7763.
T. Hayashi, W.-C. Huang, K. Kobayashi, and T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," in Proc. ICASSP, June 2021, pp. 7068-7072.
【発明の概要】
【発明が解決しようとする課題】
【0006】
非自己回帰型モデルを用いた技術(非特許文献2に開示されている技術)では、自己回帰モデルを用いた技術と比べて高速かつ安定した変換を実現してはいるが、以下の課題がある。
【0007】
第1に、上記の非自己回帰型モデルを用いた技術では、教師モデルである自己回帰モデル、生徒モデルである非自己回帰モデル、および音声波形生成モデルの3つのニューラルネットワークモデルをそれぞれ独立に学習する必要がある。そのため、推定誤差は最終的な音声波形生成モデルまで伝搬し、変換精度が劣化する。
【0008】
第2に、上記の非自己回帰型モデルを用いた技術では、入力音声と出力音声間のアライメントは教師自己回帰モデルにより推定するため、不安定である。
【0009】
第3に、上記の非自己回帰型モデルを用いた技術では、波形生成モデルは高速生成にはGPU(Graphics Processing Unit)が必要であり、CPU(Central Processing Unit)のみを用いて、高速かつ高品質に、音声波形を生成する処理を実行することは困難である。
【0010】
第4に、上記の非自己回帰型モデルを用いた技術では、非自己回帰モデルの入力特徴量にはメルスペクトログラムだけではなく基本周波数およびパワーも入力する必要があるが、これらはメルスペクトログラムからでも推定可能な量であるため、冗長である。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する
Flag Counter

関連特許

個人
非電子的残響スピーカー
20日前
個人
ギター演奏用ピック
7日前
個人
リガチャー付メタル製マウスピース
27日前
ヤマハ株式会社
ドラムスタンド
1か月前
カシオ計算機株式会社
蓋部材および鍵盤楽器
今日
個人
リード管楽器用音響改善装置
27日前
株式会社ファーストスター・ヘルスケア
音楽提供システム
20日前
株式会社第一興商
カラオケ装置
1か月前
株式会社第一興商
カラオケ装置
21日前
ニチアス株式会社
吸音構造体
27日前
京セラ株式会社
音出力装置、音出力方法、及びプログラム
21日前
ヤマハ株式会社
低音強調方法及び低音強調装置
21日前
フジテック株式会社
エレベータの制御システム
1か月前
ローランド株式会社
鍵盤装置および鍵のガイド方法
6日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
6日前
株式会社日立プラントコンストラクション
作業記録作成支援システム
20日前
ソフトバンクグループ株式会社
行動制御システム
7日前
ヤマハ株式会社
情報処理方法および情報処理装置
28日前
ローランド株式会社
鍵盤装置および鍵のガイド方法
6日前
株式会社東芝
会話評価プログラム、装置及び方法
1か月前
ローランド株式会社
楽音処理装置、及び楽音処理方法
6日前
日産自動車株式会社
騒音制御方法及び騒音制御装置
29日前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
今日
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
今日
ローランド株式会社
ドラムパッチ及び打面の保護方法
1か月前
カシオ計算機株式会社
電子楽器及び電子鍵盤楽器
今日
ヤマハ株式会社
情報処理方法および情報処理システム
8日前
株式会社ユピテル
システム及びプログラム
1か月前
CASE特許株式会社
車載機及び車両
1か月前
能美防災株式会社
警報ベル
1日前
ユニチカ株式会社
吸音材およびこの吸音材を用いた吸音パネル
20日前
株式会社NTTドコモ
音声区間検出装置及び音声区間検出方法
29日前
学校法人早稲田大学
発話タイミング推定システムおよび対話システム、並びにプログラム
6日前
カシオ計算機株式会社
鍵盤装置、電子楽器
今日
株式会社VARK
音声配信システム、音声配信方法及びプログラム
6日前
ヤマハ株式会社
音響処理方法、音響処理システムおよびプログラム
今日
続きを見る